30.04.2024 17:27

Удосконалення моделей трансформерів за допомогою заповнюючих токенів

Використання токенів-заповнювачів у мовних моделях, заснованих на трансформерах, є помітним кроком вперед у дослідженнях ШІ, оскільки це дає змогу усунути ключові обмеження та розширити обчислювальні можливості. Традиційно ці моделі покладаються на пряму генерацію відповідей або проміжні кроки міркувань, відомі як токени «ланцюжка думок», для обробки та генерування людської мови. Однак нещодавні дослідження поставили під сумнів ефективність цих методів у покращенні обчислювальних міркувань.

Введення токенів-заповнювачів дослідниками з Центру науки про дані Нью-Йоркського університету пропонує новий підхід до подолання цих обмежень. Токени-заповнювачі, представлені беззмістовними рядками на кшталт «……», стратегічно розміщуються у вхідній послідовності, щоб опосередковано полегшити складні обчислення. На відміну від традиційних токенів, які сприяють розумінню тексту, токени-заповнювачі використовують прихований обчислювальний потенціал трансформерів, використовуючи їхнє приховане представлення.

Стилізований приклад, що демонструє різницю між трьома протоколами запитань-відповідей у мовних моделях: ланцюжок думок, лексеми-заповнювачі та негайна відповідь. У режимі заповнювачів моделі мови використовують довільні, нерелевантні проміжні лексеми (наприклад, «……») перед відповіддю, але приховані представлення цих лексем все одно забезпечують обчислення, релевантні для наступних лексем. Було показано, що ланцюжок думок забезпечує більшу виразність, ніж негайна відповідь (відповідно, бот «негайна відповідь» дає неправильну відповідь). Показано, що токени-заповнювачі можуть на певних завданнях відповідати продуктивності міркувань за принципом «ланцюжок думок». Джерело

Експерименти, проведені для оцінки ефективності токенів-заповнювачів, продемонстрували помітне поліпшення продуктивності трансформерних моделей, особливо на складних алгоритмічних завданнях. Наприклад, при застосуванні до задачі 3SUM моделі, що включають токени-заповнювачі, досягнуто ідеальної точності при довжині вхідних даних до 12, що демонструє значну обчислювальну перевагу над моделями без токенів-заповнювачів.

Кількісний аналіз продуктивності моделей з токенами-заповнювачами показав послідовне покращення в різних ситуаціях, що включають дані вищої розмірності. Ці токени послідовно підвищували точність моделі на складних завданнях, перевершуючи базові моделі й демонструючи потенціал для зміни параметрів управління обчислювальними ресурсами в мовних моделях.

Інтеграція токенів-заповнювачів є перспективним новим напрямком у розширенні можливостей штучного інтелекту щодо розв’язання завдань. Оминаючи обмеження традиційних стратегій використання токенів, токени-заповнювачі дають змогу трансформерам вирішувати складні завдання з більшою точністю та ефективністю. Цей інноваційний підхід підкреслює безперервний розвиток і вдосконалення мовних моделей, прокладаючи шлях до більш досконалих і потужних систем ШІ.