BTC$29880

ETH$3666

Шукати

Використання рекурентної пам’яті для довгого контексту в моделях NLP у фреймворку BABILong

Нещодавні здобутки в галузі машинного навчання дозволили створити моделі з більшими розмірами вхідних даних, однак квадратичне масштабування обчислень, необхідне для самонавчання трансформерів, ускладнює їхню реалізацію. Нещодавні дослідження запропонували перспективний метод розширення контекстних вікон у трансформерах за допомогою рекурентної пам’яті. Він передбачає додавання внутрішньої рекурентної пам’яті до попередньо навчених мовних моделей та оптимізацію їх для завдань, що включають довгі контексти, розділені на менші фрагменти.

Дослідження ще більше вдосконалило техніку рекурентної пам’яті, включивши в неї контекстний пошук, заснований на вбудовуванні вхідних сегментів у рекурентну пам’ять. Щоб оцінити здатність моделей обробляти довгі контексти, команда представила фреймворк BABILong, який являє собою генеративний бенчмарк для тестування моделей обробки природної мови. Цей бенчмарк фокусується на обробці документів довільної довжини, що містять розрізнені факти, з метою оцінки продуктивності моделей з надто довгими вхідними даними.

Трансформер з розширеною пам’яттю відповідає на питання про факти, приховані в дуже довгих текстах, коли не спрацьовує генерація доповненого пошуку. Новий набір даних BABILong було створено шляхом випадкового розподілу простих епізодичних фактів у масиві літератури. Звичайний метод RAG не дає відповіді на питання, оскільки порядок фактів має значення. GPT-4 LLM ефективно використовує лише частину контексту і не вистачає для повного вікна 128K. Мала LLM (GPT-2), доповнена рекурентною пам’яттю та налаштована на задачу, добре узагальнює до запису 11M токенів. Кількість параметрів для GPT-4 базується на результатах публічних обговорень. Джерело

За допомогою BABILong оцінюється, наскільки добре генеративні моделі обробляють довгі контексти, поступово додаючи речення з базового набору даних, допоки приклади не досягнуть потрібної довжини. Фоновий текст для цього тесту взято з книг з набору даних PG19, відібраних через їхню значну довжину та природну розгорнутість контексту.

Команда зосередилася на вдосконаленні тесту bAbI, який був розроблений для оцінювання здібностей до міркування. Завдання bAbI містять змодельовані персонажі та об’єкти, які рухаються та взаємодіють, а запитання ґрунтуються на створених фактах. Ці завдання оцінюють різні аспекти міркувань, зокрема просторове та часове міркування, дедукцію та вирішення основних питань. Команда підкреслила, що такі бенчмарки, як bAbI і BABILong, стійкі до витоку даних, на відміну від багатьох інших тестових наборів для обробки природної мови.

Поєднуючи речення завдання з довідковим матеріалом, автори припускають, що підхід «пошуку голки в стозі сіна» може бути використаний для більш складних завдань. Їхній основний внесок включає впровадження бенчмарку BABILong для обробки довгих документів з розрізненими даними, проведення аналізу моделей, таких як GPT-4 і RAG, на завданнях типу «запитання-відповідь» з мільйонами токенів на вході, а також досягнення нового рекорду для найбільшого розміру послідовності, що обробляється однією моделлю, до 11 мільйонів токенів, за допомогою оцінки рекурентного трансформатора пам’яті.