14.10.2023 14:43
Новий метод, який перетворює довгий контекст на дерево підсумкових даних
Впровадження архітектури трансформерів завдяки механізму самонавчання, збільшенню розміру моделі та обсягу даних для попереднього навчання значно покращило роботу з великими мовними моделями (LLM). По мірі того, як потужність LLM зростає, користувачі все частіше прагнуть мати можливість аналізувати довші вхідні послідовності під час виведення. Це особливо важливо при вирішенні завдань, пов’язаних з великими текстами, такими як юридичні або наукові дослідження, а також при управлінні тривалими розмовами. Довша обробка контексту стає необхідною для ефективного опрацювання величезних обсягів інформації, необхідних для таких завдань.
Однак, незважаючи на прогрес, обмеження механізму самоуваги стають більш вираженими зі збільшенням довжини послідовності, що ускладнює відстеження великого обсягу спогадів. Для вирішення цієї проблеми застосовуються різні методи, включно з розробкою більш компактних та ефективних механізмів уваги, точним налаштуванням за допомогою екстрапольованих або інтерпольованих позиційних вбудовувань, використанням рекурентності для перенесення інформації з одного сегмента тексту в інший та пошуку відповідних уривків. Однак ці методи все ще мають певні обмеження. Розмір контекстного вікна залишається фіксованим незалежно від довжини послідовності, і не кожна частина послідовності має однаковий рівень уваги. Хоча рекурентний метод може обробляти послідовності невизначеної довжини, він часто забуває деталі з попередніх сегментів послідовності.
У відповідь на ці виклики дослідники з Прінстонського університету та Meta AI представили новий підхід. Вони розглядають обмежене контекстне вікно моделі як інтерактивного агента, вирішуючи вищезгадані обмеження. Для цього вони представили MEMWALKER – метод, який ітеративно проводить модель через довгі тексти.
MEMWALKER складається з двох основних кроків:
- Побудова дерева пам’яті
- Використання дерева для керування моделлю
На першому етапі довгий текст розбивається на керовані сегменти, які LLM може обробити. Потім LLM конденсує інформацію з кожного сегмента в єдиний підсумковий вузол. На основі цих вузлів будується гілчаста структура, в якій вузли вищого рівня узагальнюють вузли нижчого рівня. Обробляючи запит користувача, LLM повертається до початку дерева, аналізує кожну гілку і визначає шлях, який відповідає на запитання. Це дозволяє MEMWALKER ефективно обробляти великі тексти і визначати критичні частини, не вимагаючи від користувача тонкого налаштування.
Оцінюючи MEMWALKER, дослідницька група виявила, що система перевершила рекурентні, пошукові та звичайні LLM-системи, коли їм було поставлено завдання відповісти на різні типи запитань з розширеним контекстом. Навіть інші відкриті довгі контекстні системи, здатні обробляти від 8 000 до 16 000 токенів, не змогли зрівнятися з продуктивністю MEMWALKER. Дослідження також демонструє, що MEMWALKER може приймати обґрунтовані навігаційні рішення, використовувати робочу пам’ять під час проходження і виправляти ранні навігаційні помилки.
Однак дослідницька група визнає три суттєві обмеження MEMWALKER:
- Генерація дерева пам’яті може погано масштабуватися для дуже довгих послідовностей.
- Для ефективної роботи MEMWALKER потребує великого LLM (понад 70 мільярдів параметрів) та налаштування інструкцій.
- Його можливості інтерактивного читання обмежуються підказками з нуля, без використання точного налаштування.
Тим не менш, дослідники вважають, що MEMWALKER відкриває двері для захоплюючих майбутніх досліджень, включаючи розширення його застосування до структур даних за межами дерев і оптимізацію його продуктивності для завдань інтерактивного читання.