
08.09.2023 13:47
Ефективне розширення контекстного вікна з використанням меншої кількості токенів
Великі мовні моделі, такі як ChatGPT, можуть охоплювати ширший текстовий контекст, що підвищує їхню здатність генерувати зв’язні, контекстуально відповідні відповіді. Це особливо корисно для таких завдань, як заповнення тексту, де всебічне розуміння контексту документа має важливе значення.
Ці моделі чудово відображають складні взаємозв’язки та залежності між документами, навіть якщо вони охоплюють велику кількість лексем. Розширення контекстного вікна у великих мовних моделях, таких як GPT-3 або GPT-4, відноситься до діапазону тексту або лексем, які модель розглядає під час генерації або розуміння мови. Це розширення виявляється неоціненним для завдань узагальнення документів, де для створення точних резюме потрібне глибоке розуміння документа.
Rotary Position Embedding (RoPE) покращує роботу моделей з послідовними даними, фіксуючи позиційну інформацію всередині послідовностей. Однак ці моделі потребують узагальнення за межами довжини послідовності, на якій вони були навчені. Дослідники з Nous Research, Eleuther AI та Женевського університету представили YaRN (ще один метод розширення RoPE), який ефективно розширює контекстне вікно таких моделей.
RoPE використовує обертання комплексних чисел, що дозволяє моделі ефективно кодувати позиційну інформацію, не покладаючись виключно на фіксовані позиційні вбудовування. Такий підхід дозволяє моделі точніше відображати довгострокові залежності. Параметри обертання вивчаються під час навчання моделі, що дозволяє адаптивно налаштовувати її для оптимального захоплення позиційних зв’язків.
Їхній метод включає стискаючі трансформатори, які використовують механізми зовнішньої пам’яті для розширення контекстного вікна. Ці трансформатори зберігають і отримують інформацію із зовнішнього банку пам’яті, забезпечуючи доступ до контексту за межами стандартного розміру вікна. Розширення архітектури трансформаторів включають компоненти пам’яті, що дозволяє моделі зберігати і використовувати інформацію з попередніх токенів або прикладів.
Їхні експерименти демонструють успіх YaRN у розширенні контекстного вікна великих мовних моделей (LLM) всього за 400 кроків навчання, що становить лише 0,1% від початкового корпусу моделі перед навчанням. Це означає 10-кратне скорочення з 25 і 2,5-кратне скорочення кроків навчання з 7, що робить навчання дуже ефективним з точки зору обчислень без додаткових витрат на виведення.
Таким чином, YaRN покращує всі існуючі методи інтерполяції RoPE, замінюючи позиційну інтерполяцію (PI) без недоліків і з мінімальними зусиллями для реалізації. Точно налаштовані моделі зберігають свої початкові можливості на різних тестах, пристосовуючись до дуже великих розмірів контексту. Майбутні дослідження можуть включати розширення пам’яті, що дозволить моделям на основі трансформаторів включати зовнішні банки пам’яті для зберігання контекстно-релевантної інформації в таких завданнях, як відповіді на запитання або машинний переклад.