BTC$29880

ETH$3666

Шукати

Розблокування потокового нескінченного ретенційного потенціалу SirLLM

Стрімке поширення великих мовних моделей стимулювало розробку численних програм для обробки природної мови, зокрема чат-ботів, помічників для написання текстів і засобів програмування. Ці програми часто вимагають обробки даних необмеженої довжини та збереження великих обсягів пам’яті, яких бракує сучасним LLM. Збільшення довжини тексту для попереднього навчання є недоцільним, що зумовлює необхідність досліджень, спрямованих на те уможливлення обробки нескінченної довжини вхідних даних при збереженні пам’яті великої мовної моделі.

Нещодавні дослідження були зосереджені на збільшенні довжини вхідного контексту великої мовної моделі шляхом оптимізації механізмів уваги. Такі методи, як Sliding-window attention та StreamLLM, спрямовані на збільшення довжини введення, але стикаються з такими проблемами, як розсіювання уваги та втрата інформації. Ці проблеми спонукали дослідників вивчати методи фільтрації менш важливих токенів для збереження більшого обсягу пам’яті. Деякі підходи, такі як Sliding-window attention, обмежують кожну лексему останніми лексемами, щоб забезпечити стабільну швидкість декодування. Інші, такі як Sparse Transformer та LogSparse, спрямовані на збереження локальної контекстної інформації та покращення глобальної уваги. StreamLLM прагне досягти істинно нескінченної довжини вхідних даних, підтримуючи фокус як на початкових, так і на останніх токенах. Однак ці методи стикаються з проблемами збереження та забування токенів.

Феномен потоку уваги (Xiao et al., 2023). Було візуалізовано середній шар реєстрації уваги на 256 реченнях, кожне з яких має довжину 20, у Vicuna-7b-v1.3. Як бачимо, в поверхневих шарах значна частина балів уваги припадає на перші лексеми, а в останньому шарі модель більше фокусується на останніх лексемах. Джерело

Дослідники з Шанхайського університету Цзяо Тун та Університету Ухань представляють Streaming Infinite Retentive LLM (SirLLM) — модель, яка дозволяє великим мовним моделям підтримувати розширену пам’ять у діалогах нескінченної довжини без необхідності точного налаштування. SirLLM використовує метрику ентропії маркерів і механізм розпаду пам’яті для фільтрації ключових фраз, що покращує довготривалу та адаптивну пам’ять великої мовної моделі. Ефективність SirLLM оцінюється за допомогою трьох завдань і наборів даних: DailyDialog, Grocery Shopping та Rock-Paper-Scissors.

SirLLM розширює можливості пам’яті, вибірково зберігаючи стани ключ-значення важливих токенів, використовуючи значення ентропії. Система передбачає підтримку кешу ключ-значенняі кешу ентропії токенів. Коли кількість токенів у кеші ключ-значення перевищує довжину попереднього навчання, SirLLM обчислює ентропію кожного токена і зберігає ті з них, які мають вищу ентропію, заощаджуючи місце в кеші ключ-значення. Це робиться шляхом вибору верхніх «k» токенів з найвищою ентропією, оскільки вища ентропія означає більш інформативні ключові токени. SirLLM також коригує позиції токенів у кеші за відносною відстанню, зосереджуючись на позиціях кешу, а не на позиціях оригінального тексту.

Результати для набору даних «Камінь-ножиці-бумага». # Ентропія та # Недавні позначають розміри кешу для токенів з найвищою ентропією та для останніх токенів. «Камінь», «Папір» і «Ножиці» відповідають гравцям, які надають перевагу кожному відповідному ходу. «Виграш», «Нічия» і «Програш» означають відсоток виграшу (%), відсоток нічиєї (%) і відсоток програшу (%) відповідно. Джерело

Щоб уникнути жорсткої пам’яті, SirLLM використовує коефіцієнт розпаду «ηdecay» менше ніж 1, що дозволяє моделі забувати стару ключову інформацію після кожного раунду діалогу, підвищуючи гнучкість і зручність для користувача. Аналіз набору даних Rock-Paper-Scissors демонструє послідовну перевагу SirLLM над StreamLLM, демонструючи постійне поліпшення показників виграшу і підтримуючи високу продуктивність при різних вподобаннях гравців. Інтегрований механізм регресії в SirLLM допомагає підтримувати збалансовану продуктивність протягом декількох раундів, що робить його особливо вигідним у тривалих взаємодіях, таких як розширені ігрової механіки «Камінь-ножиці-бумага», де запам’ятовування попередніх ходів є вирішальним фактором.

Таким чином, SirLLM вирішує основні завдання, пов’язані з управлінням нескінченною довжиною вхідних даних та можливостями пам’яті. Вибірково підсилюючи ключову інформацію, SirLLM досягає тривалого збереження діалогу без необхідності точного налаштування моделі. У таких завданнях, як щоденний діалог, купівля продуктів і «Камінь-ножиці-бумага», SirLLM постійно перевершує наявні моделі, підтверджуючи свою надійність і універсальність. SirLLM є цінним активом для майбутніх досліджень і застосувань в обробці природної мови.