
07.09.2023 13:40
Запропоновано метод генерації пам’яті для покращення розмовної узгодженості у LLM
Останніми роками ми стали свідками сплеску інтересу та досліджень, пов’язаних з комунікаційними системами з відкритим доменом, зокрема чат-ботами. Однак підтримка змістовної та послідовної розмови протягом тривалого періоду є величезним викликом. Це вимагає здатності розуміти і зберігати важливий контекст попередніх обмінів.
Великі мовні моделі (LLM), такі як ChatGPT і GPT-4, продемонстрували вражаючу продуктивність у різних завданнях з природною мовою. Це призвело до розробки чат-ботів з відкритим доступом і для конкретних завдань, які використовують можливості підказок цих LLM. Тим не менш, навіть такі просунуті моделі, як ChatGPT, можуть мати труднощі з підтримкою контексту в тривалих дискусіях, що призводить до непослідовних відповідей.
Дослідники з Китайської академії наук та Університету Сіднея розпочали дослідження, щоб визначити, чи можна ефективно використовувати LLM у довготривалих розмовах, не покладаючись на марковані дані чи додаткові інструменти. Їхній підхід передбачає використання LLM для побудови рекурсивних резюме як форми пам’яті, натхненної методами розширення пам’яті. Цей підхід дозволяє моделі зберігати важливу інформацію з поточної розмови, гарантуючи, що вона залишається в курсі контексту.
На практиці LLM надається коротка довідкова інформація та інструкції щодо створення резюме. Згодом він поєднує це резюме з попередніми і наступними твердженнями, щоб створити нове резюме або пам’ять. Нарешті, LLM використовує останню збережену інформацію для прийняття обґрунтованих рішень.
Ця інноваційна схема пропонує багатообіцяюче рішення, що дозволяє сучасним LLM моделювати надзвичайно довгі розмови без необхідності внесення значних змін до налаштувань або архітектури моделі.
Ефективність цієї схеми продемонстровано шляхом експериментів на загальнодоступному довготривалому наборі даних з використанням зручного API LLM ChatGPT та text-davinci-003. Зокрема, дослідження показує, що навіть один маркований зразок може значно підвищити ефективність цієї стратегії.
Однак варто зазначити, що дослідження спирається виключно на автоматичні заходи для оцінки ефективності запропонованої методології, які можуть не враховувати всіх нюансів взаємодії чат-ботів у відкритому домені. Крім того, обчислювальні витрати, пов’язані з використанням великих моделей, є фактором, який необхідно враховувати в реальних умовах.
У майбутній роботі дослідники планують розширити своє дослідження в галузі моделювання довготривалого контексту, застосувавши свій підхід до інших завдань, таких як генерація історій. Вони також мають на меті вдосконалити свої можливості узагальнення, використовуючи локально налаштовані LLM, що може зменшити залежність від дорогих онлайн-інструментів обробки даних.