17.10.2023 17:59
Lemur для гармонізації природної мови та коду для мовних агентів
У широкому контексті інтелектуальні агенти — це автономні вирішувачі проблем, здатні сприймати, виносити судження і діяти на основі даних, зібраних з навколишнього середовища. Нещодавні застосування цієї концепції показали перспективність розробки мовних агентів, здатних виконувати широкий спектр складних завдань, використовуючи природну мову в різних контекстах. Це особливо очевидно, коли ці агенти побудовані з використанням великих мовних моделей (LLM). Такі агенти можуть імітувати людське мислення та мову, використовуючи людський досвід, що зберігається в LLM. Така гнучкість дозволяє людям адаптуватися до нових ситуацій, міркувати лінгвістично і навіть створювати мультиагентні системи “на льоту”.
LLM мають охоплювати людську взаємодію, міркування і планування, будучи вкоріненими в необхідних контекстах, щоб бути основою для мовних агентів. Природні мовні можливості LLM дозволяють їм точно імітувати людські розмови, процеси мислення і планування. Однак виконання дій у конкретних середовищах зазвичай покладається на код загального призначення або специфічні для домену API. Наприклад, ці API можна використовувати для керування веб-браузерами, взаємодії з інтерфейсами командного рядка операційної системи або керування роботизованими маніпуляторами.
Щоб заповнити цю прогалину, нещодавнє дослідження, проведене Гонконгським університетом, XLang Lab, Salesforce Research, Sea AI Lab, University of Washington і MIT CSAIL, створили Lemur і Lemur-Chat — дві найсучасніші загальнодоступні моделі, які були попередньо навчені і точно налаштовані, щоб досягти балансу між текстом і кодом. Завдяки ретельно розробленим етапам попереднього навчання та доопрацювання, дослідники вдосконалили оригінальну модель Llama-2-70B. Вони створили код-орієнтований каркас на основі системи з 90 мільярдів токенів із співвідношенням тексту до коду 10:1. Цей прототип, відомий як Lemur, має на меті забезпечити чудові можливості кодування, зберігаючи при цьому володіння природною мовою. Щоб створити модель, що виконує інструкції, Lemur-Chat, вони попередньо навчили її, використовуючи близько 100 тис. прикладів з тексту та коду. Після всебічного оцінювання за вісьмома текстовими та кодувальними тестами, Lemur та Lemur-Chat виявилися найбільш досконалими моделями з відкритим вихідним кодом.
Крім того, ця робота спрямована на встановлення стандартів для оцінювання основних компетенцій мовних агентів у різних середовищах. Команда приділяє особливу увагу здатності агентів взаємодіяти з інструментами та орієнтуватися як у навколишньому середовищі, так і в соціальному зворотному зв’язку. Вони також досліджують виклики, пов’язані з реальними сценаріями, коли агент повинен оперувати неповною інформацією та вживати додаткових заходів, щоб заповнити прогалини. У 12 з 13 тестів агентів Lemur-Chat перевершує інші моделі з відкритим вихідним кодом, що підкреслює його здатність подолати розрив у продуктивності між відкритими та комерційними альтернативами, поєднуючи природну мову та навички кодування.
Результати цих оцінок підкреслюють важливість поєднання лінгвістичних та обчислювальних навичок в агентних середовищах. Такі моделі, як Llama-2-70B-Chat, які добре обробляють природну мову, але мають проблеми з кодуванням, можуть ефективно використовувати базові інструменти для міркувань завдяки обмеженому простору дій і низьким зусиллям, що вимагаються. І навпаки, коли вони стикаються зі складними сценаріями прийняття рішень, такими як перегляд веб-сторінок і домашня навігація, моделі з потужними можливостями кодування мають перевагу в побудові складних послідовностей виконуваних дій. Таким чином, чудову продуктивність Лемура можна пояснити його майстерністю як в обробці природної мови, так і в програмуванні. Це дослідження слугує фундаментальним кроком у розробці вдосконалених мовних агентів, здатних досягати успіху в різноманітних умовах завдяки оптимізації синергії між природною мовою та мовою програмування.