18.09.2023 14:55

Представлено фреймворк Python з відкритим вихідним кодом для автономних мовних агентів

Мовні агенти мають потенціал для значного зменшення людських зусиль у таких завданнях, як обслуговування клієнтів, консультування, програмування, написання текстів, викладання тощо. Нещодавні демонстрації мовних агентів, таких як AutoGPT і BabyAGI, привернули широку увагу дослідників, розробників і широкої громадськості.

Однак більшість цих демонстрацій і репозиторіїв не призначені для легкого налаштування, конфігурації та розгортання нових мовних агентів. Вони часто слугують демонстраціями концепції, що підкреслюють можливості мовних агентів, але не мають надійної основи, необхідної для поступової розробки та налаштування.

Крім того, дослідження показують, що багато ресурсів з відкритим вихідним кодом охоплюють лише невелику частину основних можливостей мовних агентів, таких як декомпозиція завдань, довгострокова пам’ять, веб-навігація, використання інструментів і багатоагентна комунікація. Більшість існуючих фреймворків мовних агентів значною мірою покладаються на короткі описи завдань і можливості планування та дії мовної моделі. Це призводить до труднощів при модифікації та точному налаштуванні мовних агентів, що призводить до поганого користувацького досвіду через високу випадковість і неузгодженість між прогонами.

Щоб усунути ці обмеження, дослідники з AIWaves Inc., Чжецзянського університету та Швейцарської вищої технічної школи Цюріха представили AGENTS — бібліотеку та фреймворк мовних агентів з відкритим вихідним кодом. AGENTS має на меті спростити кастомізацію, налаштування та розгортання мовних агентів навіть для неспеціалістів, залишаючись при цьому легко розширюваною для програмістів та дослідників. Бібліотека пропонує основні можливості, які роблять її гнучкою платформою для мовних агентів:

Довгострокова та короткострокова пам’ять: AGENTS включають компоненти пам’яті, що дозволяє мовним агентам оновлювати короткочасну робочу пам’ять за допомогою скретч-панелі, а також зберігати та отримувати довготривалу пам’ять за допомогою VectorDB та семантичного пошуку. Користувачі можуть вирішити, чи надавати агенту довготривалу, короткотривалу пам’ять, чи обидві, просто налаштувавши його у налаштуваннях.
Веб-навігація та використання інструментів: AGENTS підтримує автономних агентів у використанні зовнішніх інструментів та перегляді веб-сторінок. Він включає підтримку широко використовуваних зовнішніх API і надає абстрактний клас для полегшення інтеграції додаткових інструментів. Веб-пошук та навігація розглядаються як спеціалізовані API, що дозволяє агентам переглядати Інтернет та збирати інформацію.
Багатоагентна взаємодія: AGENTS підтримує настроювані багатоагентні системи та можливості одного агента, корисні для таких додатків, як ігри, соціальні експерименти та розробка програмного забезпечення. Він впроваджує “динамічне планування”, дозволяючи агенту-контролеру модерувати і вирішувати, який агент повинен виконати наступну дію на основі ролей і нещодавньої історії, сприяючи гнучкій і природній комунікації між агентами.
Взаємодія між людиною та агентом: AGENTS підтримує взаємодію та спілкування між однією або кількома людьми та мовними агентами як в одноагентних, так і в багатоагентних сценаріях.
Контрольованість: AGENTS представляє парадигму розробки керованих агентів з використанням символічних планів, також відомих як Стандартні Операційні Процедури (Standard Operating Procedures, SOP). SOP — це схеми, які описують різні стани, з якими агент може зіткнутися під час виконання завдання, а також правила переходу між станами. AGENTS дозволяє користувачам створювати та змінювати SOP, забезпечуючи тонкий контроль над поведінкою, стабільністю та передбачуваністю агента.

Фреймворк AGENTS має на меті полегшити дослідження мовних агентів для дослідників, розробку додатків для розробників, а також створення та модифікацію агентів для нетехнічної аудиторії. Він пропонує комплексну та гнучку платформу для вивчення можливостей мовних агентів у різних галузях.