21.07.2023 14:48

Ми знаємо, що LLM можуть використовувати інструменти, але чи знаєте ви, що вони також можуть створювати нові?

Великі Мовні Моделі (LLM) чудово справляються з широким спектром завдань з обробки природної мови і демонструють обнадійливі докази досягнення деяких рис штучного загального інтелекту. Нещодавні дослідження також виявили можливість доповнення Великих Мовних Моделей зовнішніми інструментами, що значно підвищує їхню здатність вирішувати проблеми та ефективність, подібно до того, як еволюціонував людський інтелект. Однак наявність відповідних інструментів є основним фактором, що визначає, наскільки застосовними є процедури використання цих інструментів. Відповідно до уроків, винесених з цих віх, здатність людей створювати свої інструменти для вирішення нових проблем стала значним поворотним моментом у розвитку людства.

У цьому проекті дослідники з Google Deepmind, Прінстонського та Стенфордського університетів застосовують цю еволюційну концепцію до сфери магістерських програм, мотивуючи це важливим значенням створення інструментів для людини. Запропонована ними система, що отримала назву “Великі мовні моделі як творці інструментів” (Large Language Models As Tool Makers, LATM), дозволяє LLM створювати свої багаторазові інструменти для виконання нових обов’язків. Їхня стратегія складається з двох важливих етапів:

Створення інструментів: LLM, якого часто називають розробником інструментів, створює інструменти (реалізовані у вигляді функцій Python), спеціально для конкретної роботи.
Застосування інструментів: Другий LLM, відомий як користувач інструменту, який може бути тією ж особою, що створила інструмент, застосовує інструменти для роботи з новими запитами.

Завдяки двоступеневому дизайну, LATM може доручати роботу найбільш кваліфікованому LLM на кожному етапі.

Зокрема, потужна, але ресурсномістка модель (наприклад, GPT-4) може моделювати компетентний процес створення інструментів. З іншого боку, легка і доступна модель (наприклад, GPT-3.5 Turbo) може бути віднесена до процедури використання інструментів, яка є значно простішою. Цей метод значно знижує середні обчислювальні витрати на обробку кількох завдань, водночас покращуючи навички розв’язання проблем у LLM. Для певної здатності процедуру створення інструменту потрібно виконати лише один раз. Таким чином, створені інструменти можуть бути застосовані до кількох завдань.

Цей метод забезпечує масштабовану та економічну альтернативу для вирішення складних проблем. Уявіть собі сценарій, коли користувач просить велику мовну модель організувати зустріч, яка влаштує всіх (наприклад, за допомогою обміну електронними листами). Складні арифметичні задачі часто не під силу невеликим моделям, таким як GPT-3.5 Turbo. Потужніші моделі, такі як GPT-4, можуть, однак, отримувати правильні відповіді, хоча й мають значно вищі витрати на виведення. Використовуючи потужну, але дорогу модель як виробника інструменту і передаючи її економічно ефективній моделі як користувачеві інструменту, LATM долає ці перешкоди. Після того, як інструмент було підроблено, користувач може використовувати його для швидкого та ефективного виконання роботи після того, як інструмент було створено.

*Велика мовна модель як виробник інструментів (LATM). Джерело*

Ця парадигма також може бути використана для вирішення відомих ігор, таких як 24-гранне судоку, і повторюваних завдань в інших процесах, таких як розбір і аналіз онлайн-статей у певні формати даних або створення планів маршрутизації, які відповідають різним спеціалізованим вимогам. Вони також додали диспетчер, ще один легкий LLM, який вирішує, чи можна вирішити проблему, що надійшла, за допомогою вже існуючих інструментів, чи потрібно розробити новий інструмент. Це надає їхній архітектурі додатковий ступінь динамічності і дозволяє створювати і використовувати інструменти в режимі реального часу. Їхні випробування демонструють ефективність цієї стратегії на різноманітних складних проблемах Big-Bench та складних мисленнєвих завданнях загалом.

Результати показують, що LATM може працювати так само добре, як і більш ресурсномісткі моделі, при цьому маючи більш прийнятну ціну. Захоплюючі можливості для суспільства, що розвивається, з використанням інструментів, створених на основі Великих мовних моделей, стали можливими завдяки цьому унікальному підходу до LLM, який імітує еволюційний стрибок людини у створенні та використанні інструментів.