BTC$29880

ETH$3666

Шукати

Два фреймворки на основі схожих концепцій для розширених аргументацій з великими мовними моделями

Кожен день приносить значний прогрес у великих мовних моделях (“Large Language Models”, LLM), що призводить до появи революційних інструментів і досягнень. Ці LLM відмінно справляються з різними завданнями, включаючи генерацію тексту, класифікацію почуттів, класифікацію текстів і класифікацію з нульовим результатом. Їхні можливості виходять за межі цих сфер, дозволяючи автоматизувати створення контенту, обслуговування клієнтів і аналіз даних, тим самим революціонізуючи продуктивність і ефективність.

Нещодавно дослідники також почали вивчати використання та корисність LLM для міркувань. Ці моделі можуть розуміти складну текстову інформацію та робити з неї логічні висновки. LLM відмінно справляються з такими завданнями, як відповіді на запитання, розв’язання проблем і прийняття рішень. Однак, вони все ще не можуть працювати так, як люди, намагаючись вирішити проблеми, які були б легкими для людей, такі як створення планів дій для виконання завдань у певному середовищі або виконання складних математичних, логічних та здорових міркувань. Великим мовним моделям важко впоратися з певними завданнями, оскільки вони не мають внутрішньої моделі світу, як у людей. Це означає, що вони не можуть передбачити, як будуть розвиватися події в тій чи іншій ситуації, або змоделювати довгострокові результати дій. Люди володіють внутрішньою моделлю світу, ментальною репрезентацією навколишнього середовища, яка дозволяє їм моделювати дії та їхній вплив на стан світу для свідомого планування під час виконання складних завдань.

Щоб подолати ці проблеми, дослідники розробили новий фреймворк міркувань, Reasoning via Planning (RAP). Ця система використовує бібліотеку, яка дозволяє магістрам наук виконувати складні міркування, використовуючи передові алгоритми міркувань. Ця система підходить до методології багатокрокових міркувань як до планування і шукає оптимальний ланцюжок міркувань, який досягає найкращого балансу між розвідкою та експлуатацією з ідеєю “Моделі світу” та “Винагороди”. Окрім документу RAP, дослідницька група також пропонує аргументатори великих мовних моделей (LLM Reasoners) бібліотека штучного інтелекту, призначена для надання мовним моделям (LLM) можливості здійснювати складні міркування за допомогою вдосконалених алгоритмів. Вона сприймає багатокрокові міркування як планування, пошук найефективнішого ланцюжка міркувань та оптимізацію балансу між розвідкою та експлуатацією, використовуючи концепції “Модель світу” та “Винагорода”. Все, що вам потрібно зробити, це визначити функцію винагороди і, за бажанням, модель світу. LLM Reasoners зробить все інше, включаючи алгоритми міркувань, візуалізацію, виклик LLM і багато іншого!

Модель світу розглядає часткове рішення як стан і просто додає нову дію/думку до стану як перехід до стану. Функція винагороди має вирішальне значення для оцінки того, наскільки добре виконується крок міркування. Ідея полягає в тому, що ланцюжок міркувань з вищою накопиченою винагородою, швидше за все, буде правильним.

Дослідники провели широке дослідження цієї концепції. Вони застосували RAP до кількох складних завдань на математичне мислення та логічний висновок. Практичні результати цих завдань показують, що RAP перевершує кілька сильних базових методів. При застосуванні до LLaMA33B RAP перевершує CoT на GPT-4, досягаючи вражаючого 33% відносного покращення в генерації планів.

Під час процесу міркувань LLM розумно будує дерево міркувань, безперервно оцінюючи найкращі можливі кроки (дії) міркувань. Для цього він використовує свою модель світу, яка є тією ж моделлю, що й модель LLM, але в інший спосіб. Моделюючи майбутні результати, LLM оцінює потенційні винагороди і використовує цю інформацію для оновлення своїх переконань щодо поточних кроків міркувань. Таким чином, він вдосконалює свої міркування, досліджуючи кращі альтернативи та покращуючи свої рішення. Цей фреймворк пропонує найсучасніші алгоритми міркувань, забезпечує інтуїтивно зрозумілу візуалізацію та інтерпретацію, а також сумісний з будь-якими іншими бібліотеками LLM.

Дослідники підкреслюють, що після проведення масштабних експериментів над різними складними проблемами міркувань, було зроблено висновок про перевагу RAP над кількома сучасними підходами до міркувань на основі CoT. У певних умовах фреймворк навіть показав кращі результати, ніж просунутий GPT-4. Гнучкість RAP у розробці винагород, станів і дій демонструє його потенціал як універсального фреймворку для вирішення різноманітних завдань з міркування. Захоплююче спостерігати за тим, як RAP поєднує планування та міркування в інноваційний спосіб. Цей підхід потенційно може революціонізувати наш підхід до міркувань LLM, прокладаючи шлях для систем штучного інтелекту до стратегічного мислення та планування на рівні людини.