BTC$29880

ETH$3666

Шукати

Вдосконалення точного налаштування великих мовних моделей для розв’язування математичних задач

Навіть найдосконаліші великі мовні моделі (LLM), такі як GPT-4 і PaLM 2, стикаються з проблемами, коли справа доходить до розв’язання математичних задач, що вимагають застосування творчої складової, математичних міркувань і обчислень. Ймовірність того, що великі мовні моделі знайдуть правильне рішення, значно зростає, якщо їм дозволити спробувати розв’язати задачу кілька разів. Це свідчить про те, що LLM мають потенціал для покращення своїх здібностей до розв’язування арифметичних задач.

Наприклад, попередньо навчена модель PaLM 2-L може досягти точності близько 33,4%, використовуючи метод жадібного декодування. Однак, коли 64 розв’язки були відібрані за допомогою температурної вибірки, принаймні одна правильна відповідь була знайдена у 79,4% випадків (pass@64), таблиця наведена нижче.

Результати точного налаштування контрольованих розчинів. Набір даних MATH і набір даних PRM800K, являють собою два різних джерела навчальних даних, мають протилежні результати. Джерело

Такий значний розрив у продуктивності вказує на те, що LLM можуть генерувати точні відповіді, але їм важко відрізнити правильні рішення від неправильних. Щоб усунути цю різницю в продуктивності, дослідники вивчили методи точного налаштування для конкретних завдань, які можуть покращити здатність LLM розробляти та оцінювати рішення.

Було розглянуто три методи тонкого налаштування:

  1. Контрольоване покрокове доопрацювання рішень (SSFT): Ця методика досліджує, чи можуть попередньо навчені великі мовні моделі отримати користь від контрольованого доопрацювання як відправної точки. LLM налаштовуються для надання повного рішення та відповіді.
  2. Переранжування кластерів рішень (SCR): SCR має на меті покращити здатність великих мовних моделей оцінювати рішення. Він поєднує голосування більшістю голосів з переранжуванням, покращуючи результати голосування більшістю голосів. Це досягається шляхом групування відповідей кандидатів на основі їх математичної еквівалентності та застосування оцінювача рішень до рішень у найпоширеніших кластерах.
  3. Послідовне налаштування багатозадачності: На додаток до завдання оцінювання рішень, вони спрямовані на підвищення продуктивності великих мовних моделей при генерації рішень. Ця методика розглядає задачу оцінки рішення як задачу генерації природної мови, пропонуючи цінний нагляд за моделлю генерації рішень. Модель налаштовується в три етапи: спочатку як генеруючий механізм (SSFT), потім як оцінювач рішень (SCR), і, нарешті, як утворюючий модуль (SSFT).

За допомогою PaLM 2-S* та PaLM 2-L було проведено широке дослідження на складному наборі математичних даних, що дозволило зробити кілька ключових висновків:

  • Якість і стиль покрокових розв’язків суттєво впливають на точність моделі, причому SSFT більше виграє від добре відформатованих відповідей.
  • Переранжування лише найпоширеніших кластерів рішень може дати кращі результати, ніж переранжування всіх рішень, що підвищує обчислювальну ефективність.
  • Навчання моделі як для задач генерації рішень, так і для задач оцінювання, як показано в запропонованому послідовному доопрацюванні, є більш ефективним для підвищення продуктивності моделі генерації рішень порівняно з лише контрольованим доопрацюванням рішень.