22.04.2024 15:07
Представлено сімейство невеликих, економічно ефективних моделей ШІ з відкритим вихідним кодом
Нещодавні досягнення в точному налаштуванні попередньо навчених великих мовних моделей для конкретних завдань привернули значний інтерес у спільноті штучного інтелекту. Цей метод, відомий як контрольоване точне налаштування (SFT), дозволяє ефективно налаштовувати великі мовні моделі для виконання цільових завдань, узгоджуючи їх з людськими вподобаннями. Такі методи, як пряма оптимізація переваг (DPO) та навчання з підкріпленням на основі зворотного зв’язку з людиною (RLHF), були розроблені, щоб забезпечити відповідність цих вдосконалених моделей людським смакам.
SFT передбачає надання інструкцій попередньо навченим великим мовним моделям, що дозволяє їм ефективно адаптуватися до різних завдань завдяки контрольованому навчанню. Цей процес не лише забезпечує логічні результати, але й демонструє адаптивність цих моделей через навчання на основі спостережень.
Однак обчислювальні витрати, пов’язані з точним налаштуванням великих мовних моделей з понад 100 мільярдами параметрів, можуть бути непомірно високими для багатьох компаній і приватних осіб. Крім того, створення наборів даних для точного налаштування є ресурсомістким і часто обмежується ліцензійними вимогами для комерційного використання.
Щоб розв’язати ці проблеми, дослідники з Surge Global розробили інноваційні методи генерації пар «інструкція-відповідь» з використанням моделей інструкцій з відкритим кодом, ліцензованих для комерційного використання. Цей підхід дозволяє обійти потребу в дорогих наборах даних і ліцензійних обмеженнях, що робить його більш доступним для практичного застосування.
Команда використала модель людського проксі та алгоритм переважування якісних і кількісних втрат (QLoRA) для покращення та точного налаштування даних. Результатом цього процесу стало створення сімейства моделей OpenBezoar, оптимізованих з базової моделі OpenLLaMA 3Bv2 за допомогою декількох кроків.
Фінальна контрольна точка, «OpenBezoar-HH-RLHF-DPO», була оцінена за допомогою фреймворку «LLM-as-a-judge» і показала чудову продуктивність порівняно з іншими моделями на шкалі параметрів 3B. Випуск контрольних точок OpenBezoar на таких платформах, як HuggingFace, ще більше сприяє доступності та використанню цих передових великих мовних моделей у різних додатках ШІ.