24.07.2023 13:08

Команда Stability AI представила FreeWilly1 та FreeWilly2

FreeWilly1 і його послідовник FreeWilly2 – це нові потужні великі мовні моделі (LLM) з відкритим вихідним кодом, розроблені командою CarperAI зі Stability AI. Обидві моделі демонструють винятково високі результати у змаганнях з міркувань, використовуючи безліч різних метрик. Для доопрацювання моделі FreeWilly1, побудованої на основі оригінальної базової моделі LLaMA 65B, було використано контрольоване точне налаштування (SFT) у стандартному для галузі форматі Alpaca. FreeWilly2 використовує базову модель LLaMA 2 70B для досягнення продуктивності на рівні GPT-3.5 в деяких завданнях.

На навчання моделей FreeWilly значною мірою вплинув новаторський підхід Microsoft, описаний у статті “Orca: прогресивне навчання на основі складних пояснювальних слідів GPT-4“. Команда запропонувала мовним моделям високоякісні інструкції для створення нашої копії набору даних, який містить 600 000 точок даних (приблизно 10% від розміру набору даних, використаного в оригінальній роботі Orca).

Використовуючи цей метод, дослідники згенерували 500 000 випадків за допомогою менш складної LLM-моделі і ще 100 000 – за допомогою більш складної LLM-моделі. Вони ретельно перевірили ці набори даних, видаливши випадки, що походять з оціночних еталонів, щоб гарантувати достовірність порівнянь. Їхній підхід до синтезованих наборів даних підтверджується моделями FreeWilly, які демонструють винятково хороші результати в різних тестах, незважаючи на те, що вони навчалися лише на десятій частині вибірки, використаної в оригінальній статті Orca.

Дослідники використовували lm-eval-harness від EleutherAI, до якого вони додали AGIEval, щоб провести оцінку цих моделей. Результати показують, що обидві моделі FreeWilly є першокласними при вирішенні складних питань у спеціалізованих дисциплінах, таких як право та математика, виконанні складних міркувань та розпізнаванні мовних нюансів.

Команда вважає, що ці дві моделі покращують нашу здатність розуміти розмовну мову і відкривають раніше неможливі можливості. Вони сподіваються побачити всі інноваційні способи використання цих моделей у штучному інтелекті.