20.05.2024 18:07
TII випустив Falcon 2-11B
Інститут технологічних інновацій (TII) в Абу-Дабі представив Falcon, передове сімейство мовних моделей, доступне за ліцензією Apache 2.0. Falcon-40B, перша модель цієї серії, позиціонується як «по-справжньому відкрита» модель з можливостями, порівнянними з багатьма пропрієтарними альтернативами, що свідчить про значний розвиток у сфері штучного інтелекту та відкриває широкі можливості для практиків, ентузіастів та індустрій.
Помітним доповненням до цього сімейства є Falcon2-11B, модель на основі єдиного декодера причинно-наслідкових зв’язків з 11 мільярдами параметрів. Ця модель була ретельно навчена на величезному масиві даних, що перевищує 5 трильйонів токенів, поєднуючи дані RefinedWeb з ретельно відібраними базами даних. Доступна за ліцензією TII Falcon License 2.0, дозвільною ліцензією на програмне забезпечення, натхненною Apache 2.0, і містить політику прийнятного використання для сприяння відповідальному використанню ШІ.
Falcon2-11B призначений для задач моделювання мовних причинно-наслідкових зв’язків, передбачення наступної лексеми в послідовності. Він базується на архітектурі GPT-3, але включає такі вдосконалення, як поворотні позиційні вбудовування, багатозапитну увагу, FlashAttention-2 та паралельну обробку уваги та блоків декодерів багатошарового персептрона, що відрізняє його від оригінальної моделі GPT-3.
Сімейство Falcon також включає моделі Falcon-40B і Falcon-7B. Falcon-40B лідирує у відкритому рейтингу LLM, вимагаючи приблизно 90 ГБ графічної пам’яті, що все ще менше, ніж у LLaMA-65B. Falcon-7B є ще доступнішим, йому потрібно лише близько 15 ГБ, що дозволяє робити висновки і тонке налаштування на споживчому обладнанні. TII пропонує навчальні варіанти цих моделей, оптимізовані для виконання завдань у форматі асистента. Обидві моделі навчаються на великих масивах даних, переважно з RefinedWeb, які є загальнодоступними. Вони використовують багатозапитну увагу для покращення масштабованості висновків, зменшуючи витрати ресурсів та дозволяючи проводити надійні оптимізації, такі як оптимізація станів. Це робить моделі Falcon серйозними конкурентами на ринку мовних моделей.
Дослідники виступають за використання великих мовних моделей як основи для спеціалізованих завдань, таких як узагальнення та чат-боти. Однак вони застерігають від безвідповідального або шкідливого використання без ретельної оцінки ризиків. Falcon2-11B, навчений на кількох мовах, може не узагальнювати далеко за межами цих мов і нести в собі упередженість, зумовлену веб-даними. Рекомендації включають доопрацювання для конкретних завдань і впровадження запобіжних заходів для відповідального виробничого використання.
Підсумовуючи, можна сказати, що впровадження Falcon від TII є революційним кроком у розвитку мовних моделей. Falcon-40B і Falcon-7B пропонують чудові можливості, причому Falcon-40B очолює рейтинг Open LLM Leaderboard. Falcon2-11B, з його інноваційною архітектурою та широкими можливостями навчання, ще більше збагачує сімейство Falcon. Хоча ці моделі мають величезний потенціал для різних сфер застосування, відповідальне використання має першорядне значення. Пильність щодо упереджень і ризиків, а також сумлінне налаштування під конкретні завдання забезпечують їх етичне та ефективне застосування в різних галузях промисловості. Моделі Falcon є багатообіцяючою межею інновацій у сфері ШІ, яка готова відповідально змінити багато сфер.