06.09.2024 13:44
HyperWrite представила потужну модель ШІ з відкритим кодом Reflection 70B
Генеральний директор HyperWrite Метт Шумер представив Reflection 70B, вдосконалену велику мовну модель (LLM), засновану на Meta Llama 3.1-70B Instruct. Reflection 70B використовує оригінальну техніку самокорекції помилок, що дозволило Шумеру назвати її «найкращою у світі моделлю штучного інтелекту з відкритим вихідним кодом». Протестований на таких бенчмарках, як MMLU і HumanEval, і дезактивований за допомогою LLM Decontaminator від LMSys, Reflection 70B впевнено перевершує серію Llama від Meta і може конкурувати з провідними комерційними моделями.
Ключовою особливістю Reflection 70B є його здатність розпізнавати та виправляти помилки в процесі міркувань. Шумер називає це «налаштуванням рефлексії» — оригінальним підходом, який дозволяє моделі виявляти помилки під час генерації вихідних даних і виправляти їх перед наданням остаточної відповіді. Ця здатність робить Reflection 70B особливо цінною для завдань з високими вимогами щодо точності.
Модель вводить спеціальні токени для міркувань і виправлення помилок, розділяючи своє мислення на структуровані кроки. Під час висновків вона позначає потенційні помилки в режимі реального часу, що сприяє підвищенню точності, особливо для складних або неоднозначних запитів. Ця функція була продемонстрована на прикладі звичайних запитів зі складними елементами для моделей штучного інтелекту. Попри те, що наразі час відгуку залишається повільним, Reflection 70B дає точні відповіді на запити з якими не справляються інші моделі.
Reflection 70B доступна для завантаження на Hugging Face, а доступ до API надається через Hyperbolic Labs. Компанія Shumer тільки розпочинає випуск серії Reflection, і незабаром планує випустити ще більшу модель, Reflection 405B. Компанія очікує, що ця нова модель перевершить найкращі доступні на ринку LLM з закритим вихідним кодом, такі як GPT-4o від OpenAI.
Ключем до швидкого розвитку Reflection 70B є синтетичні дані, згенеровані Glaive, стартапом, який спеціалізується на створенні наборів даних для певних завдань. Платформа Glaive уможливила швидке створення високоякісних синтетичних даних, що дозволило HyperWrite навчити Reflection 70B протягом п’яти ітерацій всього за три тижні. Така ефективність мала вирішальне значення для досягнення успіху моделі та підкреслює важливість спеціалізованих даних для вдосконалення моделей ШІ.
HyperWrite була заснована як Otherside AI, але згодом розвинулася в помітний стартап у царині ШІ, особливо завдяки своєму фірмовому асистенту для написання текстів зі штучним інтелектом. Станом на кінець 2023 року HyperWrite мала два мільйони користувачів і пропонувала такі функції, як підготовка електронних листів, узагальнення тексту та можливості персонального асистента. Шумер планує інтегрувати модель Reflection 70B в HyperWrite, додаючи її розширені можливості виправлення помилок та міркувань на цю платформу.