13.09.2024 13:12

OpenAI представила модель o1

OpenAI нещодавно представил а свою останню модель штучного інтелекту під назвою o1, яка раніше мала кодову назву «Strawberry», покликану значно покращити можливості аргументації у штучному інтелекті. Нова модель спрямована на покращення здатності штучного інтелекту розв’язувати складні проблеми в науці, математиці та кодуванні та витрачає більше часу на «роздуми» перед тим, як відповісти на запит, імітуючи когнітивні процеси, подібні до людських.

Модель o1 продемонструвала видатні здібності у змагальних завданнях. Вона посіла 89-й процентиль у змаганнях з програмування на Codeforces та увійшла до числа 500 найкращих студентів у відбірковому турі математичної олімпіади США (AIME). Крім того, модель досягла успіхів у природничих науках та продемонструвала точність, що перевершує рівень доктора наук у питаннях з фізики, біології та хімії у тесті GPQA. Такі досягнення підкреслюють майстерність o1 у розв’язанні складних проблем, створенні передових алгоритмів і проведенні детальних порівняльних аналізів, наприклад, при вивченні юридичних контрактів.

Порівняльний тест	Продуктивність
Codeforces (змагальне програмування)	89-й процентиль
AIME («Відбірковий етап математичної олімпіади США»)	500 найкращих студентів у США
GPQA (фізика, біологія, хімія)	Перевищує точність на рівні доктора наук
Міжнародна олімпіада з інформатики (IOI)	49-й процентиль у глобальному рейтингу
Codeforces Elo Rating 1807	93-й процентиль
Масштабне багатозадачне розуміння мови	Перевершує попередні моделі у 54 з 57 завдань

Джерело

Було представлено два варіанти: o1-preview та o1-mini. Версія o1-mini, оптимізована для кодування, швидша та на 80% дешевша у використанні порівняно з більшою моделлю o1-preview, водночас зберігаючи високу продуктивність у тестових завданнях з кодування. Це робить її особливо привабливою для розробників, яким потрібні потужні можливості міркувань без необхідності обробки великих масивів даних або просторих загальних питань.

Попри свій успіх, модель o1 стикається з проблемами. Вона дорожча, ніж GPT-4o, оскільки витрати на вхідні API втричі вищі та в чотири рази вищі на виході. Крім того, обробка складних запитів може займати понад 10 секунд. Наразі моделі бракує таких функцій, як перегляд вебсторінок і аналіз файлів, які доступні в інших системах штучного інтелекту. Також надходять повідомлення про збільшення кількості «галюцинацій», коли модель впевнено видає хибні відповіді.

Доступ до моделей o1 наразі обмежений користувачами ChatGPT Plus і Team, причому для кожного варіанту передбачені певні обмеження для повідомлень. Незабаром доступ отримають корпоративні та освітні користувачі, а розробники з п’ятим рівнем використання API зможуть негайно розпочати створення прототипів. OpenAI планує розширити доступ до o1-mini для користувачів безплатної версії ChatGPT, хоча точних строків поки не оголошено.