18.03.2024 09:52
Apple робить прорив у мультимодальному ШІ
Дослідники Apple досягли значного прогресу в галузі мультимодального ШІ, розробивши нові методи навчання великих мовних моделей на тексті та зображеннях.
Нова робота, описана в статті «MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training», демонструє, як ретельне поєднання різних типів навчальних даних та архітектур моделей може призвести до найсучасніших показників у низці тестів штучного інтелекту.
Моделі MM1, навчені на різноманітному наборі даних, що охоплює візуальну та лінгвістичну інформацію, продемонстрували успіх у таких завданнях, як підпис до зображень, візуальні відповіді на запитання та виведення природної мови.
Дослідження також показало, що вибір енкодера зображень і роздільна здатність вхідних зображень мали значний вплив на продуктивність моделі. Це свідчить про те, що подальше масштабування і вдосконалення візуальних компонентів цих мультимодальних моделей буде ключовим фактором для подальших досягнень.
Найбільша модель MM1 з 30 мільярдами параметрів продемонструвала сильні здібності до контекстного навчання, що дозволило їй виконувати багатокрокові міркування над декількома вхідними зображеннями. Це вказує на потенціал великих мультимодальних моделей для розв’язання складних проблем.
Дослідження MM1 з’явилося в той час, коли Apple нарощує свої інвестиції в штучний інтелект. Згідно з нещодавнім звітом Bloomberg, компанія планує витрачати 1 мільярд доларів на рік на розробку ШІ.
Apple працює над великою мовною моделлю під назвою «Ajax», а також над чат-ботом «Apple GPT». Ці технології можуть бути інтегровані в Siri, Messages, Apple Music та інші додатки та сервіси.
Генеральний директор Apple Тім Кук підкреслив важливість штучного інтелекту для компанії. Він заявив, що Apple «інвестує досить багато» в цю технологію і з часом користувачі побачать вдосконалення продуктів.
Нагадаємо, у лютому Apple оприлюднила MGIE — модель ШІ, яка полегшує редагування зображень на основі інструкцій природною мовою.