20.02.2024 15:43

Meta випускає V-JEPA — модель предиктивної архітектури для спільного вбудовування відео

У прагненні наділити машини когнітивними здібностями, подібними до людських, віце-президент і головний науковець зі штучного інтелекту компанії Meta Ян Лекун представляє V-JEPA (Video Joint Embedding Predictive Architectures), нову розробку у сфері штучного інтелекту. Заснована на принципах обґрунтованого розуміння і контекстного навчання, V-JEPA є значним кроком на шляху до досягнення більш узагальнених міркувань і можливостей планування в машинах.

Джерело

За своєю суттю, V-JEPA є негенеративною моделлю, призначеною для навчання на відео шляхом прогнозування відсутніх або замаскованих сегментів в абстрактному просторі представлення. На відміну від традиційних генеративних підходів, які намагаються заповнити кожен піксель, V-JEPA фокусується на прогнозуванні абстрактних описів, що призводить до покращення ефективності навчання та використання вибірки. Застосовуючи підхід самонавчання, V-JEPA використовує немарковані дані під час попереднього навчання, вимагаючи маркування лише для адаптації до конкретних завдань після навчання, тим самим спрощуючи процес навчання та підвищуючи ефективність.

Центральним елементом методології V-JEPA є стратегія маскування, яка передбачає затемнення частин відео, щоб спонукати модель передбачити відсутній контекст. Стратегічно маскуючи як просторові, так і часові елементи, V-JEPA змушена розвивати нюансоване розуміння відеоконтенту, фіксуючи високорівневу концептуальну інформацію, ігноруючи несуттєві деталі. Такий підхід гарантує, що модель навчиться інтерпретувати відео у спосіб, подібний до людського спостереження, сприяючи контекстуальному розумінню динамічних візуальних сцен.

Одне з ключових нововведень V-JEPA полягає в його здатності виконувати «заморожені обчислення», коли попередньо навчені компоненти моделі залишаються недоторканими під час адаптації до конкретного завдання. Це контрастує з попередніми підходами, які вимагали повного тонкого налаштування, що призводило до створення спеціалізованих моделей, погано пристосованих до різноманітних завдань. З V-JEPA Meta демонструє більш ефективний і гнучкий підхід до адаптації моделей, що дозволяє повторно використовувати попередньо навчені компоненти в різних задачах без втрати продуктивності або гнучкості.

У майбутньому Meta планує розширити можливості V-JEPA, включивши в неї мультимодальні дані, в тому числі аудіо, щоб покращити її розуміння світу. Крім того, компанія прагне дослідити застосування, що виходять за межі сприйняття, такі як планування та послідовне прийняття рішень, використовуючи контекстне розуміння V-JEPA для інформування майбутніх розробок у галузі штучного інтелекту.

У дусі відповідальної відкритої науки Meta випустила модель V-JEPA під некомерційною ліцензією творчого співтовариства (Creative Commons NonCommercial license, CC BY-NC), запрошуючи дослідників спиратися на фундамент цієї моделі і просувати сферу штучного інтелекту вперед. За допомогою V-JEPA компанія Meta продовжує розвивати технології штучного інтелекту, які імітують когнітивні процеси, подібні до людських, прокладаючи шлях до більш розумних і адаптивних машин.