BTC$29880

ETH$3666

Шукати

MC-JEPA: Прогностична архітектура для самокерованого вивчення рухів

Останнім часом у самоконтрольованому навчанні зору домінують методи, що зосереджуються на вивченні особливостей контенту — зокрема тих, що дозволяють нам ідентифікувати та розрізняти об’єкти. Більшість методик зосереджені на визначенні широких характеристик, які добре працюють у таких завданнях, як категоризація предметів або виявлення активності у фільмах. Вивчення локальних особливостей, які підходять для регіональних завдань, таких як сегментація і виявлення, є відносно новою концепцією. Однак ці методи зосереджені на розумінні змісту зображень і відео, а не на вивченні характеристик пікселів, таких як рух у фільмах або текстури. 

У цьому дослідженні автори з Meta AI, дослідницького університету PSL та Нью-Йоркського університету зосереджуються на одночасному вивченні характеристик контенту за допомогою загального самонавчання та характеристик руху, використовуючи самоконтрольовані оцінки оптичного потоку з фільмів у якості привідної задачі. Коли два зображення — наприклад, послідовні кадри у фільмі або зображення зі стереопари — рухаються або мають щільне з’єднання пікселів, це фіксується оптичним потоком. У комп’ютерному зорі оцінка є основною проблемою, вирішення якої є важливим для таких операцій, як візуальна одометрія, оцінка глибини або відстеження об’єктів. За традиційними методами, оцінка оптичного потоку є проблемою оптимізації, яка має на меті зіставлення пікселів з вимогами до гладкості.

Проблема категоризації реальних даних замість синтетичних обмежує підходи з використанням нейронних мереж і керованого навчання. Методи самоконтролю зараз конкурують з методами навчання під наглядом, дозволяючи навчатися на значних обсягах реальних відеоданих. Однак більшість сучасних підходів звертають увагу лише на рух, а не на семантичний зміст відео. Ця проблема вирішується шляхом одночасного вивчення руху та елементів контенту на зображеннях з використанням багатозадачного підходу. Останні методи визначають просторові зв’язки між кадрами відео. Мета полягає в тому, щоб стежити за рухом об’єктів для збору даних про вміст, які не можуть бути отримані за допомогою оптичних оцінок потоку.

Ці методи є методами оцінки руху на рівні об’єкта. З відносно слабким узагальненням на інші візуальні завдання, вони набувають вузькоспеціалізованих характеристик для відстеження. Низька якість вивчених візуальних характеристик посилюється тим фактом, що вони часто навчаються на крихітних наборах відеоданих, які потребують більшої різноманітності, ніж великі набори зображень, такі як ImageNet. Одночасне навчання кількох видів діяльності є більш надійною технікою для розвитку візуальних уявлень. Для вирішення цієї проблеми автори пропонують MC-JEPA (Motion-Content Joint-Embedding Predictive Architecture). Використовуючи спільний кодер, ця система на основі архітектури спільного вбудовування з прогнозуванням навчається оцінювати оптичний потік і характеристики контенту в багатозадачному середовищі.

Нижче наведено короткий внесків цього дослідження:

  • запропоновано методику, засновану на PWC-Net, доповнену численними додатковими елементами, такими як зворотна втрата узгодженості і дисперсійно-коваріаційна регуляризація, для самоконтролю оптичного потоку на основі синтетичних і реальних відеоданих.
  • M-JEPA використовується з VICReg — технікою самоконтролю, навченою на ImageNet, у багатозадачній конфігурації для оптимізації оціненого потоку і забезпечення характеристик контенту, які добре переносяться на кілька наступних завдань. Остаточний підхід називається MC-JEPA.
  • підхід MC-JEPA було протестовано на різних тестах оптичного потоку, включаючи KITTI 2015 і Sintel, а також на завданнях сегментації зображень і відео на Cityscapes або DAVIS. Дослідники виявили, що один кодер добре справляється з кожним із цих завдань. Вони очікують, що MC-JEPA стане попередником методологій самоконтрольованого навчання, заснованих на спільному вбудовуванні та багатозадачному навчанні, які можуть навчатися на будь-яких візуальних даних, включаючи зображення та відео, і добре виконувати різні завдання, від прогнозування руху до розуміння контенту.