
30.09.2023 14:25
Стрибок до мультимодального навчання роботів з крос-модальним мисленням
Дослідники представили передовий фреймворк під назвою MUTEX, що розшифровується як “Мультимодальна специфікація завдань для виконання роботами”. Цей фреймворк має на меті значно розширити можливості роботів у допомозі людям. Вона вирішує ключову проблему в існуючих методах навчання роботів, які часто зосереджуються на одній модальності специфікації завдань, обмежуючи здатність роботів розуміти різноманітні методи комунікації.
MUTEX застосовує новий підхід, об’єднуючи вивчення політик з різних модальностей. Це означає, що тепер роботи можуть розуміти і виконувати завдання на основі інструкцій, переданих через мову, текст, зображення, відео тощо. Цей цілісний підхід є важливим кроком на шляху до того, щоб зробити роботів універсальними співробітниками в людино-робочих командах.
Процес навчання фреймворку складається з двох етапів. На першому етапі він поєднує в собі масковане моделювання та завдання на крос-модальне узгодження. Масковане моделювання заохочує крос-модальні взаємодії, маскуючи певні токени або ознаки в кожній модальності і вимагаючи від моделі передбачити їх, використовуючи інформацію з інших модальностей. Це гарантує, що фреймворк може ефективно використовувати інформацію з різних джерел.

На другому етапі крос-модальне зіставлення збагачує репрезентації кожної модальності, пов’язуючи їх з особливостями найбільш інформаційно щільної модальності, якою в даному випадку є відеодемонстрації. Цей крок гарантує, що фреймворк вивчає спільний простір вбудовування, який покращує представлення специфікацій завдань у різних модальностях.
Архітектура MUTEX складається зі специфічних для кожної модальності кодерів, проекційного шару, кодера політики та декодера політики. Він використовує специфічні для модальності кодери для вилучення значущих токенів з вхідних специфікацій завдань. Потім ці маркери обробляються за допомогою проекційного шару, перш ніж передаються кодеру політики. Кодер політики об’єднує інформацію з різних модальностей специфікацій завдань і спостережень робота, використовуючи трансформаторну архітектуру з рівнями перехресної і самоуваги. Вихідні дані надсилаються на декодер політики, який використовує архітектуру декодера сприймача для генерації ознак для прогнозування дій і маскованих запитів токенів. Окремі MLP використовуються для прогнозування значень безперервних дій і значень токенів для замаскованих токенів.
Щоб оцінити MUTEX, дослідники створили повний набір даних із завданнями в змодельованих і реальних середовищах, кожне з яких було анотоване специфікаціями завдань у різних модальностях. Експерименти дали багатообіцяючі результати, продемонструвавши суттєве покращення продуктивності порівняно з методами, навченими лише для однієї модальності. Наприклад, для текстової та мовленнєвої мети, текстової та зображувальної мети, а також мовленнєвих інструкцій та відеодемонстрації показники успішності склали 50,1, 59,2 та 59,6 відповідно.
Таким чином, MUTEX — це новаторська платформа, яка усуває обмеження існуючих методів навчання роботів правилам поведінки, дозволяючи роботам розуміти і виконувати завдання, визначені за допомогою різних способів. Вона пропонує багатообіцяючий потенціал для більш ефективної співпраці між людьми і роботами, хоча для подолання її обмежень і розширення можливостей у майбутньому потрібні подальші доопрацювання і дослідження.