
04.11.2023 12:50
Революція в робототехнічному навчанні з мінімальною участю людини від дослідників зі Стенфорда
У сфері машинного навчання надзвичайно успішним підходом до побудови моделей для конкретних завдань є двоетапний процес. Спочатку модель загального призначення попередньо навчається на різноманітному попередньому наборі даних, а потім вона допрацьовується з використанням меншого набору даних, специфічного для конкретного завдання. Цей підхід особливо привабливий у реальній робототехніці, де збір даних може бути дорогим, а точне налаштування існуючої моделі на меншому наборі даних для конкретного завдання може значно підвищити ефективність використання даних при вивченні нових завдань. Попередня підготовка стратегії за допомогою офлайн-навчання з підкріпленням і її доопрацювання за допомогою онлайн-навчання з підкріпленням – це природний спосіб реалізації цієї парадигми в робототехніці. Однак існує кілька практичних проблем, пов’язаних з цим підходом.
Однією з головних проблем є різниця між готовими наборами даних для роботів і локальною робототехнічною платформою. Готові набори даних часто включають інші об’єкти, розташування кріплень, ракурси камер і умови освітлення порівняно з локальною платформою. Такі зміни розподілу між даними для попереднього навчання та даними для точного налаштування в режимі онлайн можуть ускладнити ефективне точне конфігурування. Більшість попередніх досліджень, в яких обговорювалася парадигма попереднього навчання і точного налаштування, були зосереджені на сценаріях, коли робот використовує одне і те ж обладнання для попереднього навчання і точного налаштування.
Іншою важливою проблемою є необхідність людського нагляду під час навчання або точного налаштування політики в реальному світі. Цей нагляд часто включає ручне перезавантаження середовища між випробуваннями та розробку функцій винагороди.

Це дослідження має на меті вирішити ці проблеми та надати практичну основу для точного налаштування роботів з мінімальними зусиллями людини. Останні досягнення в алгоритмах навчання з підкріпленням призвели до створення більш ефективних і автономних систем. Ці системи можуть навчатися під наглядом людини і на демонстраційних наборах даних, не потребуючи вручну розроблених функцій заохочення і перезавантажень середовища. Одним з таких підходів є навчання з підкріпленням без перезавантаження, яке зменшує потребу в ручному перезавантаженні, змушуючи агента чергувати виконання політики завдання і політики перезавантаження, оновлюючи обидві з них на основі онлайн-досвіду.
Однак попередні зусилля не включали різні набори даних комерційних роботів. Хоча ці нові методи спрямовані на мінімізацію людського нагляду на етапі точного налаштування, все ще визначається, які компоненти використовувати і як їх зібрати, щоб створити функціональну систему.
Дослідники зі Стенфордського університету розробили ROBOFUME — систему, яка використовує комбінацію офлайн-наборів даних і тонкого налаштування в режимі онлайн, щоб забезпечити автономне та ефективне навчання роботів в реальних умовах. Система працює в два етапи. На етапі попереднього навчання дослідники мають доступ до різноманітних попередніх наборів даних, вибіркових спостережень за помилками в цільовому завданні, демонстрацій завдань і демонстрацій перезавантаження. На основі цих даних вони виводять мовно-обумовлену офлайн-політику багатозадачного навчання з підкріпленням. Завдання полягає в тому, щоб точно налаштувати цю політику в середовищах, які відрізняються від тих, що були в автономному наборі даних, і зробити її більш стійкою до зміни розподілу між автономними та онлайновими даними.
Щоб вирішити це завдання, дослідники використовують калібровані методи навчання з підкріпленням в автономному режимі, щоб гарантувати, що попередньо навчена політика може ефективно обробляти різні офлайн-дані і продовжувати вдосконалюватися під час адаптації в режимі онлайн. Вони прагнуть усунути потребу в інженерії винагороди шляхом розробки предиктора винагороди, зменшуючи людський внесок під час фази тонкого налаштування в режимі онлайн.
Їхній підхід передбачає використання великої моделі мови зору (VLM) для забезпечення надійного попередньо навченого представлення, яке потім допрацьовується за допомогою невеликої кількості даних в домені для сценарію класифікації винагороди. Попередньо навчені VLM навчаються на великих обсягах лінгвістичних і візуальних даних з Інтернету, що робить їх більш стійкими до змін в освітленні та розміщенні камер. На етапі точного налаштування робот самостійно коригує політику, чергуючи виконання завдань і перезавантаження середовища, оновлюючи політику, використовуючи попередньо навчену модель VLM як сурогатну винагороду.
Щоб оцінити свій фреймворк, дослідники попередньо навчають його на наборі даних Bridge і тестують його на різних реальних завданнях. Ці завдання включають в себе складання і накривання ганчірок, взяття і розміщення губок, накривання кришок каструль і встановлення каструль в раковину. Їхній підхід пропонує значні переваги над офлайн-методиками, навіть за умови лише трьох годин особистого навчання. Вони також провели кількісні випробування в симуляційному сценарії, щоб продемонструвати, що їхня стратегія перевершує імітаційне навчання та підходи до навчання з підкріпленням в режимі офлайн, які або не налаштовуються в режимі онлайн, або не використовують різноманітні попередні дані.
Основні результати дослідження включають повністю автономну систему для попереднього навчання на попередніх наборах даних робота і точного налаштування на невідомі подальші завдання з мінімальними перезавантаженнями і вивченими мітками винагороди. Вони також розробляють методику для вдосконалення моделей мови зору і використання їх для створення сурогатних винагород для подальшого навчання з підкріпленням.