04.11.2023 12:50

Революція в робототехнічному навчанні з мінімальною участю людини від дослідників зі Стенфорда

У сфері машинного навчання надзвичайно успішним підходом до побудови моделей для конкретних завдань є двоетапний процес. Спочатку модель загального призначення попередньо навчається на різноманітному попередньому наборі даних, а потім вона допрацьовується з використанням меншого набору даних, специфічного для конкретного завдання. Цей підхід особливо привабливий у реальній робототехніці, де збір даних може бути дорогим, а точне налаштування існуючої моделі на меншому наборі даних для конкретного завдання може значно підвищити ефективність використання даних при вивченні нових завдань. Попередня підготовка стратегії за допомогою офлайн-навчання з підкріпленням і її доопрацювання за допомогою онлайн-навчання з підкріпленням – це природний спосіб реалізації цієї парадигми в робототехніці. Однак існує кілька практичних проблем, пов’язаних з цим підходом.

Однією з головних проблем є різниця між готовими наборами даних для роботів і локальною робототехнічною платформою. Готові набори даних часто включають інші об’єкти, розташування кріплень, ракурси камер і умови освітлення порівняно з локальною платформою. Такі зміни розподілу між даними для попереднього навчання та даними для точного налаштування в режимі онлайн можуть ускладнити ефективне точне конфігурування. Більшість попередніх досліджень, в яких обговорювалася парадигма попереднього навчання і точного налаштування, були зосереджені на сценаріях, коли робот використовує одне і те ж обладнання для попереднього навчання і точного налаштування.

Іншою важливою проблемою є необхідність людського нагляду під час навчання або точного налаштування політики в реальному світі. Цей нагляд часто включає ручне перезавантаження середовища між випробуваннями та розробку функцій винагороди.

Система дозволяє автономно та ефективно навчати робота в реальних умовах за допомогою двоетапного процесу. Спочатку проводиться попереднє навчання багатозадачної політики з використанням різноманітних готових демонстраційних наборів даних і невеликої кількості прикладів виконання цільових завдань. Одночасно попередньо навчена модель бачення-мови (VLM) налаштовується як модель винагороди. На другому етапі попередньо навчена політика налаштовується в режимі онлайн без перезавантаження, використовуючи модель винагороди VLM. Такий підхід дозволяє роботу навчатися та адаптуватися до нових завдань з мінімальним втручанням людини. Джерело

Це дослідження має на меті вирішити ці проблеми та надати практичну основу для точного налаштування роботів з мінімальними зусиллями людини. Останні досягнення в алгоритмах навчання з підкріпленням призвели до створення більш ефективних і автономних систем. Ці системи можуть навчатися під наглядом людини і на демонстраційних наборах даних, не потребуючи вручну розроблених функцій заохочення і перезавантажень середовища. Одним з таких підходів є навчання з підкріпленням без перезавантаження, яке зменшує потребу в ручному перезавантаженні, змушуючи агента чергувати виконання політики завдання і політики перезавантаження, оновлюючи обидві з них на основі онлайн-досвіду.

Однак попередні зусилля не включали різні набори даних комерційних роботів. Хоча ці нові методи спрямовані на мінімізацію людського нагляду на етапі точного налаштування, все ще визначається, які компоненти використовувати і як їх зібрати, щоб створити функціональну систему.

Дослідники зі Стенфордського університету розробили ROBOFUME — систему, яка використовує комбінацію офлайн-наборів даних і тонкого налаштування в режимі онлайн, щоб забезпечити автономне та ефективне навчання роботів в реальних умовах. Система працює в два етапи. На етапі попереднього навчання дослідники мають доступ до різноманітних попередніх наборів даних, вибіркових спостережень за помилками в цільовому завданні, демонстрацій завдань і демонстрацій перезавантаження. На основі цих даних вони виводять мовно-обумовлену офлайн-політику багатозадачного навчання з підкріпленням. Завдання полягає в тому, щоб точно налаштувати цю політику в середовищах, які відрізняються від тих, що були в автономному наборі даних, і зробити її більш стійкою до зміни розподілу між автономними та онлайновими даними.

Щоб вирішити це завдання, дослідники використовують калібровані методи навчання з підкріпленням в автономному режимі, щоб гарантувати, що попередньо навчена політика може ефективно обробляти різні офлайн-дані і продовжувати вдосконалюватися під час адаптації в режимі онлайн. Вони прагнуть усунути потребу в інженерії винагороди шляхом розробки предиктора винагороди, зменшуючи людський внесок під час фази тонкого налаштування в режимі онлайн.

Їхній підхід передбачає використання великої моделі мови зору (VLM) для забезпечення надійного попередньо навченого представлення, яке потім допрацьовується за допомогою невеликої кількості даних в домені для сценарію класифікації винагороди. Попередньо навчені VLM навчаються на великих обсягах лінгвістичних і візуальних даних з Інтернету, що робить їх більш стійкими до змін в освітленні та розміщенні камер. На етапі точного налаштування робот самостійно коригує політику, чергуючи виконання завдань і перезавантаження середовища, оновлюючи політику, використовуючи попередньо навчену модель VLM як сурогатну винагороду.

Щоб оцінити свій фреймворк, дослідники попередньо навчають його на наборі даних Bridge і тестують його на різних реальних завданнях. Ці завдання включають в себе складання і накривання ганчірок, взяття і розміщення губок, накривання кришок каструль і встановлення каструль в раковину. Їхній підхід пропонує значні переваги над офлайн-методиками, навіть за умови лише трьох годин особистого навчання. Вони також провели кількісні випробування в симуляційному сценарії, щоб продемонструвати, що їхня стратегія перевершує імітаційне навчання та підходи до навчання з підкріпленням в режимі офлайн, які або не налаштовуються в режимі онлайн, або не використовують різноманітні попередні дані.

Основні результати дослідження включають повністю автономну систему для попереднього навчання на попередніх наборах даних робота і точного налаштування на невідомі подальші завдання з мінімальними перезавантаженнями і вивченими мітками винагороди. Вони також розробляють методику для вдосконалення моделей мови зору і використання їх для створення сурогатних винагород для подальшого навчання з підкріпленням.