25.07.2023 14:40

Швидкий спосіб навчити робота

Уявіть, що ви купуєте робота для виконання домашніх завдань. Цей робот був побудований і навчений на заводі для виконання певного набору завдань і ніколи не бачив предметів у вашому домі. Коли ви попросите його взяти горнятко з кухонного столу, він може не впізнати ваше горнятко (можливо, через те, що воно розмальоване незвичним зображенням, скажімо, талісманом Массачусетського технологічного інституту, бобром Тімом). Отже, робот зазнає невдачі.

“Зараз, коли ми тренуємо цих роботів, коли вони зазнають невдачі, ми не знаємо, чому. Тож ви просто розводите руками і кажете: “Гаразд, мабуть, треба починати спочатку”. Критично важливим компонентом, якого бракує цій системі, є можливість продемонструвати роботу, чому він зазнає невдачі, щоб користувач міг дати йому зворотній зв’язок”, – каже Енді Пенг, аспірантка факультету електротехніки та комп’ютерних наук (EECS) в Массачусетському технологічному інституті (MIT).

Пенг та її колеги з Массачусетського технологічного інституту, Нью-Йоркського університету та Каліфорнійського університету в Берклі створили фреймворк, який дозволяє людям швидко навчити робота тому, що вони хочуть, щоб він робив, з мінімальними зусиллями.

Коли робот зазнає невдачі, система використовує алгоритм для генерування контрфактичних пояснень, які описують, що потрібно змінити, щоб робот досяг успіху. Наприклад, можливо, робот зміг би взяти чашку, якби вона була певного кольору. Він показує ці контрфакти людині і просить зворотного зв’язку про те, чому робот зазнав невдачі. Потім система використовує цей зворотний зв’язок і контрфактичні пояснення, щоб генерувати нові дані, які вона використовує для точного налаштування робота.

Точне налаштування передбачає зміну моделі машинного навчання, яка вже була навчена виконувати одне завдання, щоб вона могла виконувати друге, схоже завдання.

Дослідники протестували цей метод у симуляціях і виявили, що він може навчити робота ефективніше, ніж інші методи. Роботи, навчені за допомогою цього фреймворку, працювали краще, а процес навчання займав менше часу людини.

Цей фреймворк може допомогти роботам швидше навчатися в нових умовах, не вимагаючи від користувача технічних знань. У довгостроковій перспективі це може стати кроком до того, щоб роботи загального призначення могли ефективно виконувати щоденні завдання для людей похилого віку або людей з обмеженими можливостями в різних умовах.

До Пенг, провідного автора, приєдналися співавтори Авів Нетаньяху, аспірант EECS; Марк Хо, доцент Технологічного інституту Стівенса; Тяньмін Шу, аспірант Массачусетського технологічного інституту; Андреа Бобу, аспірантка Каліфорнійського університету в Берклі; і старші автори Джулі Шах, професор аеронавтики і астронавтики Массачусетського технологічного інституту, директор Групи інтерактивної робототехніки в Лабораторії комп’ютерних наук і штучного інтелекту, та Пулкіт Агравал, професор цієї ж Лабораторії. Результати дослідження будуть представлені на Міжнародній конференції з машинного навчання.

Навчання на робочому місці

Роботи часто виходять з ладу через зсув розподілу – робот потрапляє в об’єкти і простори, яких він не бачив під час навчання, і не розуміє, що робити в цьому новому середовищі.

Одним із способів перенавчити робота для виконання конкретного завдання є імітаційне навчання. Користувач може продемонструвати правильне виконання завдання, щоб навчити робота, що робити. Якщо користувач намагається навчити робота піднімати чашку, але демонструє це на білій чашці, робот може зрозуміти, що всі чашки білі. Тоді він не зможе підняти червону, синю або “Тім-бобр-коричневу” чашку.

Щоб навчити робота розпізнавати, що горнятко – це горнятко, незалежно від його кольору, можуть знадобитися тисячі демонстрацій.

“Я не хочу демонструвати на 30 000 чашок. Я хочу продемонструвати лише одне горнятко. Але тоді мені потрібно навчити робота, щоб він розпізнавав, що може взяти горнятко будь-якого кольору”, – каже Пенг.

Для цього система дослідників визначає, який саме об’єкт цікавить користувача (горнятко), а які елементи не є важливими для виконання завдання (можливо, колір горнятка не має значення). Вона використовує цю інформацію для створення нових, синтетичних даних, змінюючи ці “неважливі” візуальні концепції. Цей процес називається доповненням даних.

Фреймворк складається з трьох етапів. Спочатку він показує завдання, яке призвело до невдачі робота. Потім він збирає демонстрацію від користувача бажаних дій і генерує контрфакти, перебираючи всі елементи в просторі, які показують, що потрібно було змінити, щоб робот досяг успіху.

Система показує ці контрфакти користувачеві і просить зворотного зв’язку, щоб визначити, які візуальні концепції не впливають на бажану дію. Потім вона використовує цей людський зворотний зв’язок для створення багатьох нових доповнених демонстрацій.

Таким чином, користувач може продемонструвати взяття одного горнятка, але система створить демонстрації, що показують потрібну дію з тисячами різних горняток, змінюючи їхній колір. Вона використовує ці дані для точного налаштування робота.

“Створення контрфактичних пояснень і отримання зворотного зв’язку від користувача є критично важливими для успіху методу”, каже Пенг.

Від людського мислення до мислення робота

Оскільки їхня робота спрямована на залучення людини до процесу навчання, дослідники протестували свою методику на людях-користувачах. Спочатку вони провели дослідження, в якому запитали людей, чи допомагають їм контрфактичні пояснення визначити елементи, які можна змінити, не впливаючи на виконання завдання.

“Це було так зрозуміло одразу. Люди так добре вміють міркувати контрфактично. І саме цей контрфактичний крок дозволяє перевести людські міркування в міркування робота таким чином, щоб вони мали сенс”, – каже вона.

Потім вони застосували свій фреймворк до трьох симуляцій, де перед роботами були поставлені наступні завдання: навігація до цільового об’єкта, підбір ключа і відмикання дверей, а також підбір потрібного об’єкта з подальшим розміщенням його на стільниці. У кожному випадку їхній метод дозволив роботу навчатися швидше, ніж за допомогою інших методів, при цьому вимагаючи менше демонстрацій з боку користувачів.

У майбутньому дослідники сподіваються протестувати цю систему на реальних роботах. Вони також хочуть зосередитися на скороченні часу, необхідного системі для створення нових даних за допомогою генеративних моделей машинного навчання.

“Ми хочемо, щоб роботи робили те, що роблять люди, і ми хочемо, щоб вони робили це семантично осмислено. Люди, як правило, працюють в абстрактному просторі, де вони не думають про кожну окрему властивість зображення. Зрештою, мова йде про те, щоб дати роботу можливість навчитися добре, як людина, відтворювати зображення на абстрактному рівні”, – каже Пенг.

Це дослідження частково підтримується стипендією для аспірантів Національного наукового фонду, Open Philanthropy, стипендією Apple AI/ML, Hyundai Motor Corporation, лабораторією штучного інтелекту MIT-IBM Watson AI Lab та Інститутом штучного інтелекту та фундаментальних взаємодій Національного наукового фонду.