
19.08.2023 12:38
Метод штучного інтелекту, який прискорює навчання робототехніці на 20%
Великою проблемою у навчанні роботів є відсутність достатньої кількості даних. Дані, які ми використовуємо для роботів, мають певні проблеми: їх нелегко зібрати, вони часто збираються в штучних умовах і занадто схожі між собою. Натомість візуальні дані є більш різноманітними, включаючи різні завдання та середовища. Отже, дослідники вивчають способи використання того, що ми знаємо з даних про зір, щоб допомогти роботам краще навчатися.
Вони роблять знімки і перетворюють їх на доступні для розуміння роботів коди. Ці коди використовуються для керування роботами. Оскільки ці коди вже містять корисну інформацію, експерти вважають, що вони можуть робити більше, ніж просто контролювати дії роботів.
Нещодавнє дослідження Університету Карнегі-Меллона (Carnegie Mellon University, CMU) підкреслює, що нейронні зображення можуть виходити за рамки простого опису стану. Ці представлення можуть фактично передбачати рухи робота, використовуючи просту метрику в просторі вбудовування. Дослідники CMU використали це розуміння для розробки функції відстані та функції динаміки, використовуючи мінімальну кількість недорогих людських даних. Ці функції інтегровані в роботизованого планувальника, який був протестований на чотирьох типових маніпуляційних завданнях.
Метод передбачає поділ попередньо навченого представлення на два окремі модулі. Перший модуль, який називається модулем однокрокової динаміки, прогнозує наступний стан робота на основі його поточного стану і дій. Другий модуль, “модуль функціональної відстані”, оцінює, наскільки робот близький до досягнення своєї мети в поточному стані. Команда використовує контрастне навчання для навчання функції відстані, використовуючи лише невеликий набір демонстраційних даних про людину.
Хоча підхід здається простим, він значно перевершує традиційні методи імітаційного навчання та навчання з підкріпленням (Reinforcement Learning, RL) у навчанні роботів в режимі офлайн. Зокрема, порівняно зі стандартною базовою схемою навчання з підкріпленням, цей метод перевершує її в обробці мультимодальних розподілів дій. Результати дослідження також підкреслюють важливість високоякісних репрезентацій для поліпшення продуктивності управління і необхідність динамічного обгрунтування для забезпечення ефективності системи в реальних умовах.
Успіх методу полягає в самому попередньо навченому представленні, яке легко справляється зі складними завданнями, уникаючи при цьому проблем прогнозування мультимодальних, послідовних дій. Ці результати демонструють, що цей підхід перевершує навчання стратегії за допомогою клонування поведінки. Крім того, розроблена дистанційна функція є стабільною і легкою в навчанні, що робить її дуже масштабованою і адаптованою.
Команда очікує, що їх дослідження надихне нові дослідження в галузі робототехніки та навчання з використанням репрезентацій. Вони припускають, що майбутні дослідження повинні бути зосереджені на вдосконаленні візуальних репрезентацій для робототехніки, особливо в захопленні більш тонких взаємодій між маніпулятором/рукою і маніпульованими об’єктами. Це може покращити продуктивність у таких завданнях, як поворот ручки, де попередньо навчений кодер R3M намагається виявити тонкі зміни захоплення навколо ручки. Вони також сподіваються, що їхній підхід може бути використаний для навчання без міток дій. Нарешті, вони висловлюють зацікавленість у вивченні можливості використання їхнього економічного маніпулятора в поєднанні з більш надійними комерційними маніпуляторами, незважаючи на будь-які відмінності в цій галузі.