BTC$29880

ETH$3666

Шукати

Як машинне навчання полегшує оцінку та порівняння алгоритмів симуляційного навчання

Дослідники з різних установ, включаючи Групу інтелектуальних автономних систем, Лабораторію локомоції, Німецький дослідницький центр ШІ, Центр когнітивних наук і Hessian.AI, представили еталон, спрямований на просування досліджень в області імітаційного навчання (IL) для локомоції. Це дозволяє усунути обмеження існуючих методів, які часто зосереджуються на спрощених завданнях. Новий бенчмарк під назвою LocoMuJoCo охоплює різноманітні середовища, чотириногі, двоногі та скелетно-м’язові моделі людини, що супроводжуються вичерпними наборами даних. Він включає реальні зашумлені дані захоплення руху, експертні дані та субоптимальні дані, що дозволяє проводити оцінку на різних рівнях складності.

LocoMuJoCo усуває недоліки існуючих тестів, надаючи різноманітні середовища, включаючи чотириногих, двоногих і скелетно-м’язові моделі людини. Завдяки реальним зашумленим даним захоплення руху, експертним даним та субоптимальним даним, цей бенчмарк полегшує ретельну оцінку алгоритмів IL на різних рівнях складності. Дослідження підкреслює важливість метрик, заснованих на розподілі ймовірностей і біомеханічних принципах, для ефективного оцінювання якості поведінки.

Розроблений як бенчмарк на основі Python для IL в задачах локомоції, LocoMuJoCo має на меті вирішити проблеми стандартизації в існуючих бенчмарках. Він сумісний з бібліотеками Gymnasium і Mushroom-RL, пропонуючи різноманітні завдання і набори даних для людиноподібної і чотириногої локомоції, а також моделей опорно-рухового апарату людини. Бенчмарк охоплює різні парадигми імітаційного навчання, включаючи невідповідність втілення, навчання з діями експерта або без них, а також роботу з неоптимальними станами та діями експерта. LocoMuJoCo надає базові показники для класичних підходів IRL та змагального IL, таких як GAIL, VAIL, GAIfO, IQ-Learn, LS-IQ та SQIL, реалізованих за допомогою Mushroom-RL.

Огляд середовищ. Кожне завдання визначається певним набором даних у середовищі, наприклад, завдання транспортування за допомогою Talos або завдання бігу масивного гуманоїда. Наразі LocoMuJoCo охоплює 11 середовищ із загальною кількістю 24 завдань. Джерело

LocoMuJoCo пропонує простий інтерфейс для динамічної рандомізації та різні частково спостережувані завдання для навчання агентів у різних варіантах. Бенчмарк включає в себе метрики ручної роботи, найсучасніші базові алгоритми та підтримку декількох парадигм імітаційного навчання. LocoMuJoCo легко розширюється за допомогою зручних інтерфейсів до поширених бібліотек навчання з підкріпленням.

Цей масштабний бенчмарк для імітаційного навчання в задачах локомоції полегшує оцінку і порівняння алгоритмів IL з метриками ручної роботи, передовими базовими алгоритмами і підтримкою різних парадигм імітаційного навчання. Охоплюючи чотириногих, двоногих і скелетно-м’язові моделі людини, LocoMuJoCo забезпечує оцінку на різних рівнях складності.

Дослідження висвітлює відкриту проблему в тестах імітаційного навчання, наголошуючи на проблемі ефективного вимірювання якості клонованої поведінки. Воно закликає до подальших досліджень з метою розробки метрик, заснованих на розбіжностях між розподілами ймовірностей і біомеханічними принципами. Підкреслюється важливість вивчення експертних наборів даних, ранжованих за уподобаннями, в умовах імітаційного навчання на основі уподобань, особливо коли доступні лише субоптимальні приклади. Дослідження заохочує розширення еталону, щоб включити більше середовищ і завдань для всебічної оцінки та вивчення різних алгоритмів IL з використанням універсальної оцінки LocoMuJoCo.