
30.07.2023 12:58
Простіший метод навчання керуванню роботом
Дослідники з Массачусетського технологічного інституту та Стенфордського університету розробили новий підхід до машинного навчання, який може бути використаний для більш ефективного управління роботом, наприклад, дроном або автономним транспортним засобом, в динамічному середовищі, де умови можуть швидко змінюватися.
Цей метод може допомогти автономному транспортному засобу навчитися компенсувати слизькі дорожні умови, щоб уникнути заносу, дозволити роботизованому літальному апарату буксирувати різні об’єкти в просторі або дозволити дрону точно слідувати за гірськолижником, який спускається з гори, незважаючи на сильний вітер.
Підхід дослідників включає певну структуру з теорії управління в процес навчання моделі таким чином, що призводить до ефективного методу управління складною динамікою, наприклад, спричиненою впливом вітру на траєкторію руху літального апарату. Можна розглядати цю структуру як підказку, яка може допомогти зорієнтуватися, як керувати системою.
“Наша робота спрямована на вивчення внутрішньої структури динаміки системи, яку можна використати для розробки більш ефективних стабілізуючих контролерів”, – говорить Навід Азізан, доцент кафедри машинобудування Массачусетського технологічного інституту (MIT) та Інституту даних, систем і суспільства (IDSS) імені Естер і Гарольда Едгертонів, а також співробітник Лабораторії інформаційних систем і систем прийняття рішень (LIDS). “Спільно вивчаючи динаміку системи та ці унікальні структури, орієнтовані на управління, на основі даних, ми можемо природним чином створювати контролери, які функціонують набагато ефективніше в реальному світі”.
Використовуючи цю структуру у вивченій моделі, методика дослідників негайно витягує ефективний контролер з моделі, на відміну від інших методів машинного навчання, які вимагають, щоб контролер був отриманий або вивчений окремо за допомогою додаткових кроків. Завдяки такій структурі їхній підхід також здатний вивчати ефективний регулятор, використовуючи меншу кількість даних, ніж інші підходи. Це може допомогти їхній системі керування на основі навчання швидше досягати кращих показників у швидкозмінному середовищі.
“Ця робота намагається досягти балансу між визначенням структури у вашій системі та просто вивченням моделі на основі даних”, – говорить провідний автор Спенсер М. Річардс, аспірант Стенфордського університету. “Наш підхід натхненний тим, як робототехніки використовують фізику для створення простіших моделей для роботів. Фізичний аналіз цих моделей часто дає корисну структуру для цілей управління – таку, яку ви могли б пропустити, якби просто намагалися наївно підігнати модель під дані. Замість цього ми намагаємося виявити подібну корисну структуру з даних, яка вказує, як реалізувати вашу логіку управління”.
Серед інших авторів статті – Жан-Жак Слотін (Jean-Jacques Slotine), професор машинобудування та наук про мозок і когнітивні науки в Массачусетському технологічному інституті, та Марко Павоне (Marco Pavone), доцент кафедри аеронавтики та астронавтики в Стенфорді. Дослідження буде представлено на Міжнародній конференції з машинного навчання (ICML).
Навчання контролера
Визначення найкращого способу керування роботом для виконання певного завдання може бути складною проблемою, навіть якщо дослідники знають, як змоделювати всі елементи системи.
Наприклад, контролер – це логіка, яка дозволяє дрону слідувати бажаною траєкторією. Цей контролер підкаже дрону, як регулювати силу його ротора, щоб компенсувати вплив вітру, який може збити його зі стабільної траєкторії, щоб досягти своєї мети.
Цей дрон є динамічною системою – фізичною системою, яка розвивається в часі. У цьому випадку його положення і швидкість змінюються, коли він пролітає крізь навколишнє середовище. Якщо така система досить проста, інженери можуть створити контролер вручну.
Моделювання системи вручну за своєю суттю фіксує певну структуру, засновану на фізиці системи. Наприклад, якщо робот моделюється вручну за допомогою диференціальних рівнянь, вони відображають взаємозв’язок між швидкістю, прискоренням і силою. Прискорення – це швидкість зміни швидкості в часі, яка визначається масою і силами, прикладеними до робота.
Але часто система занадто складна, щоб її можна було точно змоделювати вручну. Аеродинамічні ефекти, наприклад, те, як закручений вітер штовхає літальний апарат, як відомо, важко отримати вручну, пояснює Річардс. Замість цього дослідники вимірюють положення, швидкість і частоту обертання ротора дрона в часі, а потім використовують машинне навчання, щоб підігнати модель цієї динамічної системи під дані. Але ці підходи, як правило, не вивчають структуру, засновану на управлінні. Ця структура корисна для визначення того, як найкраще встановити швидкість ротора, щоб спрямувати рух дрона в часі.
Після моделювання динамічної системи багато існуючих підходів також використовують дані для вивчення окремого контролера для системи.
“Інші підходи, які намагаються вивчити динаміку та контролер з даних як окремі сутності, дещо філософськи відірвані від того, як ми зазвичай робимо це для простіших систем. Наш підхід більше нагадує створення моделей вручну з фізики та прив’язку їх до керування”, – каже Річардс.
Ідентифікація структури
Команда з Массачусетського технологічного інституту та Стенфорду розробила методику, яка використовує машинне навчання для вивчення моделі динаміки, але таким чином, що модель має певну задану структуру, яка корисна для керування системою.
Завдяки цій структурі вони можуть витягти контролер безпосередньо з моделі динаміки, замість того, щоб використовувати дані для вивчення абсолютно окремої моделі для контролера.
“Ми виявили, що окрім вивчення динаміки, важливо також вивчити структуру, орієнтовану на управління, яка підтримує ефективний дизайн контролера. Наш підхід, що полягає у вивченні залежних від стану коефіцієнтів динаміки, перевершив базові моделі з точки зору ефективності використання даних і можливості відстеження, довівши свою ефективність в ефективному і результативному управлінні траєкторією системи”, – говорить Азізан.
Коли вони протестували цей підхід, їхній контролер чітко слідував бажаним траєкторіям, випереджаючи всі базові методи. Регулятор, отриманий з їхньої навчальної моделі, майже відповідав характеристикам реального регулятора, який побудований з використанням точної динаміки системи.
“Зробивши простіші припущення, ми отримали те, що насправді працювало краще, ніж інші складні базові підходи”, – додає Річардс.
Дослідники також виявили, що їхній метод є ефективним щодо даних, тобто досягає високої продуктивності навіть з невеликою кількістю даних. Наприклад, він може ефективно моделювати високодинамічний транспортний засіб з роторним приводом, використовуючи лише 100 точок даних. Методи, які використовували кілька вивчених компонентів, показали, що їхня продуктивність падає набагато швидше з меншими наборами даних.
Така ефективність може зробити їхню методику особливо корисною в ситуаціях, коли безпілотник або робот повинен швидко навчатися в умовах, що швидко змінюються.
Крім того, їхній підхід є загальним і може бути застосований до багатьох типів динамічних систем, від роботизованих рук до вільно літаючих космічних кораблів, що працюють в умовах низької гравітації.
У майбутньому дослідники зацікавлені в розробці моделей, які краще піддаються фізичній інтерпретації, і які могли б ідентифікувати дуже специфічну інформацію про динамічну систему, каже Річардс. Це може призвести до створення більш ефективних контролерів.
“Незважаючи на свою повсюдність і важливість, нелінійне керування зі зворотним зв’язком залишається мистецтвом, що робить його особливо придатним для методів, заснованих на даних і навчанні. Ця стаття робить значний внесок у цю сферу, пропонуючи метод, який спільно вивчає динаміку системи, контролер і структуру, орієнтовану на управління”, – говорить Ніколай Матні, доцент кафедри електротехніки та системної інженерії Університету Пенсильванії, який не брав участі в цій роботі. “Що я знайшов особливо захоплюючим і переконливим, так це інтеграцію цих компонентів у спільний алгоритм навчання, таким чином, що структура, орієнтована на контроль, діє як індуктивний ухил у навчальному процесі. Результатом є ефективний для даних процес навчання, який виводить динамічні моделі, що мають внутрішню структуру, яка забезпечує ефективне, стабільне і надійне управління. Хоча технічний внесок статті є чудовим, саме цей концептуальний внесок я вважаю найбільш захоплюючим і значущим”.
Це дослідження частково підтримано Ініціативою лідерства університетів NASA та Радою природничих та інженерних досліджень Канади.