
10.10.2023 14:05
Мультиагентний підхід до моделювання трафіку
Авторегресійні мовні моделі продемонстрували свою здатність передбачати наступне підслово в реченні, не покладаючись на заздалегідь визначену граматику чи правила синтаксичного аналізу. Цей підхід було поширено на області безперервних даних, такі як генерація аудіо та зображень, де дані представлені у вигляді дискретних токенів, подібно до словників, що використовуються в мовних моделях. Завдяки своїй універсальності, моделі послідовностей викликають інтерес для застосування у все більш складних і динамічних контекстах, в тому числі для прогнозування поведінки.
Під час їзди учасників дорожнього руху можна порівняти з учасниками розмови, які обмінюються діями та відповідями. Виникає питання: Чи можна використовувати подібні моделі послідовностей для прогнозування поведінки учасників дорожнього руху подібно до того, як мовні моделі відображають складні мовні патерни в розмовах? Один з поширених підходів до прогнозування поведінки дорожніх агентів полягає в тому, щоб розбити колективний розподіл поведінки агентів на індивідуальні граничні розподіли для кожного агента. Хоча в цьому напрямку досягнуто певного прогресу, ці граничні прогнози мають обмеження, оскільки вони не враховують, як майбутні дії декількох агентів можуть впливати один на одного, що потенційно може призвести до непередбачуваних прогнозів на рівні сцени.

Щоб вирішити ці проблеми, команда дослідників з Waymo представила MotionLM — новий підхід до прогнозування майбутньої поведінки дорожніх агентів, що є критично важливим компонентом безпечного планування в автономних транспортних засобах. Основна концепція MotionLM полягає в тому, щоб розглядати проблему прогнозування руху декількох дорожніх агентів як завдання мовного моделювання. Вона формулює завдання прогнозування так, ніби це генерування речень на мові, де мова складається з дій дорожніх агентів.
На відміну від інших існуючих методів, які покладаються на якорі або складні процедури оптимізації латентних змінних для охоплення різних потенційних варіантів майбутньої поведінки, MotionLM досягає цього без таких складнощів. Ця модель використовує просту мету мовного моделювання, спрямовану на максимізацію середньої логової ймовірності точного передбачення послідовності токенів руху. Простота моделі робить її більш доступною і легкою для навчання.

Багато сучасних методів використовують двоетапний процес, де спочатку генеруються окремі траєкторії агентів, а потім оцінюється взаємодія між ними. На відміну від них, MotionLM використовує єдиний підхід авторегресійного декодування для безпосереднього моделювання спільних розподілів майбутніх дій декількох агентів. Така інтеграція моделювання взаємодії є більш ефективною і безшовною. Послідовна факторизація MotionLM також дозволяє генерувати тимчасові причинно-наслідкові умовні розгортання. Враховуючи причинно-наслідкові зв’язки між подіями, прогнози щодо майбутньої поведінки агентів стають більш реалістичними і точними.
В оцінках, проведених за допомогою набору даних Waymo Open Motion Dataset, MotionLM продемонстрував видатну продуктивність. Вона посіла перше місце в рейтингу інтерактивних завдань, перевершивши інші підходи в прогнозуванні дій дорожніх агентів у складних сценаріях. Таким чином, MotionLM представляє інноваційний підхід до мультиагентного прогнозування руху для автономних транспортних засобів і є значним досягненням у цій галузі.