29.01.2024 16:08

Просування мультимодальної теорії розуму за допомогою MMToM-QA

Розуміння концепції «Теорії розуму» (ToM), тобто здатності робити висновки про думки та наміри інших людей, має вирішальне значення для наділення машин соціальним інтелектом, подібним до людського. Попри те, що нещодавні досягнення в галузі машинного навчання, особливо з великими мовними моделями, продемонстрували багатообіцяючу перспективу в розумінні ToM, поточні показники переважно покладаються на набори відео- або текстових даних, ігноруючи цілісну природу людського мислення.

Щоб заповнити цю прогалину, дослідники з Массачусетського технологічного інституту та Гарварду розробили тест мультимодальної теорії відповіді на запитання MMToM-QA. Метод MMToM-QA оцінює машинне мислення на основі мультимодальних та унімодальних типів даних, пов’язаних з побутовою діяльністю, відображаючи різноманітні підказки, які люди використовують у міркуваннях про мислення.

Огляд моделі BIP-ALM. Для візуальної, лінгвістичної та змішаної інформації були показані приклади символічного представлення станів, дій та двох гіпотез про мету та переконання людини для питання, заданого на часовому кроці. Джерело

Для посилення можливостей мультимодального оцінювання вони пропонують байєсівське зворотне планування (BIP-ALM). Метод BIP-ALM витягує уніфіковані представлення з мультимодальних даних і використовує мовні моделі для масштабованого байєсівського інверсного планування, поєднуючи сильні сторони моделювання на основі розумового висновку і розуміння мови.

У порівнянні з найсучаснішими моделями, такими як GPT-4 і Video-LLaMA, алгоритм BIP-ALM продемонстрував чудову продуктивність, виявивши обмеження існуючих підходів. Завдяки точному налаштуванню мовної моделі за допомогою синтетичних даних про людську активність і використанню байєсівського зворотного планування, BIP-ALM демонструє відмінні результати у виведенні сценаріїв реального світу, зокрема, у сфері домогосподарської діяльності.

Ці результати підкреслюють важливість бенчмарку MMToMQA та ефективність BIP-ALM у просуванні людського рівня міркувань щодо машинного мислення. Внесок виходить за рамки створення бенчмарку та розробки методів і охоплює систематичне порівняння різноманітних моделей машинного навчання та людських можливостей, прокладаючи шлях до покращення соціального інтелекту в системах ШІ.