17.11.2023 15:03

Тривимірні моделі тіла відтепер зі звуком

Розвиток інтелектуальних систем у галузі комп’ютерного зору та штучного інтелекту призвів до значного прогресу у відтворенні та розумінні людської поведінки. У той час як комп’ютерний зір приділяє значну увагу 3D-моделюванню людського тіла, завдання моделювання акустичної сторони і генерування 3D-просторового звуку з мови і рухів тіла є менш дослідженим. Основна увага традиційно приділяється візуальній точності штучних зображень людського тіла.

Людське сприйняття за своєю природою є мультимодальним і включає в себе як слухові, так і зорові сигнали для розуміння навколишнього середовища. Щоб створити відчуття присутності та занурення у 3D-світ, дуже важливо імітувати 3D-звук, який би точно відповідав візуальному зображенню. Вирішуючи ці завдання, дослідники з Шанхайської лабораторії штучного інтелекту та дослідницької компанії Meta Reality Labs представили модель, здатну створювати точні просторові 3D-аудіорепрезентації для всього людського тіла.

Захоплююча платформа з п’ятьма камерами, що відстежують тіло, та 345 мікрофонами на сфері навколо учасника. Джерело

Запропонована методика використовує мікрофони, встановлені на голові, і дані про позу людського тіла для точного синтезу 3D-просторового звуку. Тематичне дослідження фокусується на сценарії телеприсутності, який поєднує доповнену і віртуальну реальність (AR/VR), де користувачі спілкуються за допомогою повноцінних аватарів. Приклади вхідних даних включають аудіодані з мікрофонів, встановлених на голові, та дані про положення тіла, які використовуються для анімації аватарів.

Сучасні методи просторової візуалізації звуку припускають, що відоме джерело звуку захоплене без перешкод. Запропонований підхід обходить ці проблеми, використовуючи дані про позу тіла для навчання мультимодальної мережі, яка розрізняє джерела різних шумів і виробляє точно просторово локалізовані сигнали. На виході — звукова зона навколо тіла, а на вході – звук із семи мікрофонів, встановлених на голові, та поза суб’єкта.

Дослідники провели емпіричну оцінку, продемонструвавши здатність моделі достовірно відтворювати звукові поля, що виникають внаслідок рухів тіла, за умови тренування з відповідною функцією втрат. Код моделі та набір даних знаходяться у відкритому доступі, що сприяє відкритості, повторюваності та подальшому прогресу в цій галузі.

Основний внесок роботи полягає в наступному:

Впровадження унікальної методики, яка використовує мікрофони на голові та пози тіла для відтворення реалістичних 3D звукових полів людських тіл.
Надання всебічної емпіричної оцінки, яка підкреслює важливість пози тіла і добре продуманої функції втрат.
Поширення нового набору даних, що поєднує дані про людське тіло з різних ракурсів з просторовими аудіозаписами з 345 мікрофонів.