22.04.2024 10:03

VASA-1, нова модель для створення реалістичних облич, що розмовляють

Дослідники Microsoft представили VASA-1, нову модель, яка робить значний крок вперед у створенні реалістичних облич, що розмовляють. VASA-1 поєднує в собі інноваційні алгоритми та штучний інтелект, щоб генерувати обличчя, які не лише точно синхронізують рухи губ з аудіо, але й володіють виразною мімікою та природними рухами голови.

Спілкування на новому рівні

Людське обличчя — потужний інструмент спілкування. Воно виражає емоції, встановлює зв’язок та робить нашу комунікацію більш багатогранною. VASA-1 робить обличчя, що розмовляють, створені за допомогою ШІ, ще більш реалістичними, відкриваючи нові горизонти для спілкування.

Чим VASA-1 відрізняється від інших методів?

Чинні методи генерування розмовляючих облич часто страждають від жорсткості рухів, нереалістичної міміки та неточної синхронізації губ. VASA-1 долає ці недоліки завдяки своїм ключовим інноваціям:

Цілісна модель генерації динаміки обличчя та рухів голови: VASA-1 не розбиває обличчя на окремі частини, а генерує його рухи цілісно, що робить міміку більш природною та реалістичною.
Виразний і розплутаний латентний простір обличчя: VASA-1 використовує латентний простір, який зберігає ключові характеристики обличчя, що дозволяє генерувати більш точні та реалістичні рухи.
Оптимізація для інтерактивних систем: VASA-1 працює швидко та ефективно, що робить її придатною для використання в реальному часі.

Результати:

Дослідники порівняли VASA-1 з наявними методами та продемонстрували, що вона значно перевершує їх за якістю та реалістичністю. VASA-1 генерує більш точну синхронізацію губ, кращу відповідність пози та меншу відеовідстань Фреше (FVD).

Нагадаємо, на початку квітня дослідники Tencent представили AniPortrait, інноваційний фреймворк, який генерує високоякісні анімовані портрети на основі аудіо та еталонного зображення.