01.04.2024 12:43

Tencent розробив AniPortrait — нову систему для створення анімованих портретів

Дослідники Tencent представили AniPortrait, інноваційний фреймворк, який генерує високоякісні анімовані портрети на основі аудіо та еталонного зображення.

На першому етапі моделі на основі трансформації витягують послідовність 3D-сітки обличчя та пози голови з аудіосигналу.

Цей етап вловлює тонкі вирази обличчя та рухи губ.

На другому етапі використовується модель дифузії з інтеграцією модуля руху, яка перетворює послідовність орієнтирів обличчя на фотореалістичний анімований портрет, синхронізований з часом.

Використання 3D-зображень обличчя як проміжних об’єктів забезпечує гнучкість і модифікує ці об’єкти.

Це розширює можливості застосування фреймворку в таких областях, як анімація обличчя.

AniPortrait складається з двох модулів: Audio2Lmk та Lmk2Video.

Audio2Lmk виділяє з аудіосигналу послідовність опорних точок, які фіксують складні вирази обличчя та рухи губ, використовуючи попередньо навчений wav2vec для виділення звукових характеристик.

Lmk2Video використовує цю послідовність опорних точок для створення високоякісних портретних відео з часовою стабільністю. Він розроблений на основі AnimateAnyone, використовуючи SD1.5 як основу і включаючи модуль часового руху.

ReferenceNet, що повторює архітектуру SD1.5, використовується для вилучення інформації про зовнішній вигляд з еталонного зображення та інтеграції її в магістраль.

AniPortrait навчається на 4 графічних процесорах A100, присвячуючи кожному кроку по два дні, і використовує оптимізатор AdamW з постійною швидкістю навчання 1e-5.

Нагадаємо, Інститут інтелектуальних обчислень Alibaba Group нещодавно представив EMO: Emote Portrait Alive для створення виразних портретних відео.