28.12.2023 14:14

Від 2D-портретів до 3D-світів за допомогою ШІ

В останніх досягненнях у галузі ШІ великі мовні моделі (LLM), завдяки своїм вражаючим можливостям, опинилися в фокусі різноманітних індустрій. Ці моделі використовуються в таких підгалузях штучного інтелекту, як обробка природної мови, генерація природної мови та комп’ютерний зір. Тоді як комп’ютерний зір, особливо моделі дифузії, привертають увагу, генерування послідовних, високоточних нових перспектив з обмеженими вхідними даними залишається складним завданням.

Щоб вирішити цю проблему, дослідники з ByteDance представили DiffPortrait3D, нову модель умовної дифузії, призначену для створення фотореалістичних, 3D-послідовних зображень на основі одного натурного портрета. DiffPortrait3D реконструює 2D-портрет в 3D-зображення людського обличчя, зберігаючи при цьому ідентичність та вираз обличчя. Важливо, що він демонструє можливість «нульового кадру», узагальнюючи широкий спектр портретів без трудомісткої оптимізації або тонкої настройки.

В основі DiffPortrait3D лежить генеративна попередня 2D модель дифузії, що слугує основою для рендерингу. Розділений механізм уважного керування полегшує згладжування, вводячи контекст зовнішнього вигляду в шари самоуваги. Модель використовує модуль умовного керування для інтерпретації положення камери на основі еталонного зображення, що забезпечує узгодженість рис обличчя з різних ракурсів.

Для покращення візуальної узгодженості впроваджено модуль перехресної уваги, який можна тренувати, що особливо корисно в складних ситуаціях. Механізм генерування тривимірного зображення з урахуванням шуму забезпечує стійкість під час обробки, сприяючи загальній стабільності та реалістичності. DiffPortrait3D демонструє найсучасніші результати в синтезі 3D-портретів по одному зображенню в різних стилях і налаштуваннях.

Основні переваги DiffPortrait3D включають

Впровадження методу «нульового кадру» для створення 3D-когерентних зображень з одного портрета шляхом розширення методу 2D-стабільної дифузії.
Демонстрація вражаючих досягнень в створенні синтезу візуальних ефектів, що підтримує різноманітні портрети за зовнішнім виглядом, виразом обличчя, відношенням та стилем, не вимагаючи значних тонких налаштувань.
Впровадження роздільної системи керування зовнішнім виглядом та видом з камери, що дозволяє ефективно маніпулювати камерою без шкоди для виразності та індивідуальності об’єкта зйомки.
Поєднання модуля перехресної уваги з технологією створення шуму з урахуванням 3D-технологій для забезпечення стабільності 3D-зображень на великій відстані.

DiffPortrait3D став справжньою знахідкою в галузі штучного інтелекту, досягнувши значних успіхів у синтезі тривимірних портретів. Можливість нульового пострілу, ефективна система керування та перехресна увага сприяють значному прогресу у створенні реалістичних та різноманітних перспектив обличчя.