15.08.2023 12:12

Новий фреймворк ШІ для нейронних 3D-реалістичних облич

Останнім часом спостерігається великий інтерес до перетворення 2D-зображень на 3D-генеративні моделі. Нейронні поля радіантності (NeRF) зробили революцію в цій галузі, створюючи високоякісні 3D-зображення, які конкурують з реалістичністю 2D-моделей. Деякі методи зосереджуються виключно на 3D-когерентності, жертвуючи реалістичністю. Однак нещодавні дослідження показали, що поєднання обох підходів може підвищити реалістичність, хоча в таких моделях часто змішуються такі елементи, як форма, зовнішній вигляд та освітлення, що ускладнює управління.

Дослідники працюють над тим, як розплутати цю складність. Багато методів потребують декількох зображень однієї і тієї ж сцени для точності, що може бути складно в реальних умовах. Деякі методи можуть використовувати зображення з різних сцен, але потреба в декількох поглядах залишається. Крім того, ці методи не можуть генерувати нові об’єкти; вони потребують окремого навчання для кожного з них. Коли справа доходить до генерації нових об’єктів, збалансована робота з геометрією та освітленням все ще залишається складним завданням.

Новий фреймворк під назвою FaceLit має на меті отримати відокремлену 3D-модель обличчя виключно із зображень. Огляд архітектури фреймворку показано на рисунку нижче.

Процес генерації створює вибірку 3D обличчя з латентного z, обумовленого позою p та освітленням l. Генератор використовує каркас StyleGAN2 у форматі дифузного та дзеркального декодерів. Зелені модулі є фіксованими диференційованими функціями, що не навчаються. *Джерело*

Підхід зосереджений на створенні конвеєра рендерингу, який дотримується встановлених фізичних моделей освітлення, адаптованих до принципів генеративного 3D-моделювання. Це досягається шляхом інтеграції фізичної моделі освітлення в конвеєр нейронного об’ємного рендерингу, відомий як EG3D. Для цієї інтеграції використовуються сферичні гармоніки, що дозволяє моделі генерувати реалістичні зображення з точним освітленням.

Процес навчання фреймворку фокусується на реалістичності, що досягається завдяки його узгодженню з фізикою для створення реалістичних зображень. Це природне узгодження допомагає отримати розгорнуту тривимірну генеративну модель. Ключова інновація полягає в інтеграції принципів рендерингу, заснованих на фізиці, в нейронний об’ємний рендеринг за допомогою Сферичних Гармонік.

У цьому налаштуванні коефіцієнти сферичних гармонік представляють дифузні та дзеркальні аспекти сцени, такі як поверхневі нормалі та вектори відбиття. Ці коефіцієнти охоплюють різні характеристики, такі як дифузне відбиття, дзеркальне відбиття матеріалу та нормальні вектори. Вони генеруються за допомогою нейронної мережі. Ця інтеграція ефективно відокремлює процес освітлення від процесу рендерингу, що є вирішальним кроком у методології.

Підхід, викладений у цьому дослідженні, застосовано та оцінено за допомогою трьох різних наборів даних: FFHQ, CelebA-HQ та MetFaces. Автори повідомляють, що ця реалізація призводить до вражаючих результатів FID, демонструючи його високу продуктивність порівняно з іншими генеративними моделями, що враховують 3D. Ось деякі з результатів, досягнутих за допомогою цього методу:

Згенеровані обличчя з різними позами та умовами освітлення за допомогою моделі FaceLit (ліворуч) у порівнянні з згенерованими зразками з EG3D (праворуч). Модель FaceLit демонструє детальну реконструкцію в області губ та зубів. Карта оточення відтворена за допомогою півсфери внизу праворуч. Джерело

У сфері інновацій штучного інтелекту FaceLit є значним кроком на шляху до розкриття таємниць генеративного 3D-моделювання з 2D-зображень. Його здатність створювати складні 3D-представлення облич відкрила новий вимір у синтезі та представленні зображень.