22.09.2023 13:54

Подолання розриву між 2D- і 3D-маніпуляціями та прогресивний інпейнтинг зображень

Дослідники все частіше вивчають маніпуляції із зображеннями, особливо в контексті видалення та вставки об’єктів, часто відомі як процес інпейнтинга зображення.

Поява нейронних полів радіантності (Neural Radiance Fields, NeRF) полегшила перетворення реальних 2D-фотографій на реалістичні 3D-зображення. По мірі вдосконалення алгоритмів і зниження обчислювальних вимог, маніпуляції з 3D NeRF можуть стати більш поширеними, особливо в задачах малювання.

інпейнтинг 3D-об’єктів представляє унікальні виклики через дефіцит 3D-даних і необхідність враховувати як 3D-геометрію, так і зовнішній вигляд. Нейронні мережі створюють додаткові складнощі через їх неявне нейронне представлення. Модифікація базової структури даних безпосередньо на основі геометричного розуміння є недоцільною. Крім того, забезпечення узгодженості між декількома видами при зафарбовуванні 3D-сцен є складним завданням, оскільки незалежний інпейнтинг окремих складових зображень може призвести до неузгодженості точок зору і візуально нереалістичних результатів.

Для вирішення цих проблем було запропоновано кілька підходів. Деякі методи намагаються вирішити проблему неузгодженості постфактум, а інші досліджують методи зафарбовування за одним посиланням, щоб уникнути неузгодженості точок зору. Однак ці підходи мають свої обмеження, наприклад, боротьба зі значними відмінностями у сприйнятті або складними зображеннями.

Для вирішення цих проблем було розроблено новий підхід, який уможливлює розфарбовування 3D-об’єктів. Він вимагає N зображень з різних точок зору з відповідними матрицями трансформації камери та масками, що окреслюють небажані ділянки. Крім того, потрібне зафарбоване еталонне зображення, пов’язане з вхідними зображеннями. Це може бути простий текстовий опис об’єкта, який замінить маску.

Візуалізація підходу до 3D-малювання. Починаючи з набору позиціонованих зображень (тобто, стандартних виходів “структура з руху”), набору масок, пов’язаних з декількома видами, і одного зафарбованого еталонного зображення, ми створюємо повну зафарбовану 3D-сцену за допомогою нового алгоритму підбору NeRF. Просто надавши інше еталонне зображення, що може бути так само просто, як зміна вхідного тексту T для однозображення, зафарбованого за текстом, користувач може контрольовано генерувати 3D-сцени з новим бажаним контентом. Джерело

Для врахування змін у сцені, що залежать від вигляду, було введено модуль, присвячений ефектам, що залежать від вигляду (View-Dependent Effects, VDE). Цей модуль коригує еталонні кольори відповідно до контексту інших видів, вирішуючи такі проблеми, як дзеркальність і неламбертіанські ефекти.

Монокулярні оцінювачі глибини керують геометрією області інпейнтинга на основі глибини еталонного зображення. Розроблено підхід для нагляду за невключеними пікселями в зафарбованій цільовій області за допомогою додаткових зафарбовувань.

Якісне порівняння візуалізацій нового методу з SPIn-NeRF-Lama (другою найкращою моделлю за кількісними показниками). Ми бачимо, що SPin-NeRF все ще виводить розмиті текстури в замаскованій області (див. перші три рядки). Джерело

Цей новий фреймворк ШІ уможливлює керований інпейнтинг нейронних полів радіантності, що дозволяє користувачам маніпулювати та генерувати 3D-сцени з бажаними редагуваннями. Він вирішує проблеми, пов’язані з узгодженістю, ефектами, залежними від виду, та оцінкою глибини, що робить його багатообіцяючим досягненням у маніпулюванні 3D-зображеннями.