22.09.2023 13:54
Подолання розриву між 2D- і 3D-маніпуляціями та прогресивний інпейнтинг зображень
Дослідники все частіше вивчають маніпуляції із зображеннями, особливо в контексті видалення та вставки об’єктів, часто відомі як процес інпейнтинга зображення.
Поява нейронних полів радіантності (Neural Radiance Fields, NeRF) полегшила перетворення реальних 2D-фотографій на реалістичні 3D-зображення. По мірі вдосконалення алгоритмів і зниження обчислювальних вимог, маніпуляції з 3D NeRF можуть стати більш поширеними, особливо в задачах малювання.
інпейнтинг 3D-об’єктів представляє унікальні виклики через дефіцит 3D-даних і необхідність враховувати як 3D-геометрію, так і зовнішній вигляд. Нейронні мережі створюють додаткові складнощі через їх неявне нейронне представлення. Модифікація базової структури даних безпосередньо на основі геометричного розуміння є недоцільною. Крім того, забезпечення узгодженості між декількома видами при зафарбовуванні 3D-сцен є складним завданням, оскільки незалежний інпейнтинг окремих складових зображень може призвести до неузгодженості точок зору і візуально нереалістичних результатів.
Для вирішення цих проблем було запропоновано кілька підходів. Деякі методи намагаються вирішити проблему неузгодженості постфактум, а інші досліджують методи зафарбовування за одним посиланням, щоб уникнути неузгодженості точок зору. Однак ці підходи мають свої обмеження, наприклад, боротьба зі значними відмінностями у сприйнятті або складними зображеннями.
Для вирішення цих проблем було розроблено новий підхід, який уможливлює розфарбовування 3D-об’єктів. Він вимагає N зображень з різних точок зору з відповідними матрицями трансформації камери та масками, що окреслюють небажані ділянки. Крім того, потрібне зафарбоване еталонне зображення, пов’язане з вхідними зображеннями. Це може бути простий текстовий опис об’єкта, який замінить маску.
Для врахування змін у сцені, що залежать від вигляду, було введено модуль, присвячений ефектам, що залежать від вигляду (View-Dependent Effects, VDE). Цей модуль коригує еталонні кольори відповідно до контексту інших видів, вирішуючи такі проблеми, як дзеркальність і неламбертіанські ефекти.
Монокулярні оцінювачі глибини керують геометрією області інпейнтинга на основі глибини еталонного зображення. Розроблено підхід для нагляду за невключеними пікселями в зафарбованій цільовій області за допомогою додаткових зафарбовувань.
Цей новий фреймворк ШІ уможливлює керований інпейнтинг нейронних полів радіантності, що дозволяє користувачам маніпулювати та генерувати 3D-сцени з бажаними редагуваннями. Він вирішує проблеми, пов’язані з узгодженістю, ефектами, залежними від виду, та оцінкою глибини, що робить його багатообіцяючим досягненням у маніпулюванні 3D-зображеннями.