BTC$29880

ETH$3666

Шукати

Покращення узгодженості генерації тексту в 3D за допомогою вирівняних геометричних пріоритетів

Перетворення 2D-зображень на 3D-об’єкти під час перетворення текст- 3D є складним завданням. Основна перешкода виникає через те, що 2D-моделі дифузії базуються на принципах діагностики вигляду і не розуміють просторового розуміння 3D під час перетворення. Це обмеження призводить до невідповідностей між різними видами, коли 3D-об’єкти виглядають суперечливо під різними кутами. Наприклад, якщо ми конвертуємо 2D-зображення куба в 3D, модель може створити куб, який виглядає ідеально з однієї перспективи, але спотворений з інших.

Щоб вирішити цю проблему геометричної невідповідності, команда дослідників представила новий метод SweetDreamer. Під час конвертації SweetDreamer додає чітко визначені 3D-форми та узгоджує 2D-геометричні принципи в моделях дифузії з цими формами. Це досягається шляхом точного налаштування 2D дифузійної моделі з урахуванням точки зору, що дозволяє їй розуміти, як зовнішній вигляд об’єкта змінюється залежно від точки зору. Результатом є створення специфічних для точки зору координатних карт для 3D-об’єктів, орієнтованих канонічно. Такий підхід ефективно гарантує, що згенеровані 3D-об’єкти демонструють узгодженість з усіх точок зору.

SweetDreamer може генерувати високоточні та різноманітні 3D результати з різних текстових підказок, без сумнозвісної проблеми неузгодженості між декількома видами. Джерело

Дослідники визнали, що основна причина невідповідності 3D полягає в геометричних диспропорціях. Їхня мета полягає в тому, щоб розширити можливості 2D-приорів генерувати 3D-об’єкти, які зберігають однорідність з усіх точок зору, зберігаючи при цьому свою здатність до узагальнення.

Метод дослідників використовує комплексний набір 3D-даних, що містить різноманітні канонічно орієнтовані та стандартизовані 3D-моделі. Карти глибин створюються під різними кутами і трансформуються в канонічні координатні карти. Згодом 2D модель дифузії допрацьовується для отримання координатних карт, узгоджених з конкретними видами, що в кінцевому підсумку гармонізує геометричні передумови 2D дифузії. Ці вирівняні геометричні попередні дані можуть бути легко інтегровані в різні системи перетворення тексту в 3D, ефективно зменшуючи проблеми неузгодженості і створюючи різноманітний високоякісний 3D-контент.

Найпоширеніші 3D-представлення при перетворенні тексту в 3D включають DMTet і NeRF. У своїй дослідницькій роботі автори продемонстрували, що їхні вирівняні геометричні пріоритети можуть бути інтегровані в конвеєри перетворення тексту в 3D як на основі DMTet, так і на основі NeRF, підвищуючи якість згенерованих 3D-об’єктів. Це демонструє універсальність їхнього підходу і його потенціал для підвищення продуктивності широкого спектру систем перетворення тексту в 3D.

Враховуючи відсутність усталених метрик для оцінки результатів перетворення тексту в 3D, дослідники зосередилися на оцінці узгодженості між різними видами перегляду в 3D-результатах. Вони випадковим чином вибрали 80 підказок з галереї DreamFusion і застосували кожен метод для перетворення тексту в 3D. Ручні перевірки були виконані для виявлення 3D невідповідностей і звіту про рівень успішності. Дослідники виявили, що їхній метод значно перевершує інші методи. Рівень успішності перевищив 85% в обох напрямках (DMTet і NeRF), тоді як інші методи показали близько 30%.

Таким чином, метод SweetDreamers пропонує інноваційний підхід до досягнення найсучаснішої продуктивності при перетворенні тексту в 3D. Він генерує узгоджені результати з широкого спектру підказок, усуваючи проблему неузгодженості між різними видами. Порівняно з попередніми методами, він забезпечує вищу продуктивність. Дослідники сподіваються, що їхня робота прокладе шлях до використання обмежених 3D-даних для покращення попередньої 2D-дифузії при перетворенні тексту в 3D.