21.05.2024 19:15

CAT3D моделює будь-що в 3D за допомогою багатовимірних дифузійних моделей

У цифрову епоху стрімко зростає попит на високоякісний 3D-контент, що зумовлено бурхливим розвитком таких індустрій, як ігри, візуальні ефекти та портативні пристрої змішаної реальності. Однак створення високоякісного 3D-контенту залишається складним і ресурсомістким процесом, що створює значні труднощі для розробників і митців. На відміну від 2D-зображень і відео, які можна без особливих зусиль захопити за допомогою побутових фотопристроїв, створення тривимірного контенту вимагає використання спеціалізованих інструментів і значних витрат часу.

На щастя, нещодавні досягнення в галузі фотограмметрії почали долати цей розрив, підвищуючи доступність створення 3D-активів з 2D-зображень. Такі технології, як NeRF, Instant-NGP та Гаусове розбиття, дозволяють створювати 3D-контент, використовуючи реальні сцени та оптимізуючи зображення базової 3D-геометрії та зовнішнього вигляду цих сцен. Отримані тривимірні зображення можна відтворювати з будь-якої точки зору, подібно до традиційних тривимірних об’єктів. Попри ці досягнення, створення детальних 3D-сцен все ще вимагає трудомісткого процесу знімання від сотень до тисяч фотографій, недостатнє покриття яких може призвести до дефектів геометрії та зовнішнього вигляду.

Джерело

Проблема зменшення вимог до щільних багаторакурсних знімків до менш вичерпних вхідних даних, таких як одне зображення або текст, все ще залишається актуальною. У попередніх роботах досліджувалися різні спеціалізовані рішення, включаючи методи регуляризації геометрії для реконструкції розріджених зображень, прямі моделі для створення 3D-об’єктів з окремих зображень, а також використання генеративних попередників, обумовлених зображенням або текстом. Однак ці методи часто стикаються з обмеженнями в якості, ефективності та загальності.

CAT3D — це сучасна система, розроблена для розв’язання фундаментальної проблеми обмеженої кількості контрольних поглядів при 3D-реконструкції. Замість того, щоб розробляти спеціалізовані рішення для різних режимів введення даних, CAT3D використовує новий підхід: генерує більше спостережень, щоб перетворити недостатньо визначену задачу створення 3D в повністю обмежену та спостережувану модель тривимірної реконструкції. Це досягається за допомогою моделі дифузії з декількома видами, спеціально навченої для синтезу нових видів.

CAT3D генерує декілька послідовних тривимірних зображень з будь-якої кількості вхідних видів і заданих нових точок зору, використовуючи ефективну стратегію паралельної дискретизації. Ці згенеровані зображення обробляються за допомогою потужного конвеєра 3D-реконструкції для створення 3D-представлення, яке можна інтерактивно візуалізувати з будь-якої точки зору. Система здатна створювати фотореалістичні результати довільних об’єктів або сцен з різних вхідних параметрів, починаючи від розріджених багаторакурсних знімків і закінчуючи одним зображенням, і навіть з текстової підказки, використовуючи модель перетворення тексту в зображення.

CAT3D використовує багаторакурсну модель прихованої дифузії для створення нових поглядів на сцену. Ця модель може бути обумовлена будь-якою кількістю спостережуваних видів (вхідні зображення з відповідними положеннями камери, вбудованими в якості координат променів), і навчена створювати безліч послідовних нових зображень сцени в заданих цільових точках огляду. Джерело

Ефективність CAT3D підкреслюється його продуктивністю, яка перевершує попередні роботи у вимірюваних завданнях, таких як багаторакурсне знімання за кількома тестами, і досягає результатів до десяти разів швидше, ніж попередні найсучасніші методи. У сценаріях, де емпіричну продуктивність важко виміряти, наприклад, при перетворенні тексту в 3D і одного зображення в 3D, CAT3D вигідно відрізняється від чинних рішень по всіх параметрах.

По суті, CAT3D являє собою новий підхід до створення 3D-контенту, пропонуючи більш доступний і ефективний метод для генерації високоякісних тривимірних об’єктів. Оскільки попит на 3D-контент продовжує зростати, такі інновації, як CAT3D, відіграватимуть вирішальну роль у демократизації створення 3D-контенту, дозволяючи ширшому колу користувачів створювати складні та реалістичні тривимірні моделі з мінімальними витратами. Цей прорив обіцяє змінити ландшафт створення цифрового контенту, прокладаючи шлях до нових можливостей в іграх, візуальних ефектах і не тільки.