30.09.2023 16:57

Фреймворк ШІ для зміни ракурсу камери на об’єкті, маючи лише одне RGB-зображення

У сфері комп’ютерного зору дослідники зіткнулися з постійним викликом: зміна ракурсу об’єкта за наявності лише одного RGB-зображення. Ця складна проблема має широке розповсюдження в доповненій реальності, робототехніці та реставрації творів мистецтва. Попередні підходи, що спиралися на створені вручну особливості та геометричні припущення, не давали практичних рішень. Однак дослідники з Колумбійського університету представили новаторський фреймворк Zero-1-to-3. Використовуючи можливості глибокого навчання та великомасштабних моделей дифузії, їхній фреймворк використовує вивчені геометричні принципи на основі синтетичних даних для маніпулювання точками огляду камери. Вона також розширює свої можливості до нетрадиційних сценаріїв, таких як імпресіоністичні картини, і перевершує найсучасніші моделі у 3D-реконструкції з одного зображення.

На основі єдиного RGB-зображення об’єкта з Zero-1-to-3 використовується метод синтезу зображення із заданої точки зору камери. Цей підхід синтезує зображення, які містять багато деталей, що відповідають вхідному зображенню для великих відносних перетворень. Він також досягає високої продуктивності нульового кадру на об’єктах зі складною геометрією та художніми стилями. Джерело

У сфері генеративних 3D-моделей і реконструкції об’єктів за одним зображенням, що швидко розвивається, нещодавні прориви стали можливими завдяки вдосконаленню архітектури генеративних зображень і наявності великих наборів даних зображення-текст. Ці досягнення уможливили синтез складних сцен та об’єктів за допомогою дифузійних моделей, відомих своєю масштабованістю та ефективністю у створенні зображень. Традиційно перенесення цих моделей у тривимірну площину вимагало великої кількості анотованих тривимірних даних, що є ресурсномістким процесом. Однак останні підходи дозволяють обійти цю потребу, переносячи попередньо навчені великомасштабні 2D-моделі дифузії в 3D-сферу, ефективно оминаючи вимогу про наявність наземних 3D-даних.

3D-реконструкція за допомогою Zero-1-to-3. Zero-1- to-3 можна використовувати для оптимізації нейронного поля під задачу 3D-реконструкції за одним зображенням. Під час навчання ми випадковим чином вибираємо точки зору і використовуємо Zero-1-to-3 для керування 3D-реконструкцією. Джерело

Запропонований дослідниками фреймворк Zero-1-to-3 вирішує складну проблему зміни точки зору камери об’єкта, використовуючи лише одне RGB-зображення. Їхній підхід спирається на модель умовної дифузії, навчену на синтетичних даних, що дозволяє їй розуміти фактори, які керують відносною позицією камери. Завдяки цій новій можливості фреймворк може генерувати нові зображення, які точно відображають бажані параметри зйомки. Вражає те, що модель демонструє надійні навички узагальнення з нульового кадру, без особливих зусиль поширюючи свої вміння на раніше не бачені набори даних та реальні зображення. Крім того, корисність фреймворку поширюється на сферу 3D-реконструкції з одиночного зображення, де він перевершує сучасні моделі, що знаменує собою значний прогрес у 3D-реконструкції з одиночного зображення та синтезі нових видів.

Незважаючи на притаманні великомасштабним генеративним моделям обмеження, такі як відсутність явного кодування відповідностей між точками зору і вплив упереджень щодо точок зору з величезного набору даних в Інтернеті, були застосовані інноваційні рішення і методології, які вивели фреймворк Zero-1-to-3 на передній край досягнень комп’ютерного зору.

Цей метод переосмислює парадигму зміни точки зору камери за допомогою лише одного RGB-зображення. Він перевершує не лише сучасні моделі одноракурсної 3D-реконструкції, але й новий синтез ракурсів. Результати демонструють генерацію високофотореалістичних зображень, які точно відображають реальну картину. Цей метод чудово синтезує високоточні точки зору, зберігаючи при цьому тип об’єкта, його індивідуальність та складні деталі. Крім того, він вирізняється створенням різноманітних правдоподібних зображень з нових точок зору, ефективно інкапсулюючи невизначеність, притаманну цьому завданню.

Загалом, цей підхід являє собою значний стрибок вперед в одноракурсній 3D-реконструкції та синтезі нових ракурсів, пропонуючи потужний інструмент для створення свіжих перспектив об’єктів з різних точок зору камери з неперевершеною ефективністю.