BTC$29880

ETH$3666

Шукати

Комплексна мережа для створення детальних 3D-реконструкцій із заданих зображень

Ви напевно бачили вражаючу 3D-графіку. На відміну від пласкої 2D-графіки, 3D-графіка додає глибину і перспективу, створюючи царство реалістичних і захоплюючих візуальних ефектів. Ця графіка знайшла застосування в різних сферах, включаючи ігри, кіновиробництво, архітектуру, медицину, віртуальну реальність тощо.

Традиційно створення 3D-моделі передбачало обчислення карт глибини на основі вхідних зображень, а потім їх об’єднання для створення 3D-структури. Однак спільна робота дослідників з Apple та Каліфорнійського університету в Санта-Барбарі породила новий підхід. Вони розробили техніку прямого виведення 3D-геометрії на рівні сцени за допомогою глибоких нейронних мереж, оминаючи потребу в традиційній оптимізації часу тестування.

Традиційний метод часто призводив до таких проблем, як відсутність геометрії та поява артефактів, особливо на прозорих або малотекстурованих поверхнях. Новий підхід передбачає проектування зображень на воксельну сітку та використання 3D згорткової нейронної мережі для прогнозування усіченої знакової функції відстані (TSDF) сцени.

Згорткові нейронні мережі (CNN) — це спеціалізовані нейронні мережі, призначені для обробки візуальних даних, таких як зображення та відео. Однією з важливих переваг використання CNN є їхня здатність навчатися та генерувати гладкі, послідовні поверхні, ефективно заповнюючи прогалини в малотекстурованих або прозорих областях.

Під час навчання дослідники використовували трилінійну інтерполяцію для вирівнювання наземного TSDF з воксельною сіткою моделі. Однак це вносило шум у навчальні деталі. Щоб подолати це, вони зосередилися виключно на контрольованих прогнозах, де реальна TSDF була чітко визначена, що дозволило покращити результати на 10%.

Концепція вокселів — об’ємних пікселів — відіграла вирішальну роль у цьому дослідженні. Вокселі представляють точки в тривимірному просторі в сітці, аналогічно до того, як пікселі представляють точки на двовимірних зображеннях. Існуючі вокселі мали обмежену роздільну здатність, що робило їх недостатніми для захоплення дрібних геометричних деталей, присутніх на природних зображеннях. Команда вирішила цю проблему, запровадивши функцію CNN-сітки, яка безпосередньо проектувала елементи зображення на точки запиту.

Однак при зворотній проекції виникла проблема, яка призвела до розмиття об’єму. Дослідники вирішили цю проблему, використовуючи початкову багаторакурсну стереооцінку глибини, що збільшило об’єм об’єктів і сприяло підвищенню здатності мережі розпізнавати складні деталі.

Цей метод вирізняється тим, що він дає можливість мережі розуміти складні деталі, пропонуючи свободу вибору вихідної роздільної здатності без необхідності додаткового навчання або більшої кількості рівнів 3D-згортання. Оскільки технології продовжують розвиватися, конвергенція 3D-графіки та нейронних мереж відкриває двері до ще більш реалістичних та візуально захоплюючих вражень.