BTC$29880

ETH$3666

Шукати

Модуль, який синхронізує декілька дифузій за допомогою градієнтного спуску

У нещодавній дослідницькій роботі KAIST представлено SyncDiffusion — інноваційний модуль, покликаний революціонізувати генерацію панорамних зображень за допомогою попередньо навчених моделей дифузії. Дослідники виявили значну проблему при створенні панорамних зображень, в першу чергу, що стосується видимості швів при злитті декількох зображень фіксованого розміру. У відповідь на цю проблему вони представили SyncDiffusion як рішення.

Створення панорамних зображень, відомих своїми широкими, захоплюючими видами, є унікальним випробуванням для моделей генерації зображень. Ці моделі зазвичай навчені створювати зображення фіксованого розміру, що ускладнює створення панорам. Прямолінійний підхід до зшивання кількох зображень разом часто призводить до очевидних швів і незв’язних композицій. Як наслідок, зростає попит на нові методи, що дозволяють легко поєднувати зображення та зберігати загальну цілісність при створенні панорамних зображень.

Порівняння панорам, згенерованих за запитом “фотографія з рок-концерту” за допомогою Blended Latent Diffusion (вгорі), MultiDiffusion (посередині) та нашої SyncDiffusion (внизу). Змішана латентна дифузія, застосована до екстраполяції зображення, часто створює видимі шви та повторювані патерни. Мультидифузія створює безшовні панорами, але не може досягти глобальної когерентності по всьому зображенню. На противагу цьому, SyncDiffusion синхронізує області по всій панорамі, збільшуючи схожість сприйняття деномінованих вихідних прогнозів. Це призводить до значно більш когерентних панорамних результатів. Джерело

Двома поширеними методами створення панорамних зображень є послідовна екстраполяція зображень та спільна дифузія. Перший передбачає послідовне розширення заданого зображення для створення остаточної панорами, фіксуючи перекриту область на кожному кроці. Однак цей метод часто не дає реалістичних панорам і часто створює повторювані патерни, що призводить до неоптимальних результатів.

І навпаки, спільна дифузія працює у зворотному напрямку, одночасно просуваючись по декількох ракурсах і усереднюючи проміжні зашумлені зображення в областях, що перекриваються. Хоча цей підхід ефективно генерує безшовний монтаж, він не може забезпечити узгодженість контенту та стилю в різних видах. Як наслідок, він часто поєднує зображення з різним змістом і стилем в одній панорамі, що призводить до незв’язного результату.

SyncDiffusion було представлено як модуль, що синхронізує декілька дифузій, використовуючи градієнтний спуск, заснований на втраті перцептивної схожості. Ключова інновація тут полягає у використанні прогнозованих деноусованих зображень на кожному кроці деноусування для обчислення градієнта втрати сприйняття. Цей підхід дає цінні рекомендації для створення когерентних монтажних композицій, гарантуючи, що зображення плавно поєднуються, зберігаючи при цьому цілісність контенту.

Провівши серію експериментів з використанням SyncDiffusion у поєднанні з моделлю Stable Diffusion 2.0, дослідники помітили значне покращення порівняно з попередніми методами. Дослідження користувачів продемонструвало значну перевагу методу SyncDiffusion, з показником переваги 66,35%, на противагу показнику попереднього методу в 33,65%. Це значне покращення підкреслює практичні переваги SyncDiffusion у створенні когерентних панорамних зображень.

SyncDiffusion робить помітний внесок у сферу генерації зображень, ефективно вирішуючи проблему створення безшовних і когерентних панорамних зображень, що є давньою проблемою в цій галузі. Завдяки синхронізації декількох дифузій і застосуванню градієнтного спуску, отриманого на основі втрати перцептивної схожості, SyncDiffusion покращує якість і когерентність згенерованих панорам. Таким чином, вона є цінним інструментом для різних застосувань, що передбачають створення панорамних зображень, і підкреслює потенціал градієнтного спуску для покращення процесів генерації зображень.