BTC$29880

ETH$3666

Шукати

Зображення надвисокої роздільної здатності з попередньо навченими моделями дифузії

Останніми роками спостерігається значний сплеск у розвитку методів синтезу зображень, що викликає інтерес як в академічних колах, так і в промисловості. Зокрема, моделі перетворення тексту в зображення та стабільна дифузія (SD) стали лідерами в цій галузі. Незважаючи на свої чудові можливості, ці моделі наразі стикаються з обмеженнями при створенні зображень з високою роздільною здатністю, що не перевищує 1024 x 1024 пікселів. Така роздільна здатність не відповідає вимогам високоякісних додатків, таких як реклама.

Проблеми виникають при спробі створення зображень, що виходять за межі цієї навчальної роздільної здатності, особливо це стосується повторення об’єктів і спотворених структур об’єктів. Проблема дублювання об’єктів стає все більш вираженою зі збільшенням розміру зображення, навіть для моделей зі стабільною дифузією, навчених на зображеннях 512 x 512.

На практиці ці проблеми проявляються у вигляді дублювання об’єктів і неточностей у розташуванні об’єктів, що змушує існуючі методи, такі як методи спільної дифузії та механізми уваги, намагатися знайти ефективні рішення. Дослідники виявили критичну проблему в архітектурі дифузійних моделей U-Net, зокрема, обмеженість перцептивних полів згорткових ядер. По суті, такі проблеми, як рекурентність об’єктів, виникають через обмежену здатність моделі сприймати і розуміти зміст вхідних зображень.

Щоб вирішити ці проблеми, група дослідників представила ScaleCrafter для генерації зображень високої роздільної здатності на етапі виведення. Цей метод використовує повторне розгортання – просту, але дуже потужну техніку, яка дозволяє моделям більш ефективно обробляти різні роздільні здатності та співвідношення сторін шляхом динамічного налаштування згорткового поля сприйняття протягом процесу генерації зображень. Таким чином, модель може значно покращити когерентність та якість згенерованих зображень, підтримуючи розміри до 4096 на 4096 пікселів. Такий підхід усуває необхідність у додатковому навчанні або етапах оптимізації, що робить його практичним рішенням для вирішення проблем повторюваності та структурних проблем при синтезі зображень високої роздільної здатності.

Проблема повторення структури при генерації з високою роздільною здатністю. Зміна масштабного коефіцієнта уваги, а також спільні дифузійні підходи, включаючи MultiDiffusion і SyncDiffusion, не вирішують цю проблему. Тоді як проста повторна дилатація успішно вирішує цю проблему і дає структурні та семантично правильні зображення, не вимагаючи при цьому витрат на оптимізацію та налаштування. Джерело

Було проведено всебічне тестування, яке підтвердило, що цей підхід ефективно пом’якшує проблему повторення об’єктів і демонструє відмінні результати при створенні зображень з високою роздільною здатністю, особливо при відтворенні складних текстурних деталей. Ця робота також вказує на потенціал використання моделей дифузії, навчених на зображеннях з низькою роздільною здатністю, для створення візуальних зображень з високою роздільною здатністю без значного перенавчання, пропонуючи цінне розуміння сфери синтезу зображень і відео з надвисокою роздільною здатністю.

Вихідні дані: “Мініатюрний будиночок з рослинами в горщиках, гіперреалізм, драматичне зовнішнє освітлення, висока деталізація”; Роздільна здатність: 4096 x 4096. Джерело

Основні результати цього дослідження можна підсумувати наступним чином:

  • Ідентифікація обмеженого поля сприйняття в процедурах згортки, а не кількості маркерів уваги, як основної причини повторення об’єктів.
  • Впровадження підходу повторного розширення, що динамічно розширює згорткове рецептивне поле під час виведення для вирішення кореневої проблеми.
  • Презентація інноваційних стратегій, включаючи дисперсну згортку і завадостійке наведення без класифікатора, пристосованих для створення зображень надвисокої роздільної здатності.
  • Застосування методу до моделі перетворення тексту у відео та всебічна оцінка в різних моделях дифузії, що демонструє його ефективність у вирішенні проблеми повторюваності об’єктів та покращенні синтезу зображень високої роздільної здатності з різним співвідношенням сторін та роздільною здатністю.