
16.07.2023 13:13
PSLD: метод штучного інтелекту, який використовує стабільну дифузію для вирішення всіх лінійних задач без будь-якого додаткового навчання
Для вирішення обернених задач існують дві категорії підходів: навчані техніки, де модель відновлення навчається виконувати задачу, та ненавчані методи, де генеративна модель використовує попередній досвід для керування процесом відновлення.
Значний прогрес в генеративному моделюванні досягнутий завдяки появі моделей дифузії. Через високу ефективність дифузійних моделей дослідники почали досліджувати їх потенціал для вирішення обернених задач. Через складність роботи з лінійними та нелінійними оберненими задачами за допомогою моделей дифузії було розроблено кілька апроксимаційних алгоритмів. Ці методи використовують передбачувані дифузійні моделі як гнучкі апріорні розподіли для даних, щоб ефективно вирішувати завдання, такі як відновлення пропущеного фрагмента, розмите зображення та надроздільна здатність.
Сучасні основовні моделі, такі як Stable Diffusion, працюють на базі моделей латентної дифузії (LDM). Ці моделі дозволили застосовувати різноманітні застосування для різних типів даних, таких як зображення, відео, аудіо та розподіли медичних даних (МРТ та білки). Однак, жоден із поточних алгоритмів вирішення обернених задач несумісний з моделями латентної дифузії. Для вирішення оберненої задачі необхідно проводити налаштування моделі для кожного окремого завдання, щоб використовувати базову модель, таку як Stable Diffusion.

Останні дослідження команди Університету Техасу в Остіні пропонують перший фреймворк для використання попередньо навчених моделей латентної дифузії для розв’язання загальних обернених задач. Додатковий крок оновлення градієнта спрямовує процес дифузії до латентних зразків, для яких відображення-кодування є безвтратним; це їх основна ідея для розширення DPS. їх алгоритм, званий Posterior Sampling with Latent Diffusion (PSLD), переміг попередні підходи без додаткової настройки за рахунок використання потужних базових моделей для різноманітних завдань.

Дослідники оцінили підхід PSLD порівняно зі станом мистецтва алгоритму DPS на різних завданнях відновлення та покращення зображень, таких як випадкове заповнення, заповнення прямокутником, пониження шуму, гаусове розмиття, розмиття руху, довільна маскування та суперроздільність. Команда використала модель Stable Diffusion, навчену на наборі даних LAION, для свого аналізу. Результати показали переваги у порівнянні зі станом мистецтва.

Дослідники також зауважили, що алгоритм може ненавмисно піддаватися впливу вроджених упереджень цього набору даних та його основної моделі. Запропонована техніка сумісна з будь-якою моделлю латентної дифузії. Команда вважає, що ці проблеми будуть вирішені новими базовими моделями, навченими на вдосконалених наборах даних. Вони також підкреслюють, що застосування латентно-заснованих базових моделей для вирішення нелінійних обернених задач не досліджувалося. Вони сподіваються, що це буде узагальнено, оскільки підхід базується на апроксимації DPS.