17.10.2023 16:09

ШІ-підхід на основі прямого розповсюдження для точного налаштування моделей дифузії

Імовірнісні моделі дифузії стали стандартом для генеративного моделювання в суцільних областях, зокрема DALLE є лідером у моделях дифузії текст-зображення. Ці моделі відомі своєю здатністю генерувати зображення з великих наборів веб-даних. Однак, точне налаштування їхньої поведінки для конкретних подальших завдань, таких як оптимізація якості зображень або етична генерація зображень, є складним завданням через їхню неконтрольовану природу.

Нещодавні дослідження намагалися використовувати методи навчання з підкріпленням для точного налаштування моделей дифузії, але ці методи часто страждають від високої дисперсії оцінок градієнта. У відповідь на це дослідники Університету Карнегі-Меллона та Google DeepMind представили AlignProp — метод, який вирівнює моделі дифузії з наступними функціями винагороди шляхом зворотного поширення градієнта винагороди під час процесу зменшення шуму.

AlignProp — це підхід на основі прямого зворотного поширення для адаптації моделей дифузії текст-зображення до бажаної функції винагороди. Наведені вище приклади демонструють адаптацію вихідних даних моделі дифузії (epoch 0) за допомогою послідовності кроків адаптації (epoch 1-10) до різних функцій винагороди. У двох лівих прикладах функція винагороди — це функція видалення концепту, яка навчила систему ігнорувати концепт “книги”, незважаючи на те, що в підказці до моделі перетворення тексту в зображення явно згадуються “фрукти і книги”. Функція винагороди для адаптації праворуч — це вирівнювання людських уподобань, створене на основі людських оцінок пар зображення-текст. Як показано в усіх прикладах, запропонований підхід може ефективно узгодити модель дифузії з функцією винагороди. Джерело

AlignProp досягає цього, зменшуючи високі вимоги до пам’яті, які зазвичай пов’язані зі зворотним поширенням через сучасні моделі перетворення тексту в зображення. Це досягається завдяки точному налаштуванню низькорангових вагових модулів адаптера та застосуванню градієнтних контрольних точок.

У статті оцінюється продуктивність AlignProp у точному налаштуванні моделей дифузії для різних цілей, включаючи вирівнювання зображення-тексту, естетику, стисливість зображень і контроль кількості об’єктів на згенерованих зображеннях. AlignProp постійно перевершує альтернативні методи, досягаючи вищих результатів за меншу кількість кроків навчання. Його концептуальна простота робить його привабливим вибором для оптимізації моделей дифузії на основі диференційованих функцій винагороди.

AlignProp використовує градієнти функції винагороди для точного налаштування моделей дифузії, що призводить до покращення ефективності вибірки та обчислювальної ефективності. Проведені експерименти демонструють його ефективність в оптимізації широкого спектру функцій винагороди, навіть для завдань, які складно визначити лише за допомогою підказок. Майбутні дослідження можуть поширити ці принципи на дифузійні мовні моделі з метою покращення їхнього узгодження зі зворотним зв’язком з людиною.