18.09.2023 18:29
InstaFlow: нова однокрокова генеративна модель ШІ з відкритим вихідним кодом
Автори з факультету комп’ютерних наук Техаського університету в Остіні представляють інноваційну однокрокову генеративну модель для перетворення тексту в зображення, засновану на моделі стабільної дифузії (Stable Diffusion, SD). Хоча дифузійні моделі продемонстрували чудову якість і креативність, їх часто критикують за повільний багатокроковий процес вибірки. Щоб створити однокрокову модель, дослідники спочатку спробували дистилювати модель SD, але зіткнулися з проблемами, пов’язаними з поєднанням шуму та зображень, що перешкоджало процесу дистиляції.
Щоб вирішити цю проблему, вони звернулися до Rectified Flow, нещодавнього досягнення в генеративних моделях, яке включає імовірнісні потоки. Rectified Flow використовує техніку під назвою reflow, яка випрямляє траєкторію ймовірнісних потоків, зменшуючи транспортні витрати між розподілом шуму та розподілом зображень. Таке покращення зв’язку робить процес дистиляції більш ефективним, долаючи початкову проблему.
В результаті однокроковий дифузійний генератор перетворення тексту в зображення, названий “InstaFlow”, досягнув показника початкової відстані Фреше (Fréchet inception distance, FID) 23,3 на наборі даних MS COCO 2017-5k, що є суттєвим покращенням порівняно з попередньою найсучаснішою методикою. З розширеною мережею, що містить 1,7 мільярда параметрів, InstaFlow досягнув ще нижчого показника FID – 22,4.
На наборі даних MS COCO 2014-30k InstaFlow продемонстрував виняткову продуктивність з показником FID 13,1 всього за 0,09 секунди, перевершивши останні моделі. Важливо, що навчання InstaFlow вимагало відносно низьких обчислювальних витрат – лише 199 A100 GPU-днів.
На основі цих результатів дослідники запропонували кілька пропозицій:
- Покращення однокрокової SD: хоча навчання моделі 2-випрямленого потоку не повністю збіглося, вона спожила значно менше графічних днів порівняно з оригінальною моделлю стабільної дифузії. Дослідники вважають, що подальше збільшення набору даних, розміру моделі та тривалості навчання призведе до покращення продуктивності однокрокових SD-моделей.
- Однокроковий ControlNet: Застосування їх пайплайну для навчання моделей ControlNet може призвести до однокрокових ControlNet, здатних генерувати керований контент протягом мілісекунд.
- Персоналізація для однокрокових моделей: Шляхом точного налаштування SD з урахуванням конкретних навчальних цілей, користувачі можуть налаштувати попередньо навчені моделі стабільної дифузії для генерації контенту і стилів, пристосованих до їхніх потреб.
- Структура нейронної мережі для однокрокової генерації: Успіх у створенні однокрокових моделей SD з використанням обумовленого текстом перетоку та дистиляції відкриває різні напрямки. Вони включають дослідження альтернативних однокрокових структур, використання таких методів, як обрізання та квантування, щоб зробити однокрокову генерацію більш ефективною з точки зору обчислень, а також мінімізацію потенційної деградації якості.
Таким чином, дослідження представляє ефективну однокрокову генеративну модель для перетворення тексту в зображення, яка усуває обмеження багатокрокових моделей дифузії. InstaFlow досягає вражаючих результатів з точки зору якості зображення та обчислювальної ефективності, пропонуючи нові можливості для генерації тексту в зображення та суміжних задач.