12.02.2024 12:26

Алгоритм масштабування для покращення дифузійних моделей за допомогою навчання з підкріпленням від Pinterest

Дослідники з Pinterest представили новий метод масштабування, спрямований на покращення дифузійних моделей за допомогою навчання з підкріпленням (RL). Дифузійні моделі — це генеративні моделі, які застосовують шум до даних під час навчання і відновлюють їх шляхом зворотного процесу зашумлення. Вони дозволяють отримувати зображення високої якості та стали ключовими в області машинного навчання.

Проте продуктивність цих моделей суттєво залежить від розподілу навчальних даних, що може призводити до проблем, таких як упередженість і стереотипи в зображеннях. Раніше використовувалися кураторські набори даних або втручання в процес вибірки, але ці методи могли впливати на час навчання моделей, не покращуючи їхні можливості.

У своїй роботі дослідники вирішили використати навчання з підкріпленням для точного налаштування дифузійних моделей. їхній фреймворк дозволяє моделям тренуватися на великій кількості підказок у різних завданнях. Крім того, для гарантування різноманітності результатів використовується функція винагороди на основі розподілу.

Автори дослідження порівняли свій метод з іншими моделями, використовуючи різні метрики, такі як композиція зображення, людські уподобання та різноманітність. Результати показали, що їхня модель має кращі показники у порівнянні з базовими моделями, особливо щодо уподобань і різноманітності.

Отже, робота дослідників Pinterest вказує на потенційні можливості використання навчання з підкріпленням для покращення дифузійних моделей. Вона забезпечуює кращу якість зображень і уникнення упередженості в них.

Нагадаємо, дослідники з Каліфорнійського університету в Берклі впроваджують SERL.