
20.07.2023 15:28
Дослідники Google AI представили HyperDreamBooth
Сфера генеративного штучного інтелекту привертає всю увагу, на яку вона заслуговує. Нещодавні розробки в галузі персоналізації текст-зображення (T2I) відкрили інтригуючі можливості для інноваційних застосувань. Концепція персоналізації, яка полягає у створенні характерних осіб у різних контекстах і стилях зі збереженням високого рівня цілісності їхньої ідентичності, стала провідною темою в генеративному ШІ. Персоналізація обличчя, тобто здатність генерувати нові фотографії певного обличчя або людини в різних стилях, стала можливою завдяки використанню попередньо навчених дифузійних моделей, які мають сильний досвід роботи з різними стилями.
Сучасні підходи на кшталт DreamBooth та подібні методики мають успіх завдяки своїй здатності включати нові предмети в модель, не применшуючи її попередніх знань, і зберігати суть і специфіку предмета, навіть якщо він представлений у дуже різний спосіб. Але вони все ще мають багато обмежень, включаючи проблеми з розміром моделі та швидкістю її навчання. DreamBooth передбачає точне налаштування всіх ваг UNet і Text Encoder моделі дифузії, що призводить до розміру понад 1 ГБ для стабільної дифузії, що є значно більшим. Крім того, процедура навчання для стабільної дифузії займає близько 5 хвилин, що може перешкоджати її широкому впровадженню та практичному застосуванню.
Щоб подолати всі ці проблеми, команда дослідників з Google Research представила HyperDreamBooth – гіпермережу, яка ефективно генерує невеликий набір персоналізованих ваг лише з одного зображення людини. Маючи лише одне зображення людини, гіпермережа HyperDreamBooth ефективно створює крихітну колекцію персоналізованих вагових коефіцієнтів. Потім модель дифузії поєднується з цими унікальними вагами, які швидко налаштовуються. Кінцевим результатом є потужна система, яка може генерувати обличчя людини в різноманітних ситуаціях та естетиці, зберігаючи при цьому тонкі деталі теми та розуміння дифузійної моделі різних естетичних та семантичних змін.
Неймовірна швидкість HyperDreamBooth – одне з найбільших досягнень. Він у 25 разів швидший за DreamBooth і в 125 разів швидший за іншу споріднену технологію під назвою Textual Inversion, що дозволяє персоналізувати обличчя всього за 20 секунд. Більше того, зберігаючи той самий рівень якості та естетичної варіативності, що й DreamBooth, ця швидка процедура кастомізації потребує лише одного еталонного зображення. HyperDreamBooth також перевершує за швидкістю та розміром моделі. Отримана персоналізована модель в 10 000 разів менша за звичайну модель DreamBooth, що є суттєвою перевагою, оскільки робить модель більш керованою і значно зменшує вимоги до її зберігання.
Команда підсумувала свій внесок наступним чином:
- Полегшений DreamBooth (LiDB): Впроваджено персоналізовану модель текст-зображення з кастомізованою частиною розміром приблизно 100 КБ, що було досягнуто шляхом навчання моделі DreamBooth у низьковимірному ваговому просторі, згенерованому випадковим ортогональним неповним базисом у межах адаптаційного вагового простору низького рангу.
- Нова архітектура HyperNetwork: Використовуючи конфігурацію LiDB, HyperNetwork генерує індивідуальні ваги для конкретних об’єктів у моделі дифузії текст-зображення. Це забезпечує сильну спрямовану ініціалізацію, що дає змогу швидко налаштовуватися для досягнення високої точності відтворення об’єктів за кілька ітерацій. Цей метод у 25 разів швидший за DreamBooth при порівнянній продуктивності.
- Розслаблене за рангом налаштування: Було запропоновано методику розслабленого рангу, яка послаблює ранг моделі LoRA DreamBooth під час оптимізації для підвищення точності відтворення об’єкта. Це дозволяє ініціалізувати персоналізовану модель за допомогою початкового наближення з гіпермережі, а потім уточнити високорівневі деталі об’єкта, використовуючи точне налаштування з послабленням рангу.