BTC$29880

ETH$3666

Шукати

FaceStylizer: ефективний інструмент для швидкої стилізації обличчя

Останніми роками серед дослідників і споживачів зростає інтерес до додатків для смартфонів, які використовують доповнену реальність (Augmented Reality, AR). Ці додатки дозволяють маніпулювати та змінювати риси обличчя в реальному часі для коротких відеороликів, віртуальної реальності (Virtual Reality, VR) та ігор. Моделі генерації та редагування облич на основі генеративних змагальних мереж (Generative Adversarial Network, GAN) набули популярності завдяки своїй легкій природі та високій якості результатів. Однак традиційні моделі GAN мають обмеження з точки зору обчислювальної складності, великих наборів навчальних даних та етичних міркувань.

Щоб вирішити ці проблеми, дослідники Google розробили MediaPipe FaceStylizer — рішення для ефективної стилізації облич з мінімальними вимогами до даних і обчислювальною складністю. Ця модель використовує GAN-інверсію для перетворення зображень на приховані коди для генератора облич. Вона включає в себе мобільну мережу синтезу для створення високоякісних зображень з різним рівнем деталізації та легкий генератор для учнів, створений на основі вчительської моделі StyleGAN.

MediaPipe FaceStylizer має відкритий вихідний код, і користувачі можуть тонко налаштовувати генератор для вивчення різних стилів на основі невеликої кількості фотографій. Це дозволяє розгортати кастомізовані моделі стилізації обличчя в мобільних додатках.

Основою цієї системи є модель BlazeFaceStylizer, що складається з генератора облич і кодера облич. BlazeStyleGAN, полегшена реалізація сімейства моделей StyleGAN, використовується для генерації та вдосконалення облич відповідно до обраної естетики. Кодер облич, заснований на MobileNet V2, пов’язує вхідні фотографії з обличчями, згенерованими генератором облич.

Проект надає користувачам конвеєр для точного налаштування моделі MediaPipe FaceStylizer відповідно до різних стилів. Користувачі можуть надсилати репрезентативні зразки бажаної стилістики до MediaPipe ModelMaker, який потім налаштовує генератор, залишаючи модуль кодера фіксованим. Цей процес точного налаштування дозволяє MediaPipe FaceStylizer адаптуватися до різних стилів введення і застосовувати стилізацію до реальних людських облич на тестових фотографіях.

Для навчання BlazeStyleGAN дослідники Google використовували дистиляцію знань за допомогою StyleGAN2 як моделі вчителя. Вони запровадили багатомасштабну втрату сприйняття, щоб покращити генерацію зображень та зменшити артефакти, передані з моделі-інструктора. BlazeStyleGAN створює високоякісні зображення в режимі реального часу на популярних смартфонах, відповідаючи візуальній якості своєї моделі вчителя, водночас зменшуючи складність.

Таким чином, BlazeStyleGAN від Google — це значний прогрес у створенні ефективних моделей, що генеруються на пристрої, особливо для стилізації обличчя. Він працює в режимі реального часу на широкому спектрі смартфонів преміум-класу, роблячи високоякісну генерацію фотографій обличчя доступною для широкої аудиторії.