BTC$29880

ETH$3666

Шукати

Дослідники Google представили «VLOGGER»

У сфері штучного інтелекту відбулася важлива подія — з’явився VLOGGER, передова система, що була розроблена дослідниками Google. VLOGGER використовує передові моделі машинного навчання для створення реалістичних відео, де люди розмовляють, жестикулюють і рухаються, і все це з однієї фотографії. Хоча ця технологія має безліч потенційних застосувань, вона також порушує важливі питання щодо глибоких фейків і дезінформації в цифровій сфері.

Технологія, що лежить в основі VLOGGER, детально описана в дослідницькій роботі під назвою «VLOGGER: мультимодальна дифузія для синтезу втілених аватарів». По суті, ця модель штучного інтелекту бере на вхід статичне зображення людини і аудіозапис, а потім створює відео, яке узгоджується з аудіоконтентом, демонструючи людину, яка вимовляє слова, з відповідним виразом обличчя, рухами голови і жестами рук. Хоча створене відео може містити деякі артефакти, воно являє собою значний стрибок в анімації статичних зображень, розширюючи межі можливостей штучного інтелекту.

Джерело

Ключовий аспект досягнення результату VLOGGER полягає у використанні дифузійних моделей — типу моделей машинного навчання, відомих тим, що вони генерують високореалістичні зображення з текстових описів. Поширивши ці моделі на відео та навчивши їх на великому наборі даних під назвою MENTOR, що містить понад 800 000 різноманітних особистостей і 2200 годин відео, дослідники дозволили VLOGGER синтезувати відео з різними етнічними групами, віком, одягом, позами та фоном без притаманних їм упереджень.

Потенційні можливості застосування VLOGGER надзвичайно широкі і переконливі. Технологія демонструє свою майстерність в автоматичному дублюванні відео різними мовами, редагуванні та заповненні пропущених кадрів, а також у створенні повноцінних відео з окремих фотографій. Крім того, вона відкриває акторам можливості ліцензувати 3D-моделі для нових вистав, створювати фотореалістичні аватари для віртуальної реальності та ігор, а віртуальним асистентам і чат-ботам на основі штучного інтелекту надавати більшої виразності та привабливості.

Однак поряд з цими захоплюючими можливостями з’являються важливі соціальні міркування. Зростання кількості «глибоких фейків» і синтетичних медіа викликає занепокоєння щодо дезінформації та цифрової фальсифікації. Оскільки відео, створені штучним інтелектом, стають дедалі реалістичнішими та простішими у створенні, розрізнення автентичного контенту та маніпулятивних медіа стає серйозним викликом.

Незважаючи на свої чудові можливості, VLOGGER має певні обмеження, такі як відносно невелика тривалість відео, статичний фон і статичні особи у відео. Тим не менш, він являє собою значний прогрес у дослідженнях ШІ, перевершуючи інші найсучасніші методи за якістю зображення, збереженням ідентичності та часовою послідовністю.

Отже, VLOGGER відкриває нову сторінку в синтезі медіа на основі штучного інтелекту, демонструючи швидкий прогрес у цій галузі. Оскільки технології ШІ продовжують розвиватися, різниця між реальним і синтетичним контентом може розмитися, що підкреслює потребу в надійних механізмах перевірки та етичних міркуваннях при використанні медіа, створених за допомогою штучного інтелекту. VLOGGER слугує яскравим свідченням потенціалу штучного інтелекту та викликів, які супроводжують його прогрес у синтезі цифрових медіа.