
22.07.2023 14:03
Animate-A-Story: Підхід до розповіді історій з пошуковою генерацією відео
Моделі перетворення тексту в зображення останнім часом привертають багато уваги. З появою генеративного штучного інтелекту такі моделі, як GPT і DALL-E, не сходять зі шпальт газет з моменту їхнього випуску. Їхнє зростання популярності є причиною того, що створення контенту, подібного до людського, сьогодні вже не є мрією. Тепер можливі не лише моделі “текст-зображення”, але й “текст-відео” (T2V). Для створення цікавих сюжетних відео зазвичай потрібна зйомка наживо або створення комп’ютерної анімації, що є складною та трудомісткою процедурою.
Хоча останні досягнення в галузі конвертації тексту у відео продемонстрували перспективність автоматичного створення відео з текстових описів, все ще існують певні обмеження. Основною проблемою є відсутність контролю над дизайном та макетом відео, які є важливими для візуалізації захоплюючої історії та створення кінематографічного враження. Крупний план, довгі плани та композиція, серед інших прийомів зйомки, мають вирішальне значення для того, щоб аудиторія могла зрозуміти підсвідомі послання. Наразі існуючі методи перетворення тексту на відео намагаються забезпечити відповідні рухи та компонування, що відповідають стандартам кінематографа.
Щоб подолати ці обмеження, команда дослідників запропонувала унікальний підхід до генерації відео, який називається Animate-A-Story, тобто генерація відео на основі пошуку з доповненням. Цей метод використовує перевагу великого обсягу існуючого відеоконтенту, отримуючи фільми із зовнішніх баз даних на основі текстових підказок і використовуючи їх як керівний сигнал для процесу створення T2V. Користувачі можуть мати більший контроль над макетом і композицією згенерованих відео під час анімації історії, використовуючи вхідні відео як орієнтир для структури.
Команда підсумувала внесок наступним чином:
- Запроваджено парадигму синтезу наративного відео, доповнену пошуком, яка вперше дозволяє використовувати різноманітні наявні відео для розповіді історії.
- Корисність фреймворку підтверджується експериментальними результатами, які роблять його передовим інструментом для створення відео, що є надзвичайно зручним для користувача.
- Було запропоновано гнучкий підхід до перетворення тексту у відео, який успішно поєднує напругу між створенням персонажів та структуруванням відео.
- Команда також представила TimeInv, нову концепцію персоналізації, яка значно перевершує своїх нинішніх конкурентів.