25.01.2024 17:35
Google представила Lumiere, нову модель штучного інтелекту, яка може генерувати реалістичні відео з тексту або зображень
Компанія Google представила нову модель штучного інтелекту під назвою Lumiere, яка може генерувати реалістичні відео з тексту або зображень. Lumiere використовує просторово-часову дифузію для створення відео з «реалістичним, різноманітним і когерентным рухом».
Lumiere навчена на наборі даних з 30 мільйонів відео та текстових підписів. Вона здатна генерувати 80 кадрів зі швидкістю 16 кадрів в секунду.
У статті дослідники пояснюють:
«Застосовуючи просторову і (що важливо) часову дискретизацію вниз і вгору та використовуючи попередньо навчену модель дифузії тексту в зображення, наша модель вчиться безпосередньо генерувати повнокадрове відео з низькою роздільною здатністю, обробляючи його в декількох просторово-часових масштабах».
Хоча інші ШІ-генератори відео вже існували, такі як Pika та Runway, дослідники стверджують, що їхній однопрохідний підхід до часового виміру даних, пов’язаних з генерацією відео, є новим.
Користувачі можуть вводити текстові описи того, що вони хотіли б бачити у вигляді відео, або завантажувати нерухоме зображення з підказкою і генерувати динамічне відео.
Деякі користувачі порівняли Lumiere з ChatGPT, генеративною мовною моделлю від OpenAI. Однак Lumiere відрізняється тим, що вона може генерувати відео, а не лише текст.
Lumiere все ще перебуває на ранній стадії розробки, але вона має потенціал для широкого спектра застосувань, включаючи створення анімаційних фільмів, рекламних роликів і навіть навчальних матеріалів.
Однак, як і інші генеративні моделі ШІ, Lumiere може бути використана для створення контенту, який порушує авторські права. Google не повідомила про джерело даних, які вона використовувала для навчання моделі, що може призвести до позовів про порушення авторських прав.