12.06.2024 17:06
Kling, генератор відео зі ШІ що бажає конкурувати з Sora
Якщо ви слідкуєте за впливовими діячами або творцями ШІ в соціальних мережах, ви могли помітити їхнє захоплення новою моделлю генерації відео зі штучним інтелектом під назвою «Kling». Ця модель генерує неймовірно реалістичні відео з текстових підказок і деяких налаштувань у додатку, змагаючись із Sora від OpenAI, яка наразі перебуває в закритому бета-тестуванні.
Kling навіть розмістив на своєму YouTube-каналі відео, що імітує одне з перших сторонніх відео, згенерованих за допомогою Sora, — «повітряну голову» від креативної агенції shy kids.
Отже, що таке Kling і як отримати до нього доступ?
Kling був розроблений Kuaishou Technology, компанією, що стоїть за Kuaishou, другим за популярністю додатком для створення коротких відео в Китаї (за межами країни — Kwai), з 400 мільйонами щоденних активних користувачів. Це ставить Kuaishou/Kwai відразу за Douyin, китайською версією TikTok, яку відвідують 600 мільйонів користувачів в день. Поява Kling, ймовірно, підвищить конкурентоспроможність Kuaishou проти Douyin.
За даними South China Morning Post, Kling може перетворювати текст на відеокліпи тривалістю до двох хвилин з роздільною здатністю 1080p, підтримуючи різні співвідношення сторін. Він може інтерпретувати підказки для створення відео, які імітують фізичний світ або створюють фантастичні сцени.
Perplexity зазначає, що Kling використовує унікальний 3D варіаційний автокодер (VAE) для реконструкції обличчя і тіла, що дозволяє детально відтворювати вираз обличчя і рухи кінцівок з одного зображення всього тіла. Він також використовує 3D-механізм просторово-часової спільної уваги, що дозволяє моделі реалістично відтворювати складні сцени та рухи.
Доступ до Kling можна отримати безплатно через додатки Kuaishou, Kwai та KwaiCut. Однак користувачам за межами Китаю потрібен китайський номер телефону, щоб завантажити та отримати доступ до моделі. Партнер венчурної фірми a16z Джастін Мур запропонувала використовувати телефонний номер для доступу через KwaiCut, а американський режисер Дастін Голлівуд порекомендував використовувати ChatGPT для перекладу меню та екранів додатків.
Перші користувачі опублікували відео, що демонструють здатність Kling створювати широкий спектр захватних, реалістичних і деталізованих відео у високій роздільній здатності, включаючи екшн-сцени. Дастін Голлівуд повідомив, що на створення відео з текстової підказки «середньої» складності потрібно близько двох хвилин. Однак генератор має проблеми з точним відтворенням расових ознак і кольору шкіри, що є поширеною проблемою при створенні відео зі штучним інтелектом.
Попри ці проблеми, Kling є потужним новим інструментом ШІ, який змушує кінематографістів переоцінити стратегію OpenAI, що базується на запрошеннях, разом із Sora. Цілком ймовірно, що Kling змусить американських постачальників відеомоделей ШІ, таких як OpenAI, Runway та Pika, покращити якість та роздільну здатність своїх моделей.