19.06.2024 13:51

Meta випустила низку нових моделей ШІ для аудіо, тексту та нанесення водяних знаків

Команда Meta’s Fundamental AI Research (FAIR) здійснює важливі успіхи в галузі штучного інтелекту, випускаючи нові моделі та інструменти для дослідницької спільноти. Ці інструменти зосереджені на створенні звуку, перетворенні тексту у відео та нанесенні водяних знаків, щоб сприяти інноваціям та відповідальному розвитку штучного інтелекту.

Модель створення аудіо: JASCO

JASCO (Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation) — це новітня модель штучного інтелекту, призначена для генерації текстів у музичний формат. Ця модель може приймати різні вхідні аудіодані, такі як акорди або удари, щоб покращити звук, згенерований ШІ. Дозволяючи користувачам налаштовувати за допомогою тексту такі елементи, як акорди, барабани та мотиви, JASCO надає можливість створювати аудіо з високим ступенем кастомізації. Код висновку для JASCO буде доступний через бібліотеку аудіомоделей AudioCraft AI від Meta під ліцензією MIT, тоді як попередньо навчена модель буде випущена під некомерційною ліцензією Creative Commons.

Інструменти для нанесення водяних знаків: AudioSeal

AudioSeal є інноваційним інструментом для додавання водяних знаків до мови, згенерованої штучним інтелектом, що покращує можливість ідентифікації контенту, створеного штучним інтелектом. На відміну від традиційних методів нанесення водяних знаків, AudioSeal спеціально розроблений для локального виявлення в довгих аудіозаписах, що значно підвищує швидкість і ефективність виявлення. Цей інструмент буде випущено з комерційною ліцензією, що зробить його доступним для ширшого застосування за межами досліджень.

Мультимодальна модель тексту: Chameleon

Chameleon став ще одним важливим релізом від FAIR, що доступний у двох розмірах: Chameleon 7B та 34B. Ці моделі призначені для вирішення завдань, які вимагають як візуального, так і текстового розуміння, наприклад, підписів до зображень. Хоча модель генерації зображень Chameleon наразі не доступна, моделі, пов’язані з текстом, будуть доступні за ліцензією лише для дослідницьких цілей. Дослідники також матимуть доступ до методу багатозначного прогнозування, який тренує мовні моделі на кількох майбутніх словах одночасно, а не послідовно. Цей метод буде доступний за некомерційною ліцензією лише для досліджень.

Заохочення відповідальної розробки ШІ

Публічно ділячись цими інструментами та моделями ранніх досліджень, Meta прагне надихнути подальші ітерації та вдосконалення технології ШІ. Метою є сприяння відповідальному та інноваційному розвитку ШІ, розв’язанню поточних проблем і відкриттю нових можливостей. Ці розробки команди FAIR компанії Meta відображають прагнення розширювати межі ШІ, гарантуючи при цьому, що прогрес відбувається виважено та відповідально.