09.09.2023 14:15

ШІ-фреймворк для створення композиційного аудіо з великими мовними моделями

Нова галузь мультимодального штучного інтелекту (ШІ) поєднує візуальні, слухові та текстові дані, пропонуючи потенційні застосування в різних сферах — від персоналізованих розваг до покращення доступності. Природна мова відіграє ключову роль у покращенні розуміння та комунікації в різних сенсорних сферах. Великі мовні моделі (LLM) продемонстрували вражаючі можливості у вирішенні мультимодальних проблем і співпраці з різними моделями ШІ.

Хоча LLM ефективні у вирішенні мультимодальних завдань, є питання щодо їхнього потенціалу як творців динамічного мультимедійного контенту. Створення мультимедійного контенту передбачає створення цифрових медіа в різних формах, включаючи текст, зображення та аудіо. Аудіо, зокрема, є життєво важливим компонентом мультимедіа, оскільки воно забезпечує контекст, емоції та сприяє зануренню в атмосферу.

У попередніх роботах використовувалися генеративні моделі для синтезу аудіо на основі конкретних умов, таких як опис мовлення або музики. Однак ці моделі часто намагаються генерувати різноманітний аудіоконтент поза цими наперед визначеними умовами, що обмежує їхнє застосування в реальному світі. Створення композиційного аудіо є складним завданням через складність генерування складних слухових сцен. Використання LLM для цього завдання передбачає вирішення таких проблем, як розуміння контексту, виробництво та композиція аудіо, а також створення інтерактивних та інтерпретованих робочих процесів для людино-машинної співпраці.

Огляд WavJourney. LLM спочатку пропонується стати автором аудіосценаріїв. Як концептуальне представлення аудіо, аудіоскрипт надає користувачеві інтерактивний та інтерпретований інтерфейс. Потім аудіоскрипт компілюється за допомогою компілятора сценаріїв і виконується як комп’ютерна програма. Процес виконання ґрунтується на наборі експертних моделей генерації звуку. Приклад ілюструє сценарій у жанрі “Наукова Фантастика” сценарій. Джерело.

Для вирішення цих проблем була представлена нова система під назвою WavJourney. WavJourney використовує LLM для створення композиційного аудіо на основі мовних інструкцій. Вона спонукає LLM генерувати звукові сценарії, які дотримуються заздалегідь визначених структур, що охоплюють мову, музику і звукові ефекти. Ці сценарії ретельно враховують просторово-часові зв’язки між цими акустичними елементами. WavJourney розбиває складні звукові сцени на окремі акустичні компоненти і відповідні їм акустичні макети. Потім аудіоскрипт вводиться в компілятор сценаріїв, в результаті чого створюється комп’ютерна програма, де кожен рядок коду відповідає виклику специфічних для завдання моделей генерації звуку, функцій вводу/виводу звуку або обчислювальних операцій. Ця програма виконується, щоб згенерувати бажаний аудіоконтент.

WavJourney має кілька переваг. Вона використовує розуміння великих мовних моделей і широкі знання для створення аудіоскриптів з різноманітними звуковими елементами, складними акустичними зв’язками і захоплюючими аудіорозповідями. Він застосовує композиційний підхід, розбиваючи складні слухові сцени на окремі звукові елементи. Це дозволяє використовувати різні моделі генерації звуку для створення контенту, що відрізняє його від наскрізних методів, які не можуть врахувати всі елементи, описані в тексті. Крім того, WavJourney працює без необхідності навчання аудіомоделей або точного налаштування LLM, оптимізуючи використання ресурсів. Це також сприяє реальній співпраці між людьми та машинами у створенні контенту.

Приклади результатів дослідження ілюструють порівняльну ефективність WavJourney з найсучаснішими підходами до генерації.

*Кейс першого дослідження на бенчмарку AudioCaps. Джерело*

Це узагальнює концепцію WavJourney, інноваційного фреймворку штучного інтелекту, який використовує LLM для створення композиційного аудіо, керуючись мовними інструкціями.