14.08.2023 12:53

ШІ з концепцією емоцій для генеративного голосового контролю

Розпізнавання мовлення стало нещодавнім досягненням у галузі обробки природної мови (Natural Language Processing, NLP). Були розроблені великі мовні моделі для систем ШІ, що генерують голос на основі тексту. Хоча ці моделі продемонстрували здатність відтворювати людську якість голосу, виразів обличчя та поведінки, вони зіткнулися з певними проблемами. Серед них — проблеми з мовним розмаїттям, розпізнаванням мови та передачею емоцій. Багато з цих проблем були пов’язані з обмеженими наборами даних, які використовувалися під час розробки моделей.

Щоб вирішити ці проблеми, команда PlayHT представила рішення під назвою PlayHT2.0. Ця оновлена модель підзодить до проблеми шляхом включення декількох мов і використання величезної кількості різноманітних наборів даних. Крім того, розмір моделі було збільшено для підвищення її продуктивності. Використання трансформерів, ключової техніки NLP, відіграло вирішальну роль у впровадженні цієї моделі. Процес включає в себе подачу моделі текстових транскриптів, які вона потім перетворює на аудіопрогнози. Це перетворення досягається за допомогою процесу, який називається токенізацією, коли спрощені коди перетворюються на звукові хвилі, щоб генерувати людську мову.

Today, we're introducing PlayHT2.0 – our new Conversational Text-to-Voice AI Model that's trained and built to generate humanlike conversations across languages with <1s latency.

Sign up for beta access – https://t.co/Yj3tK4ZjPp pic.twitter.com/g1ftZ1I2V9
— Play (@play_ht) August 10, 2023

Модель PlayHT2.0 володіє вражаючими розмовними здібностями, що дозволяє йому вести розмови, подібні до людських, з деякими емоційними виразами. Ця технологія, що використовує чат-ботів зі штучним інтелектом, набула популярності серед транснаціональних компаній у таких сферах, як онлайн-дзвінки та семінари. Якість мовлення моделі було значно покращено завдяки методам оптимізації, що дозволило їй точно відтворювати голоси.

Завдяки великому набору даних PlayHT2.0 може навіть перемикати мови, зберігаючи оригінальну якість голосу. Процес навчання моделі охоплював численні епохи та різноманітні гіперпараметри, завдяки чому вона здатна передавати різноманітні емоції під час розпізнавання мови.

Хоча модель все ще перебуває в процесі доопрацювання, постійні зусилля вчених-дослідників спрямовані на подальше вдосконалення її емоційних можливостей. Розробники очікують, що майбутні оновлення підвищать її швидкість, точність та загальну ефективність, що відображається в таких показниках, як результат F1.