31.07.2024 15:06

OpenAI починає розгортання технології гіперреалістичного відтворення голосу

Починаючи з вівторка, OpenAI розгортає розширений голосовий режим ChatGPT, надаючи користувачам перший доступ до можливостей гіперреалістичних голосових відповідей GPT-4o. Альфа-версія зараз доступна вузькому колу користувачів ChatGPT Plus, але поступово вона буде розгорнута для всіх користувачів Plus, що заплановано на осінь 2024 року.

Коли OpenAI вперше продемонструвала роботу голосового інтерфейсу GPT-4o в травні, він вразив аудиторію своєю швидкою реакцією і дивовижною схожістю з реальним людським голосом — зокрема, з голосом Скарлетт Йоханссон, яка озвучувала штучного асистента у фільмі «Вона». Однак Йоханссон заперечує свою причетність і найняла адвоката, щоб захистити свою схожість після того, як дізналася про демонстраційну версію. OpenAI заперечував використання її голосу і згодом видалив демоверсію. У червні OpenAI відклала випуск розширеного голосового режиму, щоб поліпшити заходи безпеки.

В чинному голосовому варіанті ChatGPT використовуються три окремі моделі: одна для перетворення голосу в текст, GPT-4 для обробки підказки та ще одна для перетворення тексту в голос. На відміну від нього, GPT-4o є мультимодальним, здатним виконувати ці завдання без допоміжних моделей, що призводить до меншої затримки в розмовах. OpenAI стверджує, що GPT-4o також може розпізнавати емоційні інтонації, такі як смуток, хвилювання або спів.

Протягом тестового періоду користувачі ChatGPT Plus зможуть спробувати розширений голосовий режим OpenAI на власному досвіді. Поступовий запуск нової голосової функції в ChatGPT дозволяє OpenAI уважно стежити за її впровадженням. Користувачі групи альфа-тестування отримуватимуть сповіщення в додатку ChatGPT та електронні листи з інструкціями з використання цієї функції.

Після травневої демонстрації OpenAI протестував голосові можливості GPT-4o за участю понад 100 зовнішніх користувачів, які розмовляють 45 різними мовами. Звіт про результати тестування з безпеки очікується на початку серпня.

Розширений голосовий режим спочатку буде обмежений чотирма попередньо налаштованими голосами ChatGPT — Juniper, Breeze, Cove та Ember, створеними у співпраці з професійними акторами. Голос Sky з травневої демоверсії, який викликав багато суперечок, більше не буде доступний.

«ChatGPT не може видавати себе за голоси інших людей, як приватних осіб, так і громадських діячів, і буде блокувати вихідні дані, які відрізняються від одного з цих попередньо встановлених голосів», — заявила представниця OpenAI Ліндсі МакКаллум

OpenAI прагне уникнути суперечок, подібних до тих, з якими зіткнулася компанія ElevenLabs, чия технологія клонування голосу була використана для того, щоб зімітувати президента Байдена. Крім того, OpenAI запровадила нові фільтри для блокування запитів на створення музики або іншого аудіо, захищеного авторським правом, щоб уникнути юридичних проблем, з якими стикалися інші компанії, що займаються розробкою ШІ. Музичні студії звукозапису, відомі своєю конфліктністю, вже подали до суду на ШІ-генератори пісень Suno і Udio.

За допомогою цих запобіжних заходів OpenAI намагається безпечно впроваджувати передові голосові можливості, балансуючи між інноваційними технологіями та правовими й етичними міркуваннями.