31.10.2024 14:16

OpenAI розширює Realtime API новими голосами та знижує ціни для розробників

OpenAI представила п’ять нових голосів для користувачів бета-версії Realtime API — інтерфейсу в режимі реального часу, спрямованих на посилення виразності та мінімізацію затримок у додатках для перетворення голосу в мовлення з використанням штучного інтелекту. Зокрема, такі голоси, як Ash, Verse та Ballad з британським акцентом, демонструють прагнення OpenAI до надання користувачам більшої кількості можливостей для налаштування виводу. Функція прямого перетворення мови в діалогове середовище обходить традиційний текстовий формат, що дозволяє швидше реагувати на запити в режимі реального часу, наприклад, на дзвінки в службу підтримки, де швидкі відповіді під управлінням штучного інтелекту є вкрай важливими.

https://twitter.com/OpenAIDevs/status/1851668229938159853

OpenAI відзначає складність перевірки автентичності на стороні клієнта та непередбачуваність стану мережі, що впливає на обробку аудіо в реальному часі, натякаючи на те, що масштабування цих функцій потребуватиме оптимізації.

Щоб розв’язати потенційні проблеми з витратами, OpenAI представив функцію кешування команд, призначену для зберігання часто використовуваних підказок, скорочуючи пов’язані з цим витрати. Кешовані текстові підказки будуть коштувати на 50% дешевше, а аудіо – на 80% дешевше, що потенційно знизить витрати порівняно з початковою ціною API у $0,06 за хвилину для введення і $0,24 за хвилину для виведення. Оперативне кешування також використовується конкурентами, такими як Anthropic, і може зробити Realtime API OpenAI більш привабливим для розробників коштом спрощення часто використовуваних взаємодій.

Це оновлення відображає подальшу роботу OpenAI над голосовим ШІ, не дивлячись на минулі проблеми, такі як обмеження доступу до Voice Engine і призупинення використання голосу Sky після виникнення претензій щодо його походження. З моменту запуску розширеного голосового режиму для підписників преміумкласу ChatGPT у США, новий Realtime API від OpenAI має на меті стати основним інструментом для розробників, які створюють голосові застосунки, а зниження витрат, ймовірно, привабить тих, хто прагне використовувати голоси на основі ШІ в масштабах виробництва.