27.12.2023 15:16

MyShell представила проєкт OpenVoice з відкритим вихідним кодом

Клонування голосу стикається з двома основними проблемами, такими як гнучке керування стилем голосу та міжмовне клонування голосу з нульовим результатом. Багато методів миттєвого клонування голосу (IVC) мають проблеми з маніпулюванням стилями голосу після клонування, оскільки їм бракує точності у впливі на такі аспекти, як емоції, акценти, ритм, паузи та інтонація. Крім того, деякі підходи IVC вимагають великих багатомовних наборів даних для різних мов, що перешкоджає міжмовному клонуванню голосу з нуля.

Дослідники з Массачусетського технологічного інституту, MyShell.ai та Університету Цінхуа представили OpenVoice — метод миттєвого клонування голосу з відкритим вихідним кодом, який вирішує ці проблеми. OpenVoice дозволяє відтворювати голос і генерувати голоси різними мовами, використовуючи лише короткий аудіо-зразок від еталонного диктора. Він пропонує адаптивні маніпуляції з елементами стилю, такими як емоції, акцент, ритм, паузи, інтонація, і точно клонує колір тону зразкового диктора.

Ілюстрація фреймворку OpenVoice. Було використано базову модель голосового супроводу для керування стилями та мовами, а також конвертер для втілення кольору тону зразкового голосового супроводу в мовлення. Джерело

OpenVoice досягає безпомилкового міжмовного клонування голосу шляхом розділення компонентів голосу і незалежної генерації мови, кольору тону та інших характеристик голосу. Для клонування кольору тону використовується конвертер, структурно подібний до методів потокового перетворення тексту в мовлення (TTS), але з відмінними функціональними можливостями та цілями навчання.

Базова модель перетворення тексту в мовлення для OpenVoice, навчена на прикладах англійської, китайської та японської мов, забезпечує гнучкість у зміні акценту, мови та емоцій. Вона ефективна з точки зору обчислень, значно економічніша, ніж комерційні API.

OpenVoice забезпечує миттєве клонування голосу, пропонуючи детальний контроль над стилями голосу та підтримуючи декілька мов. Він точно відтворює колір тону еталонного диктора, навіть для невидимих мов у навчальному наборі даних. У порівнянні з комерційними API, OpenVoice демонструє чудову продуктивність, зберігаючи при цьому обчислювальну ефективність.

Таким чином, OpenVoice представляє революційний підхід до миттєвого клонування голосу, долаючи попередні обмеження щодо гнучкості стилю голосу та міжмовних додатків. Відокремивши клонування кольору тону від інших компонентів голосу та мовних стилів, OpenVoice запроваджує універсальний принцип проектування, що розширює його загальні можливості.