04.07.2024 10:03

Microsoft представила VALL-E 2, нову технологію клонування голосу, але поки що не планує її публікувати

Дослідники Microsoft представили VALL-E 2, нову систему штучного інтелекту, яка може генерувати «людські» голоси за лічені секунди. Ця технологія настільки вражаюча, що її складно відрізнити від оригіналу.

VALL-E 2 ґрунтується на попередній системі VALL-E, представленій у 2023 році. Вона використовує «нейронні кодеки» для представлення мови у вигляді послідовностей коду, що дозволяє їй генерувати мову з високою точністю.

На відміну від інших методів клонування голосу, VALL-E 2 використовує «Repetition Aware Sampling» та адаптивне перемикання між методами дискретизації. Це покращує узгодженість та усуває проблеми, які часто виникають при генерації голосу.

За словами дослідників, VALL-E 2 може генерувати високоякісну мову навіть для складних речень або фраз, які містять багато повторень. Це робить її потенційно корисною для людей, які втратили здатність говорити.

Однак, попри ці можливості, Microsoft не планує публікувати VALL-E 2. Компанія побоюється, що така технологія може бути використана для імітації голосів без згоди людей або для створення фейкових голосів для шахрайства та інших злочинних дій.

Дослідники Microsoft визнають, що існує потреба в стандартному методі для маркування контенту, створеного ШІ. Наразі виявлення такого контенту з високою точністю залишається складним завданням.

Нагадаємо, у квітні Resemble AI запустила інструмент для клонування голосу за допомогою ШІ.