04.07.2024 10:17

Moshi від Kyutai розширює межі можливостей у розмовному ШІ

Компанія Kyutai зробила важливу заяву, оголосивши про створення Moshi, власної мультимодальної фундаментальної моделі, що працює в режимі реального часу. Оголошено, що ця інноваційна модель не тільки наслідує, але й перевершує деякі функціональні можливості, продемонстровані OpenAI GPT-4o в травні.

Moshi розроблений для розуміння і вираження емоцій, включаючи здатність говорити з різними акцентами. Moshi може слухати та генерувати аудіо та мову, зберігаючи при цьому безперервний потік текстових думок. Однією з його особливостей є здатність обробляти два аудіопотоки одночасно, що дозволяє йому слухати та говорити паралельно. Така взаємодія в реальному часі забезпечується спільним попереднім навчанням на суміші тексту та аудіо, використовуючи синтетичні текстові дані з Helium, мовної моделі з 7 мільярдами параметрів, розробленої компанією Kyutai.

Для доопрацювання Moshi було використано 100 000 синтетичних розмов в «розмовному стилі», оброблених за допомогою технології перетворення тексту в мовлення (TTS). Голос моделі тренувався на синтетичних даних, згенерованих окремою моделлю TTS, що дозволило досягти дивовижної швидкості наскрізної затримки у 200 мілісекунд. Kyutai також розробив зменшену версію Moshi, яка може працювати на MacBook або графічному процесорі споживчого розміру, що робить її більш доступною для ширшого кола користувачів.

Kyutai підкреслює важливість відповідального використання штучного інтелекту, додаючи маркування для виявлення аудіо, згенерованого штучним інтелектом, яка наразі перебуває в процесі розробки. Випускаючи Moshi як проєкт з відкритим вихідним кодом, Kyutai демонструє свою прихильність до прозорості та спільних розробок у спільноті ШІ.