#Звук

Наскільки добре моделі ШІ можуть фіксувати емоції за звуком?

В умовах еволюції розмовних мовних моделей однією з головних проблем є відсутність метрик оцінювання, які б виходили за рамки простого генерування тексту.

19.09.2024 13:57

ElevenLabs випускає безплатний ШІ-ізолятор голосу

ElevenLabs додав до свого портфоліо ще один інструмент — Voice Isolator, що дозволяє авторам видаляти небажані шуми та звуки з будь-якого контенту — від фільму до подкасту чи відео на YouTube.

05.07.2024 08:36

ElevenLabs розширює можливості штучного інтелекту, випускаючи інструмент для створення звукових ефектів до відео

ElevenLabs, стартап, що займається розробкою голосового штучного інтелекту, робить черговий крок вперед у сфері створення контенту, випускаючи інструмент з відкритим кодом для автоматичного додавання звукових ефектів до відео.

20.06.2024 09:11

Stability AI представляє новий Stable Audio Open

Stability AI розширює свої зусилля в галузі генеративного ШІ для обробки аудіо, випустивши Stable Audio Open 1.0.

06.06.2024 17:09

ElevenLabs презентує модель штучного інтелекту, що генерує музику

ElevenLabs, стартап, що займається розробкою голосового штучного інтелекту, представив нову модель, яка може перетворювати текстові підказки на пісні.

10.05.2024 09:05

ElevenLabs впроваджує штучний інтелект для створення звукових ефектів

ElevenLabs, новий стартап у сфері штучного інтелекту, заснований колишніми співробітниками Google і Palantir, знову здіймає хвилю в світі штучного інтелекту, оголосивши про свою останню нову модель перетворення тексту в звук.

20.02.2024 13:30

Підхід глибокого навчання, розроблений для створення реалістичних пташиних пісень для біологів та екологів

Розвиток глибокого навчання справив глибокий вплив на різні сфери, і одним з інтригуючих застосувань є його роль у моніторингу рідкісних птахів за їхніми піснями

23.11.2023 16:05

Тривимірні моделі тіла відтепер зі звуком

У той час як комп'ютерний зір приділяє значну увагу 3D-моделюванню людського тіла, завдання моделювання акустичної сторони і генерування 3D-просторового звуку з мови і рухів тіла є менш дослідженим.

17.11.2023 15:03

Salesforce AI запускає GlueGen

У сфері моделей перетворення тексту в зображення (T2I), що стрімко розвивається, GlueGen представляє новий підхід для підвищення гнучкості та функціональності цих моделей. Моделі T2I продемонстрували вражаючі можливості у створенні зображень з текстових описів, але вони були обмежені з точки зору модифікації та розширення.

05.10.2023 12:24

ШІ-фреймворк для створення композиційного аудіо з великими мовними моделями

Нова галузь мультимодального штучного інтелекту (ШІ) поєднує візуальні, слухові та текстові дані, пропонуючи потенційні застосування в різних сферах — від персоналізованих розваг до покращення доступності. Природна мова відіграє ключову роль у покращенні розуміння та комунікації в різних сенсорних сферах.

09.09.2023 14:15

Курси

Bitcoin

$18739

BTC

+3.68%

Etherium

$739

ETH

+3.68%

Etherium

$739

ETH

+3.68%

Etherium

$739

ETH

+3.68%

Etherium

$739

ETH

+3.68%

Etherium

$739

ETH

+3.68%

Etherium

$739

ETH

+3.68%

Теги

Приеднуйся