27.02.2024 17:58

Amazon AGI впровадили модель перетворення тексту в мовлення з мільярдом параметрів

Нещодавні досягнення в генеративних моделях глибокого навчання призвели до зміни парадигми в таких галузях, як обробка природної мови (NLP), комп’ютерний зір (CV) та обробка мовлення. Раніше в цих галузях домінували спеціалізовані моделі, які вимагали навчання під наглядом для виконання конкретних завдань. Однак зараз спостерігається помітний зсув у бік узагальнених моделей, здатних виконувати різноманітні завдання з мінімальними явними вказівками.

Великі мовні моделі (LLM) продемонстрували неабияку універсальність, чудово справляючись із такими завданнями, як відповіді на запитання, аналіз настроїв та узагальнення тексту, незважаючи на те, що вони не були розроблені спеціально для цих завдань. Схожим чином, попередньо навчені моделі, навчені на великих парах зображень і підписів, досягли найкращих результатів у тестах на перетворення зображення в текст і продемонстрували вражаючі результати в завданнях на перетворення тексту в зображення. Архітектури на основі трансформерів відіграли ключову роль у досягненні цього прогресу, використовуючи значно більші набори даних порівняно з попередніми моделями.

Аналогічна тенденція спостерігається в обробці мовлення та перетворенні тексту в мовлення (TTS). Зараз моделі використовують тисячі годин даних, щоб створювати мову, яка дуже нагадує людську. До 2022 року нейронні моделі TTS навчалися переважно на обмеженій кількості аудіоданих, що перешкоджало їхній здатності здійснювати генерацію, яка виходила за межі навчальних даних, і точно відтворювати складні тексти.

Щоб подолати це обмеження, дослідники з Amazon AGI впровадили BASE TTS, велику систему перетворення тексту в мовлення (LTTS), навчену на приблизно 100 тисячах годин мовних даних із відкритих джерел. BASE TTS моделює спільний розподіл текстових токенів і дискретних мовних репрезентацій, відомих як мовні коди. Ці мовні коди полегшують застосування методів, розроблених для навчання LLM. Використовуючи авторегресійний трансформер, що працює лише з декодером, BASE TTS фіксує складні розподіли ймовірностей експресивного мовлення, тим самим покращуючи відтворення речевого сигналу порівняно з ранніми нейронними системами перетворення тексту в мовлення.

Крім того, дослідники пропонують коди мовлення, відокремлені від диктора, на основі моделі мовлення WavLM з самонавчанням (SSL). Ці мовні коди спрямовані на захоплення виключно фонематичної та просодичної інформації, перевершуючи базові методи квантування. Вони можуть бути декодовані у високоякісні хвильові форми за допомогою простого, швидкого і потокового декодера, навіть з високим рівнем стиснення.

Представлена модель BASE TTS, найбільша на сьогоднішній день модель перетворення тексту в мовлення, що демонструє, як масштабування до більших наборів даних і розмірів моделі покращує її здатність відтворювати відповідну просодію для складних текстів. Також було впроваджено нові способи дискретного представлення мовлення, які перевершують існуючі методи. Ці досягнення знаменують собою значний прогрес у галузі перетворення тексту в мовлення і закладають основу для майбутніх досліджень і розробок.