09.11.2023 17:16

Компактна модель розпізнавання мовлення від дослідників з Hugging Face

Дослідники Hugging Face розробили новий метод розгортання великих попередньо навчених моделей розпізнавання мови на пристроях з обмеженими ресурсами. Вони створили великий набір мовних даних з відкритим вихідним кодом, використовуючи псевдомаркування, а потім використали цей набір даних для дистиляції зменшеної версії моделі Whisper, яка отримала назву Distil-Whisper.

Архітектура моделі Distil-Whisper. Кодер (показаний зеленим кольором) повністю копіюється від вчителя до учня і заморожується під час навчання. Декодер учня складається лише з двох шарів, які ініціалізуються з першого та останнього шарів декодера вчителя (показано червоним кольором). Всі інші шари декодера вчителя відкидаються. Джерело

Distil-Whisper працює значно швидше і має менше параметрів, ніж оригінальна модель Whisper, зберігаючи при цьому стійкість до складних акустичних умов і здатність зменшувати помилки, пов’язані з галюцинаціями, при транскрипції довгих аудіозаписів. Це досягається за допомогою процесу дистиляції знань, який використовує псевдомаркування для створення синтетичного навчального набору даних для студентської моделі.

Дослідники також представили новий широкомасштабний метод псевдомаркування для мовних даних, який є перспективним напрямком для майбутніх досліджень у галузі дистиляції знань для розпізнавання мовлення.