
13.10.2023 14:20
Дослідники мета ШІ представили розшифровку сприйняття мови з неінвазивних записів мозку
Розшифровка розмовної мови за активністю мозку — давнє прагнення в галузі охорони здоров’я та нейронаук — досягла значного прогресу завдяки використанню інвазивних пристроїв. Алгоритми глибокого навчання, навчені на внутрішньочерепних записах, продемонстрували здатність розшифровувати основні лінгвістичні елементи. Однак поширення цієї здатності на природну мову та неінвазивні записи мозку становить значний виклик. Дослідники з Meta представили модель машинного навчання, яка використовує контрастне навчання для розшифрування репрезентації мозку сприйнятої мови з неінвазивних записів. Об’єднавши дані з чотирьох наборів даних, їхній метод дав багатообіцяючі результати, пропонуючи потенційний шлях для декодування мови з мозкової активності без необхідності інвазивних процедур, що має далекосяжні наслідки для охорони здоров’я та нейронауки.
Дослідники вивчають проблему декодування мови з неінвазивних записів мозкової активності, спираючись на нещодавні успіхи, досягнуті за допомогою інвазивних пристроїв у декодуванні основних лінгвістичних елементів. Їхній підхід представляє модель контрастного навчання, спеціально навчену декодувати самоконтрольовані мовленнєві репрезентації. Порівняння з інвазивними дослідженнями підкреслює більший словниковий запас, з яким вдалося попрацювати, і розглядаються потенційні застосування у сфері виробництва мовлення. Дослідники отримали необхідні етичні дозволи на роботу з наборами даних від здорових дорослих добровольців, що передбачало пасивне прослуховування.
Розшифрування мови з неінвазивних записів мозку є значною перешкодою в галузі охорони здоров’я та нейронаук. Незважаючи на прогрес, досягнутий з інвазивними пристроями, поширення цієї можливості на природне мовлення залишається величезним викликом. Підхід дослідників передбачає нейронне декодування, яке має на меті розшифрувати, як мозок сприймає розмовну мову з неінвазивних записів. Їхній метод використовує контрастний підхід до навчання та спільну згорткову архітектуру, навчений на кількох учасниках з чотирьох загальнодоступних наборів даних, які включали 175 добровольців, записаних за допомогою магнітоенцефалографії або електроенцефалографії під час прослуховування оповідань. Порівняльний аналіз з базовими даними підкреслює важливість контрастного об’єкта і попередньо підготовлених мовних репрезентацій. Крім того, їх декодер в першу чергу покладається на лексичні та контекстуальні семантичні репрезентації.
Точність декодування варіювалася між учасниками та наборами даних, при цьому прогнози на рівні слів демонстрували правильну ідентифікацію слів та відсіювання неправильних кандидатів. Порівняння з базовими показниками підкреслює важливість контрастної мети, попередньо навчених мовних репрезентацій та спільної згорткової архітектури для підвищення точності декодування. Важливо, що прогнози декодера в першу чергу спираються на лексичні та контекстні семантичні репрезентації.
Дослідники представили модель, засновану на контрастному навчанні, для декодування того, як мозок сприймає розмовну мову з неінвазивних записів. Їх модель показала багатообіцяючі результати, досягнувши середньої точності до 41% в ідентифікації мовних сегментів і до 80% точності у учасників з найкращими показниками. Порівняння з базовими показниками підкреслює важливість контрастних цілей, попередньо навчених мовних репрезентацій та спільної згорткової архітектури для підвищення точності декодування. Передбачення декодера ґрунтуються насамперед на лексичній та контекстуальній семантиці. Ця робота має значні перспективи в галузі неінвазивного декодування мови для застосування в медицині та нейронауках.
Майбутні дослідження мають бути спрямовані на виявлення факторів, що впливають на варіації точності декодування серед учасників та наборів даних. Важливо дослідити продуктивність моделі в декодуванні більш складних лінгвістичних атрибутів і сценаріїв сприйняття мови в реальному часі. Крім того, важливо оцінити можливість узагальнення моделі на різні методи запису мозку або візуалізації. Нарешті, вивчення її здатності вловлювати просодичні та фонетичні особливості дасть більш повне розуміння можливостей декодування мовлення.