paint-brush
Исследователи расшифровывают речь с помощью мозговых волн: может ли ИИ теперь читать мысли?к@mikeyoung44
197 чтения

Исследователи расшифровывают речь с помощью мозговых волн: может ли ИИ теперь читать мысли?

к Mike Young4m2023/10/09
Read on Terminal Reader

Слишком долго; Читать

Новое исследование представляет новый захватывающий подход к расшифровке речи непосредственно из неинвазивных записей мозга. Это может открыть путь к восстановлению коммуникативных способностей у пациентов, потерявших способность говорить. Ежегодно тысячи людей теряют способность говорить из-за травм головного мозга, инсультов, БАС и других неврологических заболеваний.
featured image - Исследователи расшифровывают речь с помощью мозговых волн: может ли ИИ теперь читать мысли?
Mike Young HackerNoon profile picture
0-item
1-item


Недавняя статья, опубликованная на arXiv представляет новый захватывающий подход к декодированию речи непосредственно из неинвазивных записей мозга. Это может проложить путь к восстановлению коммуникативных способностей у пациентов, потерявших способность говорить из-за неврологических заболеваний. Исследование дает надежду, что при продолжении исследований неинвазивное декодирование мозга может дать голос тем, кто лишен голоса.


Как они придумали, как превратить записи мозга в речь?


Давайте посмотрим.


Проблема потери речи

Отсутствие возможности общаться может иметь разрушительные последствия. Ежегодно тысячи людей теряют способность говорить из-за травм головного мозга, инсультов, БАС и других неврологических заболеваний. Пациенты оказываются в ловушке собственного разума, не имея возможности выражать свои мысли, чувства, потребности и желания. Это глубоко снижает качество их жизни и лишает их независимости и достоинства.


Восстановление речи – чрезвычайно сложная задача. Инвазивные интерфейсы «мозг-компьютер», которые имплантируют электроды в мозг, могут позволить пациентам печатать своими мыслями. Но синтез естественной речи из сигналов мозга — без электродов — остается невозможным.



Новый подход к декодированию речи

В этом новом исследовании Исследователи использовали модель глубокого обучения для анализа неинвазивных записей мозга, когда участники пассивно слушали речь. Датчики электроэнцефалографии (ЭЭГ) и магнитоэнцефалографии (МЭГ) улавливали сигналы мозга.


Модель была обучена прогнозировать представления речевого звука на основе соответствующих моделей активности мозга. Это позволило ему декодировать речь, сопоставляя новые записи мозга с наиболее вероятным речевым представлением.



Были задействованы три ключевых нововведения:


  • Использование функции контрастных потерь для обучения оказалось более эффективным, чем традиционные подходы к обучению с учителем. Эта потеря побудила модель идентифицировать скрытые речевые явления, которые максимально соответствовали скрытым мозгам.


  • Использование мощных предварительно обученных речевых представлений из модели wav2vec 2.0 обеспечило более богатые речевые данные, чем ранее использовавшиеся речевые функции, созданные вручную.


  • Сверточная нейронная сеть , адаптированная к данным мозга каждого участника, с «предметным слоем» улучшила индивидуализацию.


Модель была обучена на общедоступных наборах данных, содержащих 15 000 часов речевых данных от 169 участников. Также следует отметить: тестирование новых невидимых предложений продемонстрировало впечатляющую способность декодирования с нулевым результатом.



Значительное улучшение точности

Для 3-секундных сегментов речи модель может идентифицировать совпадающий сегмент из более чем 1500 возможностей с помощью:


  • Точность до 73% для записей MEG
  • Точность записи ЭЭГ до 19 %.


Это представляет собой значительное улучшение по сравнению с предыдущими попытками декодирования речи с использованием неинвазивных датчиков. Он также приближается к точности, достигнутой в исследованиях с использованием инвазивных мозговых имплантатов.


На уровне слов модель достигла максимальной точности в 44% при идентификации отдельных слов из сигналов MEG. Эта способность декодировать слова непосредственно из неинвазивных записей нейронной активности является важной вехой, даже при эффективности 44%.



Возможность восстановления естественной речи

Это исследование дает надежду, что при достаточном прогрессе алгоритмы декодирования речи однажды смогут помочь пациентам с неврологическими заболеваниями свободно общаться.


Вместо хирургически имплантированных электродов датчики ЭЭГ и МЭГ потенциально могут слышать намерение мозга говорить. Усовершенствованный ИИ сможет затем на лету синтезировать слова и предложения, чтобы дать голос тем, кто лишен голоса.


Услышав свой собственный голос, выражающий уникальные новые мысли и чувства, можно помочь восстановить идентичность и автономию пациентов. Это действительно может улучшить социальное взаимодействие, эмоциональное здоровье и качество жизни.



Остающиеся проблемы

Несмотря на то, что эта технология чрезвычайно многообещающая, остается еще много проблем, прежде чем эта технология будет готова к медицинскому применению. Самый большой из них заключается в том, что нынешняя точность, хотя и намного превосходит предыдущие попытки, все еще слишком низка для естественного разговора.


Более того, сигналы мозга во время активной речи могут значительно отличаться от протестированного здесь сценария пассивного слушания. Для обеспечения точности моделей потребуются дальнейшие исследования наборов данных, записанных в то время, когда участники говорят или воображают, что говорят.


Наконец, сигналы ЭЭГ и МЭГ подвержены помехам со стороны мышечных движений и других артефактов. Для изоляции нейронных сигналов, связанных с речью, потребуются надежные алгоритмы.



Веха на важном рубеже

Это исследование представляет собой важную веху на стыке нейробиологии и искусственного интеллекта. Используя мощные подходы глубокого обучения и большие наборы данных, исследователи раздвинули границы возможного в декодировании речи из неинвазивных сигналов мозга.

Их методы обеспечивают прочную основу для дальнейшего прогресса. Благодаря тщательным исследованиям и ответственным разработкам эта технология однажды может помочь восстановить естественные коммуникативные способности пациентов, страдающих неврологическими заболеваниями и потерей речи. Это важная веха на долгом пути к возвращению голоса тем, кто лишен голоса.


Также опубликовано здесь.

Подписаться или следуй за мной Твиттер больше такого контента!