Недавняя статья, опубликованная на
Как они придумали, как превратить записи мозга в речь?
Давайте посмотрим.
Отсутствие возможности общаться может иметь разрушительные последствия. Ежегодно тысячи людей теряют способность говорить из-за травм головного мозга, инсультов, БАС и других неврологических заболеваний. Пациенты оказываются в ловушке собственного разума, не имея возможности выражать свои мысли, чувства, потребности и желания. Это глубоко снижает качество их жизни и лишает их независимости и достоинства.
Восстановление речи – чрезвычайно сложная задача. Инвазивные интерфейсы «мозг-компьютер», которые имплантируют электроды в мозг, могут позволить пациентам печатать своими мыслями. Но синтез естественной речи из сигналов мозга — без электродов — остается невозможным.
Модель была обучена прогнозировать представления речевого звука на основе соответствующих моделей активности мозга. Это позволило ему декодировать речь, сопоставляя новые записи мозга с наиболее вероятным речевым представлением.
Были задействованы три ключевых нововведения:
Использование функции контрастных потерь для обучения оказалось более эффективным, чем традиционные подходы к обучению с учителем. Эта потеря побудила модель идентифицировать скрытые речевые явления, которые максимально соответствовали скрытым мозгам.
Использование мощных предварительно обученных речевых представлений из модели wav2vec 2.0 обеспечило более богатые речевые данные, чем ранее использовавшиеся речевые функции, созданные вручную.
Сверточная нейронная сеть , адаптированная к данным мозга каждого участника, с «предметным слоем» улучшила индивидуализацию.
Модель была обучена на общедоступных наборах данных, содержащих 15 000 часов речевых данных от 169 участников. Также следует отметить: тестирование новых невидимых предложений продемонстрировало впечатляющую способность декодирования с нулевым результатом.
Для 3-секундных сегментов речи модель может идентифицировать совпадающий сегмент из более чем 1500 возможностей с помощью:
Это представляет собой значительное улучшение по сравнению с предыдущими попытками декодирования речи с использованием неинвазивных датчиков. Он также приближается к точности, достигнутой в исследованиях с использованием инвазивных мозговых имплантатов.
На уровне слов модель достигла максимальной точности в 44% при идентификации отдельных слов из сигналов MEG. Эта способность декодировать слова непосредственно из неинвазивных записей нейронной активности является важной вехой, даже при эффективности 44%.
Это исследование дает надежду, что при достаточном прогрессе алгоритмы декодирования речи однажды смогут помочь пациентам с неврологическими заболеваниями свободно общаться.
Вместо хирургически имплантированных электродов датчики ЭЭГ и МЭГ потенциально могут слышать намерение мозга говорить. Усовершенствованный ИИ сможет затем на лету синтезировать слова и предложения, чтобы дать голос тем, кто лишен голоса.
Услышав свой собственный голос, выражающий уникальные новые мысли и чувства, можно помочь восстановить идентичность и автономию пациентов. Это действительно может улучшить социальное взаимодействие, эмоциональное здоровье и качество жизни.
Несмотря на то, что эта технология чрезвычайно многообещающая, остается еще много проблем, прежде чем эта технология будет готова к медицинскому применению. Самый большой из них заключается в том, что нынешняя точность, хотя и намного превосходит предыдущие попытки, все еще слишком низка для естественного разговора.
Более того, сигналы мозга во время активной речи могут значительно отличаться от протестированного здесь сценария пассивного слушания. Для обеспечения точности моделей потребуются дальнейшие исследования наборов данных, записанных в то время, когда участники говорят или воображают, что говорят.
Наконец, сигналы ЭЭГ и МЭГ подвержены помехам со стороны мышечных движений и других артефактов. Для изоляции нейронных сигналов, связанных с речью, потребуются надежные алгоритмы.
Это исследование представляет собой важную веху на стыке нейробиологии и искусственного интеллекта. Используя мощные подходы глубокого обучения и большие наборы данных, исследователи раздвинули границы возможного в декодировании речи из неинвазивных сигналов мозга.
Их методы обеспечивают прочную основу для дальнейшего прогресса. Благодаря тщательным исследованиям и ответственным разработкам эта технология однажды может помочь восстановить естественные коммуникативные способности пациентов, страдающих неврологическими заболеваниями и потерей речи. Это важная веха на долгом пути к возвращению голоса тем, кто лишен голоса.
Также опубликовано здесь.