paint-brush
Des chercheurs décodent la parole grâce aux ondes cérébrales : l’IA peut-elle désormais lire dans les pensées ?by@mikeyoung44
191

Des chercheurs décodent la parole grâce aux ondes cérébrales : l’IA peut-elle désormais lire dans les pensées ?

Mike Young4m2023/10/09
Read on Terminal Reader

Une nouvelle étude présente une nouvelle approche passionnante pour décoder la parole directement à partir d’enregistrements cérébraux non invasifs. Cela pourrait ouvrir la voie à la restauration des capacités de communication chez les patients qui ont perdu la capacité de parler. Chaque année, des milliers de personnes perdent la capacité de parler à cause de lésions cérébrales, d’accidents vasculaires cérébraux, de SLA et d’autres troubles neurologiques.
featured image - Des chercheurs décodent la parole grâce aux ondes cérébrales : l’IA peut-elle désormais lire dans les pensées ?
Mike Young HackerNoon profile picture
0-item
1-item


Un article récent publié sur arXiv présente une nouvelle approche passionnante pour décoder la parole directement à partir d’enregistrements cérébraux non invasifs. Cela pourrait ouvrir la voie à la restauration des capacités de communication chez les patients qui ont perdu la capacité de parler en raison de troubles neurologiques. L’étude laisse espérer qu’avec la poursuite des recherches, un décodage cérébral non invasif pourrait donner une voix aux sans-voix.


Comment ont-ils trouvé comment transformer les enregistrements cérébraux en parole ?


Voyons.


Le défi de la perte de parole

Être incapable de communiquer peut être dévastateur. Des milliers de personnes perdent la capacité de parler chaque année à cause de lésions cérébrales, d’accidents vasculaires cérébraux, de SLA et d’autres troubles neurologiques. Les patients se retrouvent piégés dans leur propre esprit, incapables d’exprimer leurs pensées, leurs sentiments, leurs besoins et leurs désirs. Cela diminue profondément leur qualité de vie et leur enlève leur autonomie et leur dignité.


Restaurer la parole est un défi extrêmement difficile. Des interfaces cerveau-ordinateur invasives qui implantent des électrodes dans le cerveau peuvent permettre aux patients de taper avec leurs pensées. Mais la synthèse de la parole naturelle à partir de signaux cérébraux – sans électrodes – reste difficile à réaliser.



Une nouvelle approche de décodage de la parole

Dans cette nouvelle étude , les chercheurs ont utilisé un modèle d'apprentissage profond pour analyser des enregistrements cérébraux non invasifs pendant que les participants écoutaient passivement la parole. Les capteurs d’électroencéphalographie (EEG) et de magnétoencéphalographie (MEG) ont capturé les signaux cérébraux.


Le modèle a été entraîné pour prédire les représentations de l’audio vocal à partir des modèles d’activité cérébrale correspondants. Cela lui a permis de décoder la parole en faisant correspondre les nouveaux enregistrements cérébraux à la représentation vocale la plus probable.



Trois innovations clés ont été impliquées :


  • L’utilisation d’une fonction de perte contrastée pour la formation s’est avérée plus efficace que les approches traditionnelles d’apprentissage supervisé. Cette perte a encouragé le modèle à identifier les latents de parole qui étaient alignés au maximum avec les latents cérébraux.


  • L'exploitation de puissantes représentations vocales pré-entraînées du modèle wav2vec 2.0 a fourni des données vocales plus riches que les fonctionnalités vocales conçues manuellement utilisées précédemment.


  • Un réseau neuronal convolutif adapté aux données cérébrales de chaque participant avec une individualisation améliorée de « couche sujet ».


Le modèle a été formé sur des ensembles de données publics comprenant 15 000 heures de données vocales provenant de 169 participants. À noter également : les tests sur de nouvelles phrases inédites ont démontré une impressionnante capacité de décodage sans tir.



Améliorations significatives de la précision

Pour des segments de parole de 3 secondes, le modèle a pu identifier le segment correspondant parmi plus de 1 500 possibilités avec :


  • Jusqu'à 73 % de précision pour les enregistrements MEG
  • Jusqu'à 19 % de précision pour les enregistrements EEG


Cela représente une amélioration spectaculaire par rapport aux tentatives précédentes de décodage de la parole utilisant des capteurs non invasifs. Il se rapproche également de la précision obtenue dans les études utilisant des implants cérébraux invasifs.


Au niveau des mots, le modèle a atteint une précision maximale de 44 % dans l'identification de mots individuels à partir de signaux MEG. Cette capacité à décoder des mots directement à partir d’enregistrements non invasifs de l’activité neuronale constitue une étape majeure, même avec une efficacité de 44 %.



Le potentiel de restaurer la parole naturelle

Cette recherche laisse espérer qu’avec des progrès suffisants, les algorithmes de décodage de la parole pourraient un jour aider les patients atteints de maladies neurologiques à communiquer couramment.


Plutôt que des électrodes implantées chirurgicalement, les capteurs EEG et MEG pourraient potentiellement écouter l'intention du cerveau de parler. Une IA avancée pourrait alors synthétiser les mots et les phrases à la volée pour donner une voix aux sans-voix.


Entendre leur propre voix exprimer des pensées et des sentiments nouveaux et uniques pourrait aider à restaurer l’identité et l’autonomie des patients. Cela pourrait réellement améliorer les interactions sociales, la santé émotionnelle et la qualité de vie.



Défis restants

Bien qu’extrêmement prometteuse, de nombreux défis restent à relever avant que cette technologie soit prête à être utilisée en médecine. Le plus important est que la précision actuelle, bien que bien au-delà des tentatives précédentes, est encore trop faible pour des conversations naturelles.


De plus, les signaux cérébraux lors de la production active de la parole peuvent différer considérablement du scénario d'écoute passive testé ici. Des recherches plus approfondies sur les ensembles de données enregistrés pendant que les participants parlent ou imaginent parler seront nécessaires pour garantir l'exactitude des modèles.


Enfin, les signaux EEG et MEG sont sensibles aux interférences des mouvements musculaires et autres artefacts. Des algorithmes robustes seront nécessaires pour isoler les signaux neuronaux liés à la parole.



Une étape importante sur une frontière importante

Cette étude représente une étape importante à l’intersection des neurosciences et de l’intelligence artificielle. En tirant parti de puissantes approches d’apprentissage profond et de vastes ensembles de données, les chercheurs ont repoussé les limites de ce qui est possible dans le décodage de la parole à partir de signaux cérébraux non invasifs.

Leurs techniques constituent une base solide pour de futurs progrès. Grâce à une recherche rigoureuse et à un développement responsable, cette technologie pourrait un jour contribuer à restaurer les capacités naturelles de communication des patients souffrant de troubles neurologiques et de perte d’élocution. Il s’agit d’une étape importante sur le long chemin visant à redonner une voix aux sans-voix.


Également publié ici.

S'abonner ou suivez-moi sur Twitter pour plus de contenu comme celui-ci !