Un article récent publié sur
Comment ont-ils trouvé comment transformer les enregistrements cérébraux en parole ?
Voyons.
Être incapable de communiquer peut être dévastateur. Des milliers de personnes perdent la capacité de parler chaque année à cause de lésions cérébrales, d’accidents vasculaires cérébraux, de SLA et d’autres troubles neurologiques. Les patients se retrouvent piégés dans leur propre esprit, incapables d’exprimer leurs pensées, leurs sentiments, leurs besoins et leurs désirs. Cela diminue profondément leur qualité de vie et leur enlève leur autonomie et leur dignité.
Restaurer la parole est un défi extrêmement difficile. Des interfaces cerveau-ordinateur invasives qui implantent des électrodes dans le cerveau peuvent permettre aux patients de taper avec leurs pensées. Mais la synthèse de la parole naturelle à partir de signaux cérébraux – sans électrodes – reste difficile à réaliser.
Le modèle a été entraîné pour prédire les représentations de l’audio vocal à partir des modèles d’activité cérébrale correspondants. Cela lui a permis de décoder la parole en faisant correspondre les nouveaux enregistrements cérébraux à la représentation vocale la plus probable.
Trois innovations clés ont été impliquées :
L’utilisation d’une fonction de perte contrastée pour la formation s’est avérée plus efficace que les approches traditionnelles d’apprentissage supervisé. Cette perte a encouragé le modèle à identifier les latents de parole qui étaient alignés au maximum avec les latents cérébraux.
L'exploitation de puissantes représentations vocales pré-entraînées du modèle wav2vec 2.0 a fourni des données vocales plus riches que les fonctionnalités vocales conçues manuellement utilisées précédemment.
Un réseau neuronal convolutif adapté aux données cérébrales de chaque participant avec une individualisation améliorée de « couche sujet ».
Le modèle a été formé sur des ensembles de données publics comprenant 15 000 heures de données vocales provenant de 169 participants. À noter également : les tests sur de nouvelles phrases inédites ont démontré une impressionnante capacité de décodage sans tir.
Pour des segments de parole de 3 secondes, le modèle a pu identifier le segment correspondant parmi plus de 1 500 possibilités avec :
Cela représente une amélioration spectaculaire par rapport aux tentatives précédentes de décodage de la parole utilisant des capteurs non invasifs. Il se rapproche également de la précision obtenue dans les études utilisant des implants cérébraux invasifs.
Au niveau des mots, le modèle a atteint une précision maximale de 44 % dans l'identification de mots individuels à partir de signaux MEG. Cette capacité à décoder des mots directement à partir d’enregistrements non invasifs de l’activité neuronale constitue une étape majeure, même avec une efficacité de 44 %.
Cette recherche laisse espérer qu’avec des progrès suffisants, les algorithmes de décodage de la parole pourraient un jour aider les patients atteints de maladies neurologiques à communiquer couramment.
Plutôt que des électrodes implantées chirurgicalement, les capteurs EEG et MEG pourraient potentiellement écouter l'intention du cerveau de parler. Une IA avancée pourrait alors synthétiser les mots et les phrases à la volée pour donner une voix aux sans-voix.
Entendre leur propre voix exprimer des pensées et des sentiments nouveaux et uniques pourrait aider à restaurer l’identité et l’autonomie des patients. Cela pourrait réellement améliorer les interactions sociales, la santé émotionnelle et la qualité de vie.
Bien qu’extrêmement prometteuse, de nombreux défis restent à relever avant que cette technologie soit prête à être utilisée en médecine. Le plus important est que la précision actuelle, bien que bien au-delà des tentatives précédentes, est encore trop faible pour des conversations naturelles.
De plus, les signaux cérébraux lors de la production active de la parole peuvent différer considérablement du scénario d'écoute passive testé ici. Des recherches plus approfondies sur les ensembles de données enregistrés pendant que les participants parlent ou imaginent parler seront nécessaires pour garantir l'exactitude des modèles.
Enfin, les signaux EEG et MEG sont sensibles aux interférences des mouvements musculaires et autres artefacts. Des algorithmes robustes seront nécessaires pour isoler les signaux neuronaux liés à la parole.
Cette étude représente une étape importante à l’intersection des neurosciences et de l’intelligence artificielle. En tirant parti de puissantes approches d’apprentissage profond et de vastes ensembles de données, les chercheurs ont repoussé les limites de ce qui est possible dans le décodage de la parole à partir de signaux cérébraux non invasifs.
Leurs techniques constituent une base solide pour de futurs progrès. Grâce à une recherche rigoureuse et à un développement responsable, cette technologie pourrait un jour contribuer à restaurer les capacités naturelles de communication des patients souffrant de troubles neurologiques et de perte d’élocution. Il s’agit d’une étape importante sur le long chemin visant à redonner une voix aux sans-voix.
Également publié ici.