paint-brush
Los investigadores decodifican el habla con ondas cerebrales: ¿puede la IA leer la mente ahora?por@mikeyoung44
201 lecturas

Los investigadores decodifican el habla con ondas cerebrales: ¿puede la IA leer la mente ahora?

por Mike Young4m2023/10/09
Read on Terminal Reader

Demasiado Largo; Para Leer

Un nuevo estudio presenta un nuevo y emocionante enfoque para decodificar el habla directamente a partir de grabaciones cerebrales no invasivas. Esto podría allanar el camino para restaurar la capacidad de comunicación en pacientes que han perdido la capacidad de hablar. Cada año, miles de personas pierden la capacidad de hablar debido a lesiones cerebrales, accidentes cerebrovasculares, ELA y otras afecciones neurológicas.
featured image - Los investigadores decodifican el habla con ondas cerebrales: ¿puede la IA leer la mente ahora?
Mike Young HackerNoon profile picture
0-item
1-item


Un artículo reciente publicado en arXiv presenta un nuevo y emocionante enfoque para decodificar el habla directamente a partir de grabaciones cerebrales no invasivas. Esto podría allanar el camino para restaurar la capacidad de comunicación en pacientes que han perdido la capacidad de hablar debido a afecciones neurológicas. El estudio ofrece la esperanza de que, con la investigación continua, la decodificación cerebral no invasiva pueda dar voz a quienes no la tienen.


¿Cómo descubrieron cómo convertir las grabaciones cerebrales en habla?


Vamos a ver.


El desafío de la pérdida del habla

No poder comunicarse puede ser devastador. Miles de personas pierden la capacidad de hablar cada año debido a lesiones cerebrales, accidentes cerebrovasculares, ELA y otras afecciones neurológicas. Los pacientes quedan atrapados dentro de sus propias mentes, incapaces de expresar sus pensamientos, sentimientos, necesidades y deseos. Esto disminuye profundamente su calidad de vida y les quita autonomía y dignidad.


Restaurar el habla es un desafío extremadamente difícil. Las interfaces invasivas cerebro-computadora que implantan electrodos en el cerebro pueden permitir a los pacientes escribir sus pensamientos. Pero sintetizar el habla natural a partir de señales cerebrales -sin electrodos- sigue siendo difícil de alcanzar.



Un nuevo enfoque de decodificación del habla

En este nuevo estudio , los investigadores utilizaron un modelo de aprendizaje profundo para analizar grabaciones cerebrales no invasivas mientras los participantes escuchaban pasivamente el habla. Los sensores de electroencefalografía (EEG) y magnetoencefalografía (MEG) capturaron las señales cerebrales.


El modelo fue entrenado para predecir representaciones del audio del habla a partir de los patrones de actividad cerebral correspondientes. Esto le permitió decodificar el habla haciendo coincidir nuevas grabaciones cerebrales con la representación del habla más probable.



Se incluyeron tres innovaciones clave:


  • El uso de una función de pérdida contrastiva para el entrenamiento resultó más efectivo que los enfoques tradicionales de aprendizaje supervisado. Esta pérdida animó al modelo a identificar las latentes del habla que estaban máximamente alineadas con las latentes del cerebro.


  • Aprovechar las potentes representaciones de voz previamente entrenadas del modelo wav2vec 2.0 proporcionó datos de voz más ricos que las funciones de voz diseñadas manualmente y utilizadas anteriormente.


  • Una red neuronal convolucional adaptada a los datos cerebrales de cada participante con una "capa de sujeto" mejoró la individualización.


El modelo se entrenó en conjuntos de datos públicos que comprenden 15.000 horas de datos de voz de 169 participantes. También es de destacar: las pruebas con nuevas oraciones invisibles demostraron una impresionante capacidad de decodificación de cero disparos.



Mejoras significativas en la precisión

Para segmentos de habla de 3 segundos, el modelo podría identificar el segmento coincidente entre más de 1500 posibilidades con:


  • Hasta 73% de precisión para grabaciones MEG
  • Hasta un 19% de precisión para grabaciones de EEG


Esto representa una mejora espectacular con respecto a intentos anteriores de decodificación de voz utilizando sensores no invasivos. También se acerca a la precisión lograda en estudios que utilizan implantes cerebrales invasivos.


A nivel de palabras, el modelo logró una precisión máxima del 44% en la identificación de palabras individuales a partir de señales MEG. Esta capacidad de decodificar palabras directamente a partir de grabaciones no invasivas de actividad neuronal es un hito importante, incluso con una efectividad del 44%.



El potencial para restaurar el habla natural

Esta investigación ofrece la esperanza de que, con avances suficientes, los algoritmos de decodificación del habla algún día puedan ayudar a los pacientes con enfermedades neurológicas a comunicarse con fluidez.


En lugar de electrodos implantados quirúrgicamente, los sensores EEG y MEG podrían potencialmente escuchar la intención del cerebro de hablar. Luego, la IA avanzada podría sintetizar las palabras y oraciones sobre la marcha para dar voz a los que no la tienen.


Escuchar su propia voz expresar pensamientos y sentimientos novedosos y únicos podría ayudar a restaurar la identidad y la autonomía de los pacientes. Realmente podría mejorar la interacción social, la salud emocional y la calidad de vida.



Desafíos restantes

Si bien es extremadamente prometedora, aún quedan muchos desafíos por delante antes de que esta tecnología esté lista para su aplicación médica. El mayor de ellos es que la precisión actual, aunque está muy por encima de los intentos anteriores, sigue siendo demasiado baja para mantener conversaciones naturales.


Es más, las señales cerebrales durante la producción activa del habla pueden diferir considerablemente del escenario de escucha pasiva probado aquí. Se necesitarán más investigaciones sobre los conjuntos de datos grabados mientras los participantes hablan o imaginan hablar para garantizar que los modelos sean precisos.


Finalmente, las señales de EEG y MEG son susceptibles a la interferencia de los movimientos musculares y otros artefactos. Se necesitarán algoritmos sólidos para aislar las señales neuronales relacionadas con el habla.



Un hito en una frontera importante

Este estudio representa un hito en la intersección de la neurociencia y la inteligencia artificial. Aprovechando potentes enfoques de aprendizaje profundo y grandes conjuntos de datos, los investigadores han superado los límites de lo que es posible en la decodificación del habla a partir de señales cerebrales no invasivas.

Sus técnicas proporcionan una base sólida para futuros avances. Con una investigación rigurosa y un desarrollo responsable, esta tecnología algún día podría ayudar a restaurar las capacidades de comunicación natural de los pacientes que padecen afecciones neurológicas y pérdida del habla. Este es un hito importante en el largo camino para devolverle la voz a quienes no la tienen.


También publicado aquí.

Suscribir o sígueme en Gorjeo ¡Para más contenido como este!