Un artículo reciente publicado en  presenta un nuevo y emocionante enfoque para decodificar el habla directamente a partir de grabaciones cerebrales no invasivas. Esto podría allanar el camino para restaurar la capacidad de comunicación en pacientes que han perdido la capacidad de hablar debido a afecciones neurológicas. El estudio ofrece la esperanza de que, con la investigación continua, la decodificación cerebral no invasiva pueda dar voz a quienes no la tienen.   arXiv  ¿Cómo descubrieron cómo convertir las grabaciones cerebrales en habla?  Vamos a ver.  El desafío de la pérdida del habla  No poder comunicarse puede ser devastador. Miles de personas pierden la capacidad de hablar cada año debido a lesiones cerebrales, accidentes cerebrovasculares, ELA y otras afecciones neurológicas. Los pacientes quedan atrapados dentro de sus propias mentes, incapaces de expresar sus pensamientos, sentimientos, necesidades y deseos. Esto disminuye profundamente su calidad de vida y les quita autonomía y dignidad.  Restaurar el habla es un desafío extremadamente difícil. Las interfaces invasivas cerebro-computadora que implantan electrodos en el cerebro pueden permitir a los pacientes escribir sus pensamientos. Pero sintetizar el habla natural a partir de señales cerebrales -sin electrodos- sigue siendo difícil de alcanzar.  Un nuevo enfoque de decodificación del habla  , los investigadores utilizaron un modelo   para analizar grabaciones cerebrales no invasivas mientras los participantes escuchaban pasivamente el habla. Los sensores de electroencefalografía (EEG) y magnetoencefalografía (MEG) capturaron las señales cerebrales.   En este nuevo estudio de aprendizaje profundo  El modelo fue entrenado para predecir representaciones del audio del habla a partir de los patrones de actividad cerebral correspondientes. Esto le permitió decodificar el habla haciendo coincidir nuevas grabaciones cerebrales con la representación del habla más probable.   Se incluyeron tres innovaciones clave:  El uso de una   para el entrenamiento resultó más efectivo que los enfoques tradicionales de aprendizaje supervisado. Esta pérdida animó al modelo a identificar las latentes del habla que estaban máximamente alineadas con las latentes del cerebro. función de pérdida contrastiva  Aprovechar las potentes   del modelo wav2vec 2.0 proporcionó datos de voz más ricos que las funciones de voz diseñadas manualmente y utilizadas anteriormente. representaciones de voz previamente entrenadas  Una   adaptada a los datos cerebrales de cada participante con una "capa de sujeto" mejoró la individualización. red neuronal convolucional  El modelo se entrenó en conjuntos de datos públicos que comprenden 15.000 horas de datos de voz de 169 participantes. También es de destacar: las pruebas con nuevas oraciones invisibles demostraron una impresionante capacidad de decodificación de cero disparos.  Mejoras significativas en la precisión  Para segmentos de habla de 3 segundos, el modelo podría identificar el segmento coincidente entre más de 1500 posibilidades con:  Hasta 73% de precisión para grabaciones MEG  Hasta un 19% de precisión para grabaciones de EEG  Esto representa una mejora espectacular con respecto a intentos anteriores de decodificación de voz utilizando sensores no invasivos. También se acerca a la precisión lograda en estudios que utilizan implantes cerebrales invasivos.  A nivel de palabras, el modelo logró una precisión máxima del 44% en la identificación de palabras individuales a partir de señales MEG. Esta capacidad de decodificar palabras directamente a partir de grabaciones no invasivas de actividad neuronal es un hito importante, incluso con una efectividad del 44%.  El potencial para restaurar el habla natural  Esta investigación ofrece la esperanza de que, con avances suficientes, los algoritmos de decodificación del habla algún día puedan ayudar a los pacientes con enfermedades neurológicas a comunicarse con fluidez.  En lugar de electrodos implantados quirúrgicamente, los sensores EEG y MEG podrían potencialmente escuchar la intención del cerebro de hablar. Luego, la IA avanzada podría sintetizar las palabras y oraciones sobre la marcha para dar voz a los que no la tienen.  Escuchar su propia voz expresar pensamientos y sentimientos novedosos y únicos podría ayudar a restaurar la identidad y la autonomía de los pacientes. Realmente podría mejorar la interacción social, la salud emocional y la calidad de vida.  Desafíos restantes  Si bien es extremadamente prometedora, aún quedan muchos desafíos por delante antes de que esta tecnología esté lista para su aplicación médica. El mayor de ellos es que la precisión actual, aunque está muy por encima de los intentos anteriores, sigue siendo demasiado baja para mantener conversaciones naturales.  Es más, las señales cerebrales durante la producción activa del habla pueden diferir considerablemente del escenario de escucha pasiva probado aquí. Se necesitarán más investigaciones sobre los conjuntos de datos grabados mientras los participantes hablan o imaginan hablar para garantizar que los modelos sean precisos.  Finalmente, las señales de EEG y MEG son susceptibles a la interferencia de los movimientos musculares y otros artefactos. Se necesitarán algoritmos sólidos para aislar las señales neuronales relacionadas con el habla.  Un hito en una frontera importante  Este estudio representa un hito en la intersección de la neurociencia y la inteligencia artificial. Aprovechando potentes enfoques de aprendizaje profundo y grandes conjuntos de datos, los investigadores han superado los límites de lo que es posible en la decodificación del habla a partir de señales cerebrales no invasivas.  Sus técnicas proporcionan una base sólida para futuros avances. Con una investigación rigurosa y un desarrollo responsable, esta tecnología algún día podría ayudar a restaurar las capacidades de comunicación natural de los pacientes que padecen afecciones neurológicas y pérdida del habla. Este es un hito importante en el largo camino para devolverle la voz a quienes no la tienen.  También publicado  aquí.       Suscribir o sígueme en   Gorjeo ¡Para más contenido como este!

This story contains new, firsthand information uncovered by the writer.

Hot off the press! This story contains factual information about a recent event.

Tell me why my site sucks so I can make it better. Be mean.

Read My Stories

Este audio es producido en el idioma original de la historia!

Los investigadores decodifican el habla con ondas cerebrales: ¿puede la IA leer la mente ahora?

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

Crecimiento de las criptomonedas: creación de perfiles de usuarios eficaces

Liberando el poder de la IA. Una revisión sistemática de técnicas de vanguardia: resumen e introducción

Valhalla de Floki se une como patrocinador asociado de la gira de la India por Sri Lanka

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

Crecimiento de las criptomonedas: creación de perfiles de usuarios eficaces

Liberando el poder de la IA. Una revisión sistemática de técnicas de vanguardia: resumen e introducción

Valhalla de Floki se une como patrocinador asociado de la gira de la India por Sri Lanka

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps