Un artículo reciente publicado en
¿Cómo descubrieron cómo convertir las grabaciones cerebrales en habla?
Vamos a ver.
No poder comunicarse puede ser devastador. Miles de personas pierden la capacidad de hablar cada año debido a lesiones cerebrales, accidentes cerebrovasculares, ELA y otras afecciones neurológicas. Los pacientes quedan atrapados dentro de sus propias mentes, incapaces de expresar sus pensamientos, sentimientos, necesidades y deseos. Esto disminuye profundamente su calidad de vida y les quita autonomía y dignidad.
Restaurar el habla es un desafío extremadamente difícil. Las interfaces invasivas cerebro-computadora que implantan electrodos en el cerebro pueden permitir a los pacientes escribir sus pensamientos. Pero sintetizar el habla natural a partir de señales cerebrales -sin electrodos- sigue siendo difícil de alcanzar.
El modelo fue entrenado para predecir representaciones del audio del habla a partir de los patrones de actividad cerebral correspondientes. Esto le permitió decodificar el habla haciendo coincidir nuevas grabaciones cerebrales con la representación del habla más probable.
Se incluyeron tres innovaciones clave:
El uso de una función de pérdida contrastiva para el entrenamiento resultó más efectivo que los enfoques tradicionales de aprendizaje supervisado. Esta pérdida animó al modelo a identificar las latentes del habla que estaban máximamente alineadas con las latentes del cerebro.
Aprovechar las potentes representaciones de voz previamente entrenadas del modelo wav2vec 2.0 proporcionó datos de voz más ricos que las funciones de voz diseñadas manualmente y utilizadas anteriormente.
Una red neuronal convolucional adaptada a los datos cerebrales de cada participante con una "capa de sujeto" mejoró la individualización.
El modelo se entrenó en conjuntos de datos públicos que comprenden 15.000 horas de datos de voz de 169 participantes. También es de destacar: las pruebas con nuevas oraciones invisibles demostraron una impresionante capacidad de decodificación de cero disparos.
Para segmentos de habla de 3 segundos, el modelo podría identificar el segmento coincidente entre más de 1500 posibilidades con:
Esto representa una mejora espectacular con respecto a intentos anteriores de decodificación de voz utilizando sensores no invasivos. También se acerca a la precisión lograda en estudios que utilizan implantes cerebrales invasivos.
A nivel de palabras, el modelo logró una precisión máxima del 44% en la identificación de palabras individuales a partir de señales MEG. Esta capacidad de decodificar palabras directamente a partir de grabaciones no invasivas de actividad neuronal es un hito importante, incluso con una efectividad del 44%.
Esta investigación ofrece la esperanza de que, con avances suficientes, los algoritmos de decodificación del habla algún día puedan ayudar a los pacientes con enfermedades neurológicas a comunicarse con fluidez.
En lugar de electrodos implantados quirúrgicamente, los sensores EEG y MEG podrían potencialmente escuchar la intención del cerebro de hablar. Luego, la IA avanzada podría sintetizar las palabras y oraciones sobre la marcha para dar voz a los que no la tienen.
Escuchar su propia voz expresar pensamientos y sentimientos novedosos y únicos podría ayudar a restaurar la identidad y la autonomía de los pacientes. Realmente podría mejorar la interacción social, la salud emocional y la calidad de vida.
Si bien es extremadamente prometedora, aún quedan muchos desafíos por delante antes de que esta tecnología esté lista para su aplicación médica. El mayor de ellos es que la precisión actual, aunque está muy por encima de los intentos anteriores, sigue siendo demasiado baja para mantener conversaciones naturales.
Es más, las señales cerebrales durante la producción activa del habla pueden diferir considerablemente del escenario de escucha pasiva probado aquí. Se necesitarán más investigaciones sobre los conjuntos de datos grabados mientras los participantes hablan o imaginan hablar para garantizar que los modelos sean precisos.
Finalmente, las señales de EEG y MEG son susceptibles a la interferencia de los movimientos musculares y otros artefactos. Se necesitarán algoritmos sólidos para aislar las señales neuronales relacionadas con el habla.
Este estudio representa un hito en la intersección de la neurociencia y la inteligencia artificial. Aprovechando potentes enfoques de aprendizaje profundo y grandes conjuntos de datos, los investigadores han superado los límites de lo que es posible en la decodificación del habla a partir de señales cerebrales no invasivas.
Sus técnicas proporcionan una base sólida para futuros avances. Con una investigación rigurosa y un desarrollo responsable, esta tecnología algún día podría ayudar a restaurar las capacidades de comunicación natural de los pacientes que padecen afecciones neurológicas y pérdida del habla. Este es un hito importante en el largo camino para devolverle la voz a quienes no la tienen.
También publicado aquí.