201 leituras

Pesquisadores decodificam a fala com ondas cerebrais: a IA pode ler mentes agora?

por Mike Young4m2023/10/09

Muito longo; Para ler

Um novo estudo apresenta uma nova abordagem interessante para decodificar a fala diretamente de gravações cerebrais não invasivas. Isto poderia abrir caminho para restaurar as capacidades de comunicação em pacientes que perderam a capacidade de falar. Todos os anos, milhares de pessoas perdem a capacidade de falar devido a lesões cerebrais, acidentes vasculares cerebrais, ELA e outras condições neurológicas.

featured image - Pesquisadores decodificam a fala com ondas cerebrais: a IA pode ler mentes agora?

Um artigo recente publicado em arXiv apresenta uma nova e excitante abordagem para decodificar a fala diretamente de gravações cerebrais não invasivas. Isto poderia abrir caminho para restaurar as capacidades de comunicação em pacientes que perderam a capacidade de falar devido a condições neurológicas. O estudo oferece esperança de que, com a continuação da pesquisa, a decodificação cerebral não invasiva possa dar voz aos que não têm voz.

Como eles descobriram como transformar gravações cerebrais em fala?

Vamos ver.

O desafio da perda de fala

Ser incapaz de se comunicar pode ser devastador. Milhares de pessoas perdem a capacidade de falar todos os anos devido a lesões cerebrais, acidentes vasculares cerebrais, ELA e outras condições neurológicas. Os pacientes ficam presos dentro de suas próprias mentes, incapazes de expressar seus pensamentos, sentimentos, necessidades e desejos. Isto diminui profundamente a sua qualidade de vida e remove a sua autonomia e dignidade.

Restaurar a fala é um desafio extremamente difícil. Interfaces invasivas cérebro-computador que implantam eletrodos no cérebro podem permitir que os pacientes digitem com seus pensamentos. Mas sintetizar a fala natural a partir de sinais cerebrais – sem eletrodos – permanece uma tarefa difícil.

Uma nova abordagem de decodificação de fala

Neste novo estudo , os pesquisadores usaram um modelo de aprendizagem profunda para analisar gravações cerebrais não invasivas enquanto os participantes ouviam passivamente a fala. Sensores de eletroencefalografia (EEG) e magnetoencefalografia (MEG) capturaram os sinais cerebrais.

O modelo foi treinado para prever representações do áudio da fala a partir dos padrões de atividade cerebral correspondentes. Isso permitiu decodificar a fala combinando novas gravações cerebrais com a representação de fala mais provável.

Três inovações principais estavam envolvidas:

O uso de uma função de perda contrastiva para treinamento provou ser mais eficaz do que as abordagens tradicionais de aprendizagem supervisionada. Essa perda encorajou o modelo a identificar as latentes da fala que estavam alinhadas ao máximo com as latentes do cérebro.
O aproveitamento de representações de fala pré-treinadas poderosas do modelo wav2vec 2.0 forneceu dados de fala mais ricos do que os recursos de fala projetados manualmente usados anteriormente.
Uma rede neural convolucional adaptada aos dados cerebrais de cada participante com uma “camada de assunto” melhorou a individualização.

O modelo foi treinado em conjuntos de dados públicos compreendendo 15.000 horas de dados de fala de 169 participantes. Também digno de nota: os testes em novas frases invisíveis demonstraram uma impressionante capacidade de decodificação de disparo zero.

Melhorias Significativas na Precisão

Para segmentos de fala de 3 segundos, o modelo poderia identificar o segmento correspondente entre mais de 1.500 possibilidades com:

Precisão de até 73% para gravações MEG
Precisão de até 19% para gravações de EEG

Isto representa uma melhoria dramática em relação às tentativas anteriores de decodificação de voz usando sensores não invasivos. Também aborda a precisão alcançada em estudos utilizando implantes cerebrais invasivos.

No nível da palavra, o modelo alcançou 44% de precisão máxima na identificação de palavras individuais a partir de sinais MEG. Esta capacidade de decodificar palavras diretamente de gravações não invasivas da atividade neural é um marco importante, mesmo com 44% de eficácia.

O potencial para restaurar a fala natural

Esta pesquisa dá esperança de que, com progresso suficiente, os algoritmos de decodificação de fala possam um dia ajudar pacientes com problemas neurológicos a se comunicarem fluentemente.

Em vez de eletrodos implantados cirurgicamente, os sensores EEG e MEG poderiam potencialmente ouvir a intenção do cérebro de falar. A IA avançada poderia então sintetizar as palavras e frases instantaneamente para dar voz aos que não têm voz.

Ouvir a sua própria voz expressar pensamentos e sentimentos novos e únicos pode ajudar a restaurar a identidade e a autonomia dos pacientes. Poderia realmente melhorar a interação social, a saúde emocional e a qualidade de vida.

Desafios restantes

Embora extremamente promissora, ainda restam muitos desafios antes que esta tecnologia esteja pronta para aplicação médica. A maior delas é que a precisão atual, embora muito superior às tentativas anteriores, ainda é muito baixa para conversas naturais.

Além do mais, os sinais cerebrais durante a produção da fala ativa podem diferir consideravelmente do cenário de escuta passiva testado aqui. Mais pesquisas sobre conjuntos de dados registrados enquanto os participantes falam ou imaginam falar serão necessárias para garantir que os modelos sejam precisos.

Finalmente, os sinais de EEG e MEG são suscetíveis à interferência de movimentos musculares e outros artefatos. Serão necessários algoritmos robustos para isolar os sinais neurais relacionados à fala.

Um marco em uma fronteira importante

Este estudo representa um marco na intersecção da neurociência e da inteligência artificial. Aproveitando abordagens poderosas de aprendizagem profunda e grandes conjuntos de dados, os pesquisadores ampliaram os limites do que é possível na decodificação da fala a partir de sinais cerebrais não invasivos.

Suas técnicas fornecem uma base sólida para novos avanços. Com investigação rigorosa e desenvolvimento responsável, esta tecnologia poderá um dia ajudar a restaurar as capacidades naturais de comunicação em pacientes que sofrem de problemas neurológicos e perda de fala. Este é um marco importante no longo caminho para devolver a voz aos que não têm voz.