Um artigo recente publicado em
Como eles descobriram como transformar gravações cerebrais em fala?
Vamos ver.
Ser incapaz de se comunicar pode ser devastador. Milhares de pessoas perdem a capacidade de falar todos os anos devido a lesões cerebrais, acidentes vasculares cerebrais, ELA e outras condições neurológicas. Os pacientes ficam presos dentro de suas próprias mentes, incapazes de expressar seus pensamentos, sentimentos, necessidades e desejos. Isto diminui profundamente a sua qualidade de vida e remove a sua autonomia e dignidade.
Restaurar a fala é um desafio extremamente difícil. Interfaces invasivas cérebro-computador que implantam eletrodos no cérebro podem permitir que os pacientes digitem com seus pensamentos. Mas sintetizar a fala natural a partir de sinais cerebrais – sem eletrodos – permanece uma tarefa difícil.
O modelo foi treinado para prever representações do áudio da fala a partir dos padrões de atividade cerebral correspondentes. Isso permitiu decodificar a fala combinando novas gravações cerebrais com a representação de fala mais provável.
Três inovações principais estavam envolvidas:
O uso de uma função de perda contrastiva para treinamento provou ser mais eficaz do que as abordagens tradicionais de aprendizagem supervisionada. Essa perda encorajou o modelo a identificar as latentes da fala que estavam alinhadas ao máximo com as latentes do cérebro.
O aproveitamento de representações de fala pré-treinadas poderosas do modelo wav2vec 2.0 forneceu dados de fala mais ricos do que os recursos de fala projetados manualmente usados anteriormente.
Uma rede neural convolucional adaptada aos dados cerebrais de cada participante com uma “camada de assunto” melhorou a individualização.
O modelo foi treinado em conjuntos de dados públicos compreendendo 15.000 horas de dados de fala de 169 participantes. Também digno de nota: os testes em novas frases invisíveis demonstraram uma impressionante capacidade de decodificação de disparo zero.
Para segmentos de fala de 3 segundos, o modelo poderia identificar o segmento correspondente entre mais de 1.500 possibilidades com:
Isto representa uma melhoria dramática em relação às tentativas anteriores de decodificação de voz usando sensores não invasivos. Também aborda a precisão alcançada em estudos utilizando implantes cerebrais invasivos.
No nível da palavra, o modelo alcançou 44% de precisão máxima na identificação de palavras individuais a partir de sinais MEG. Esta capacidade de decodificar palavras diretamente de gravações não invasivas da atividade neural é um marco importante, mesmo com 44% de eficácia.
Esta pesquisa dá esperança de que, com progresso suficiente, os algoritmos de decodificação de fala possam um dia ajudar pacientes com problemas neurológicos a se comunicarem fluentemente.
Em vez de eletrodos implantados cirurgicamente, os sensores EEG e MEG poderiam potencialmente ouvir a intenção do cérebro de falar. A IA avançada poderia então sintetizar as palavras e frases instantaneamente para dar voz aos que não têm voz.
Ouvir a sua própria voz expressar pensamentos e sentimentos novos e únicos pode ajudar a restaurar a identidade e a autonomia dos pacientes. Poderia realmente melhorar a interação social, a saúde emocional e a qualidade de vida.
Embora extremamente promissora, ainda restam muitos desafios antes que esta tecnologia esteja pronta para aplicação médica. A maior delas é que a precisão atual, embora muito superior às tentativas anteriores, ainda é muito baixa para conversas naturais.
Além do mais, os sinais cerebrais durante a produção da fala ativa podem diferir consideravelmente do cenário de escuta passiva testado aqui. Mais pesquisas sobre conjuntos de dados registrados enquanto os participantes falam ou imaginam falar serão necessárias para garantir que os modelos sejam precisos.
Finalmente, os sinais de EEG e MEG são suscetíveis à interferência de movimentos musculares e outros artefatos. Serão necessários algoritmos robustos para isolar os sinais neurais relacionados à fala.
Este estudo representa um marco na intersecção da neurociência e da inteligência artificial. Aproveitando abordagens poderosas de aprendizagem profunda e grandes conjuntos de dados, os pesquisadores ampliaram os limites do que é possível na decodificação da fala a partir de sinais cerebrais não invasivos.
Suas técnicas fornecem uma base sólida para novos avanços. Com investigação rigorosa e desenvolvimento responsável, esta tecnologia poderá um dia ajudar a restaurar as capacidades naturais de comunicação em pacientes que sofrem de problemas neurológicos e perda de fala. Este é um marco importante no longo caminho para devolver a voz aos que não têm voz.
Também publicado aqui.