최근에 발표된 논문
그들은 뇌 녹음을 음성으로 바꾸는 방법을 어떻게 알아냈나요?
어디 보자.
의사소통이 불가능하다는 것은 치명적일 수 있습니다. 매년 수천 명의 사람들이 뇌 손상, 뇌졸중, ALS 및 기타 신경학적 질환으로 인해 말을 할 수 있는 능력을 잃습니다. 환자는 자신의 생각, 감정, 필요, 욕구를 표현할 수 없는 자신의 마음 속에 갇혀 있습니다. 이는 그들의 삶의 질을 심각하게 저하시키고 그들의 자율성과 존엄성을 제거합니다.
말을 회복하는 것은 매우 어려운 일입니다. 뇌에 전극을 이식하는 침습적 뇌-컴퓨터 인터페이스를 통해 환자는 생각을 입력할 수 있습니다. 그러나 전극 없이 뇌 신호로부터 자연스러운 음성을 합성하는 것은 여전히 어려운 일입니다.
모델은 해당 뇌 활동 패턴으로부터 음성 오디오 표현을 예측하도록 훈련되었습니다. 이를 통해 새로운 뇌 녹음을 가장 가능성 있는 음성 표현과 일치시켜 음성을 디코딩할 수 있었습니다.
세 가지 주요 혁신이 포함되었습니다.
훈련에 대비 손실 함수를 사용하는 것이 기존 지도 학습 접근 방식보다 더 효과적인 것으로 입증되었습니다. 이러한 손실은 모델이 뇌 잠재성과 최대한 일치하는 음성 잠재성을 식별하도록 장려했습니다.
wav2vec 2.0 모델의 강력한 사전 훈련된 음성 표현을 활용하여 이전에 사용된 수작업 음성 기능보다 풍부한 음성 데이터를 제공했습니다.
'주체 레이어'를 통해 각 참가자의 뇌 데이터에 맞춤화된 컨볼루셔널 신경망은 개인화를 향상시켰습니다.
이 모델은 169명의 참가자로부터 얻은 15,000시간 분량의 음성 데이터로 구성된 공개 데이터세트에서 훈련되었습니다. 또한 주목할 점: 보이지 않는 새로운 문장에 대한 테스트는 인상적인 제로샷 디코딩 능력을 보여주었습니다.
3초 길이의 음성 세그먼트에 대해 모델은 다음을 통해 1,500개 이상의 가능성 중에서 일치하는 세그먼트를 식별할 수 있습니다.
이는 비침투성 센서를 사용한 이전의 음성 디코딩 시도에 비해 극적인 개선을 나타냅니다. 또한 침습적 뇌 임플란트를 사용한 연구에서 얻은 정확도에 접근합니다.
단어 수준에서 이 모델은 MEG 신호에서 개별 단어를 식별하는 데 있어 44%의 최고 정확도를 달성했습니다. 신경 활동의 비침습적 기록에서 직접 단어를 해독하는 이러한 능력은 효율성이 44%에 달하는 중요한 이정표입니다.
이 연구는 충분한 진전이 있으면 음성 디코딩 알고리즘이 언젠가 신경 질환이 있는 환자의 의사소통을 유창하게 도울 수 있다는 희망을 제공합니다.
외과적으로 이식된 전극 대신 EEG 및 MEG 센서는 잠재적으로 뇌의 말하려는 의도를 들을 수 있습니다. 그러면 고급 AI가 단어와 문장을 즉석에서 합성하여 말 못하는 사람에게 목소리를 줄 수 있습니다.
독특하고 참신한 생각과 감정을 표현하는 자신의 목소리를 듣는 것은 환자의 정체성과 자율성을 회복하는 데 도움이 될 수 있습니다. 이는 사회적 상호 작용, 정서적 건강 및 삶의 질을 실제로 향상시킬 수 있습니다.
매우 유망하지만, 이 기술이 의료에 적용되기까지는 많은 과제가 남아 있습니다. 가장 큰 문제는 이전 시도에 비해 현재 정확도가 훨씬 낮지만 자연스러운 대화를 하기에는 여전히 너무 낮다는 것입니다.
게다가 능동적 음성 생성 중 뇌 신호는 여기서 테스트한 수동적 청취 시나리오와 상당히 다를 수 있습니다. 모델이 정확한지 확인하려면 참가자가 말하거나 말하는 것을 상상하는 동안 기록된 데이터 세트에 대한 추가 연구가 필요할 것입니다.
마지막으로 EEG 및 MEG 신호는 근육 움직임 및 기타 인공물로 인한 간섭을 받기 쉽습니다. 음성 관련 신경 신호를 분리하려면 강력한 알고리즘이 필요합니다.
이번 연구는 신경과학과 인공지능의 교차점에서 획기적인 이정표를 제시합니다. 강력한 딥 러닝 접근 방식과 대규모 데이터 세트를 활용하여 연구원들은 비침습적 뇌 신호에서 음성을 해독하는 데 가능한 범위를 넓혔습니다.
그들의 기술은 향후 발전을 위한 견고한 기반을 제공합니다. 엄격한 연구와 책임감 있는 개발을 통해 이 기술은 언젠가 신경 질환 및 언어 상실로 고통받는 환자의 자연스러운 의사소통 능력을 회복하는 데 도움이 될 수 있습니다. 이는 목소리 없는 사람들에게 목소리를 돌려주기 위한 긴 여정의 중요한 이정표입니다.
여기에도 게시되었습니다 .