201 판독값

연구자들은 뇌파로 음성을 해독합니다: AI가 이제 마음을 읽을 수 있습니까?

~에 의해 Mike Young4m2023/10/09

너무 오래; 읽다

새로운 연구는 비침습적 뇌 녹음에서 직접 음성을 디코딩하는 흥미롭고 새로운 접근 방식을 제시합니다. 이는 말할 수 있는 능력을 상실한 환자의 의사소통 능력을 회복할 수 있는 길을 열어줄 수 있습니다. 매년 수천 명의 사람들이 뇌 손상, 뇌졸중, ALS 및 기타 신경학적 질환으로 인해 언어 능력을 상실합니다.

featured image - 연구자들은 뇌파로 음성을 해독합니다: AI가 이제 마음을 읽을 수 있습니까?

최근에 발표된 논문 arXiv 비침습적 뇌 녹음에서 직접 음성을 디코딩하는 흥미롭고 새로운 접근 방식을 제시합니다. 이는 신경학적 질환으로 인해 말할 수 있는 능력을 상실한 환자의 의사소통 능력을 회복할 수 있는 길을 열어줄 수 있습니다. 이 연구는 지속적인 연구를 통해 비침습적 뇌 해독이 무성한 사람들에게 목소리를 줄 수 있다는 희망을 제공합니다.

그들은 뇌 녹음을 음성으로 바꾸는 방법을 어떻게 알아냈나요?

어디 보자.

언어 손실의 어려움

의사소통이 불가능하다는 것은 치명적일 수 있습니다. 매년 수천 명의 사람들이 뇌 손상, 뇌졸중, ALS 및 기타 신경학적 질환으로 인해 말을 할 수 있는 능력을 잃습니다. 환자는 자신의 생각, 감정, 필요, 욕구를 표현할 수 없는 자신의 마음 속에 갇혀 있습니다. 이는 그들의 삶의 질을 심각하게 저하시키고 그들의 자율성과 존엄성을 제거합니다.

말을 회복하는 것은 매우 어려운 일입니다. 뇌에 전극을 이식하는 침습적 뇌-컴퓨터 인터페이스를 통해 환자는 생각을 입력할 수 있습니다. 그러나 전극 없이 뇌 신호로부터 자연스러운 음성을 합성하는 것은 여전히 어려운 일입니다.

새로운 음성 디코딩 접근법

이 새로운 연구에서는 , 연구자들은 참가자들이 수동적으로 음성을 듣는 동안 비침습적 뇌 녹음을 분석하기 위해 딥 러닝 모델을 사용했습니다. 뇌파검사(EEG)와 자기뇌파검사(MEG) 센서는 뇌 신호를 포착했습니다.

모델은 해당 뇌 활동 패턴으로부터 음성 오디오 표현을 예측하도록 훈련되었습니다. 이를 통해 새로운 뇌 녹음을 가장 가능성 있는 음성 표현과 일치시켜 음성을 디코딩할 수 있었습니다.

세 가지 주요 혁신이 포함되었습니다.

훈련에 대비 손실 함수를 사용하는 것이 기존 지도 학습 접근 방식보다 더 효과적인 것으로 입증되었습니다. 이러한 손실은 모델이 뇌 잠재성과 최대한 일치하는 음성 잠재성을 식별하도록 장려했습니다.
wav2vec 2.0 모델의 강력한 사전 훈련된 음성 표현을 활용하여 이전에 사용된 수작업 음성 기능보다 풍부한 음성 데이터를 제공했습니다.
'주체 레이어'를 통해 각 참가자의 뇌 데이터에 맞춤화된 컨볼루셔널 신경망은 개인화를 향상시켰습니다.

이 모델은 169명의 참가자로부터 얻은 15,000시간 분량의 음성 데이터로 구성된 공개 데이터세트에서 훈련되었습니다. 또한 주목할 점: 보이지 않는 새로운 문장에 대한 테스트는 인상적인 제로샷 디코딩 능력을 보여주었습니다.

정확도의 대폭 개선

3초 길이의 음성 세그먼트에 대해 모델은 다음을 통해 1,500개 이상의 가능성 중에서 일치하는 세그먼트를 식별할 수 있습니다.

MEG 기록의 정확도는 최대 73%입니다.
EEG 기록의 정확도는 최대 19%입니다.

이는 비침투성 센서를 사용한 이전의 음성 디코딩 시도에 비해 극적인 개선을 나타냅니다. 또한 침습적 뇌 임플란트를 사용한 연구에서 얻은 정확도에 접근합니다.

단어 수준에서 이 모델은 MEG 신호에서 개별 단어를 식별하는 데 있어 44%의 최고 정확도를 달성했습니다. 신경 활동의 비침습적 기록에서 직접 단어를 해독하는 이러한 능력은 효율성이 44%에 달하는 중요한 이정표입니다.

자연스러운 언어를 회복할 수 있는 가능성

이 연구는 충분한 진전이 있으면 음성 디코딩 알고리즘이 언젠가 신경 질환이 있는 환자의 의사소통을 유창하게 도울 수 있다는 희망을 제공합니다.

외과적으로 이식된 전극 대신 EEG 및 MEG 센서는 잠재적으로 뇌의 말하려는 의도를 들을 수 있습니다. 그러면 고급 AI가 단어와 문장을 즉석에서 합성하여 말 못하는 사람에게 목소리를 줄 수 있습니다.

독특하고 참신한 생각과 감정을 표현하는 자신의 목소리를 듣는 것은 환자의 정체성과 자율성을 회복하는 데 도움이 될 수 있습니다. 이는 사회적 상호 작용, 정서적 건강 및 삶의 질을 실제로 향상시킬 수 있습니다.

남은 과제

매우 유망하지만, 이 기술이 의료에 적용되기까지는 많은 과제가 남아 있습니다. 가장 큰 문제는 이전 시도에 비해 현재 정확도가 훨씬 낮지만 자연스러운 대화를 하기에는 여전히 너무 낮다는 것입니다.

게다가 능동적 음성 생성 중 뇌 신호는 여기서 테스트한 수동적 청취 시나리오와 상당히 다를 수 있습니다. 모델이 정확한지 확인하려면 참가자가 말하거나 말하는 것을 상상하는 동안 기록된 데이터 세트에 대한 추가 연구가 필요할 것입니다.

마지막으로 EEG 및 MEG 신호는 근육 움직임 및 기타 인공물로 인한 간섭을 받기 쉽습니다. 음성 관련 신경 신호를 분리하려면 강력한 알고리즘이 필요합니다.

중요한 개척지의 이정표

이번 연구는 신경과학과 인공지능의 교차점에서 획기적인 이정표를 제시합니다. 강력한 딥 러닝 접근 방식과 대규모 데이터 세트를 활용하여 연구원들은 비침습적 뇌 신호에서 음성을 해독하는 데 가능한 범위를 넓혔습니다.

그들의 기술은 향후 발전을 위한 견고한 기반을 제공합니다. 엄격한 연구와 책임감 있는 개발을 통해 이 기술은 언젠가 신경 질환 및 언어 상실로 고통받는 환자의 자연스러운 의사소통 능력을 회복하는 데 도움이 될 수 있습니다. 이는 목소리 없는 사람들에게 목소리를 돌려주기 위한 긴 여정의 중요한 이정표입니다.