paint-brush
Các nhà nghiên cứu giải mã lời nói bằng sóng não: AI có thể đọc được suy nghĩ bây giờ không?by@mikeyoung44
191

Các nhà nghiên cứu giải mã lời nói bằng sóng não: AI có thể đọc được suy nghĩ bây giờ không?

Mike Young4m2023/10/09
Read on Terminal Reader

Một nghiên cứu mới trình bày một cách tiếp cận mới thú vị để giải mã giọng nói trực tiếp từ bản ghi âm não không xâm lấn. Điều này có thể mở đường cho việc khôi phục khả năng giao tiếp ở những bệnh nhân mất khả năng nói. Mỗi năm, hàng nghìn người mất khả năng nói do chấn thương não, đột quỵ, ALS và các tình trạng thần kinh khác.
featured image - Các nhà nghiên cứu giải mã lời nói bằng sóng não: AI có thể đọc được suy nghĩ bây giờ không?
Mike Young HackerNoon profile picture
0-item
1-item


Một bài báo gần đây được xuất bản trên arXiv trình bày một cách tiếp cận mới thú vị để giải mã giọng nói trực tiếp từ bản ghi âm não không xâm lấn. Điều này có thể mở đường cho việc khôi phục khả năng giao tiếp ở những bệnh nhân mất khả năng nói do tình trạng thần kinh. Nghiên cứu này mang lại hy vọng rằng với việc tiếp tục nghiên cứu, việc giải mã não không xâm lấn có thể mang lại tiếng nói cho những người không có giọng nói.


Làm thế nào họ tìm ra cách biến bản ghi âm não thành lời nói?


Hãy xem nào.


Thử thách của việc mất giọng nói

Không thể giao tiếp có thể bị tàn phá. Hàng nghìn người mất khả năng nói mỗi năm do chấn thương não, đột quỵ, ALS và các tình trạng thần kinh khác. Bệnh nhân bị mắc kẹt trong tâm trí của chính họ, không thể bày tỏ suy nghĩ, cảm xúc, nhu cầu và mong muốn của mình. Điều này làm suy giảm sâu sắc chất lượng cuộc sống của họ và tước bỏ quyền tự chủ và phẩm giá của họ.


Khôi phục giọng nói là một thách thức cực kỳ khó khăn. Giao diện máy tính-não xâm lấn cấy ghép các điện cực vào não có thể cho phép bệnh nhân gõ bằng suy nghĩ của họ. Nhưng việc tổng hợp giọng nói tự nhiên từ tín hiệu não – không có điện cực – vẫn khó nắm bắt.



Phương pháp giải mã giọng nói mới lạ

Trong nghiên cứu mới này Các nhà nghiên cứu đã sử dụng mô hình học sâu để phân tích các bản ghi âm não không xâm lấn khi những người tham gia lắng nghe lời nói một cách thụ động. Các cảm biến điện não đồ (EEG) và từ điện não đồ (MEG) đã thu được các tín hiệu não.


Mô hình đã được đào tạo để dự đoán cách thể hiện âm thanh lời nói từ các mẫu hoạt động não tương ứng. Điều này cho phép nó giải mã giọng nói bằng cách khớp các bản ghi âm mới của não với cách thể hiện giọng nói có khả năng nhất.



Ba sự đổi mới quan trọng đã được tham gia:


  • Sử dụng hàm mất tương phản để huấn luyện tỏ ra hiệu quả hơn so với các phương pháp học có giám sát truyền thống. Sự mất mát này đã khuyến khích mô hình xác định các tiềm ẩn trong giọng nói phù hợp tối đa với các tiềm ẩn trong não.


  • Việc tận dụng các biểu diễn giọng nói được huấn luyện trước mạnh mẽ từ mô hình wav2vec 2.0 đã cung cấp dữ liệu giọng nói phong phú hơn so với các tính năng giọng nói được thiết kế thủ công được sử dụng trước đây.


  • Mạng lưới thần kinh tích chập được điều chỉnh phù hợp với dữ liệu não của mỗi người tham gia với "lớp chủ đề" được cải thiện tính cá nhân hóa.


Mô hình này được đào tạo trên bộ dữ liệu công cộng bao gồm 15.000 giờ dữ liệu giọng nói từ 169 người tham gia. Cũng cần lưu ý: việc thử nghiệm các câu mới chưa được nhìn thấy đã chứng tỏ khả năng giải mã không bị bắn ấn tượng.



Những cải tiến đáng kể về độ chính xác

Đối với các đoạn lời nói dài 3 giây, mô hình có thể xác định đoạn phù hợp từ hơn 1.500 khả năng với:


  • Độ chính xác lên tới 73% cho bản ghi MEG
  • Độ chính xác lên tới 19% cho bản ghi EEG


Điều này thể hiện sự cải thiện đáng kể so với những nỗ lực trước đây trong việc giải mã giọng nói bằng cảm biến không xâm lấn. Nó cũng đạt đến độ chính xác đạt được trong các nghiên cứu sử dụng cấy ghép não xâm lấn.


Ở cấp độ từ, mô hình đạt độ chính xác cao nhất 44% trong việc xác định từng từ riêng lẻ từ tín hiệu MEG. Khả năng giải mã các từ trực tiếp từ các bản ghi hoạt động thần kinh không xâm lấn này là một cột mốc quan trọng, thậm chí với hiệu suất 44%.



Tiềm năng khôi phục lời nói tự nhiên

Nghiên cứu này mang lại hy vọng rằng với đủ tiến bộ, các thuật toán giải mã giọng nói một ngày nào đó có thể giúp các bệnh nhân mắc bệnh thần kinh giao tiếp trôi chảy.


Thay vì cấy ghép các điện cực bằng phẫu thuật, các cảm biến EEG và MEG có khả năng lắng nghe ý định nói của não. AI tiên tiến sau đó có thể tổng hợp các từ và câu một cách nhanh chóng để đưa ra giọng nói cho những người không có giọng nói.


Nghe giọng nói của chính họ thể hiện những suy nghĩ và tình cảm mới lạ độc đáo có thể giúp khôi phục danh tính và quyền tự chủ cho bệnh nhân. Nó thực sự có thể cải thiện sự tương tác xã hội, sức khỏe cảm xúc và chất lượng cuộc sống.



Những thách thức còn lại

Mặc dù cực kỳ hứa hẹn nhưng vẫn còn nhiều thách thức trước khi công nghệ này sẵn sàng ứng dụng trong y tế. Vấn đề lớn nhất là độ chính xác hiện tại, mặc dù vượt xa những lần thử trước đó nhưng vẫn quá thấp đối với các cuộc trò chuyện tự nhiên.


Hơn nữa, tín hiệu não trong quá trình tạo ra lời nói chủ động có thể khác biệt đáng kể so với tình huống nghe thụ động được thử nghiệm ở đây. Cần nghiên cứu sâu hơn về các tập dữ liệu được ghi lại trong khi người tham gia nói hoặc tưởng tượng việc nói để đảm bảo các mô hình là chính xác.


Cuối cùng, tín hiệu EEG và MEG dễ bị nhiễu do chuyển động của cơ và các hiện tượng khác. Sẽ cần có các thuật toán mạnh mẽ để tách biệt các tín hiệu thần kinh liên quan đến giọng nói.



Một cột mốc quan trọng trên biên giới quan trọng

Nghiên cứu này đánh dấu một cột mốc quan trọng ở sự giao thoa giữa khoa học thần kinh và trí tuệ nhân tạo. Tận dụng các phương pháp học sâu mạnh mẽ và bộ dữ liệu lớn, các nhà nghiên cứu đã vượt qua ranh giới của những gì có thể giải mã giọng nói từ các tín hiệu não không xâm lấn.

Kỹ thuật của họ cung cấp một nền tảng vững chắc cho những tiến bộ hơn nữa. Với sự nghiên cứu nghiêm ngặt và sự phát triển có trách nhiệm, một ngày nào đó công nghệ này có thể giúp khôi phục khả năng giao tiếp tự nhiên cho những bệnh nhân mắc các bệnh về thần kinh và mất khả năng nói. Đây là một cột mốc quan trọng trên con đường dài nhằm mang lại tiếng nói cho những người không có tiếng nói.


Cũng được xuất bản ở đây.

Đặt mua hoặc theo dõi tôi trên Twitter để biết thêm nội dung như thế này!