最近发表的一篇论文
他们是如何想出如何将大脑录音转化为语音的?
让我们来看看。
无法沟通可能是毁灭性的。每年有成千上万的人因脑损伤、中风、ALS 和其他神经系统疾病而失去说话的能力。患者被困在自己的思想中,无法表达自己的想法、感受、需求和愿望。这极大地降低了他们的生活质量,剥夺了他们的自主权和尊严。
恢复言语是一项极其艰巨的挑战。在大脑中植入电极的侵入式脑机接口可以让患者用他们的想法打字。但在没有电极的情况下从大脑信号合成自然语音仍然难以实现。
该模型经过训练,可以根据相应的大脑活动模式预测语音音频的表示。这使得它能够通过将新的大脑记录与最可能的语音表示相匹配来解码语音。
其中涉及三项关键创新:
事实证明,使用对比损失函数进行训练比传统的监督学习方法更有效。这种损失促使模型识别出与大脑潜伏最大程度一致的言语潜伏。
利用 wav2vec 2.0 模型中强大的预训练语音表示,提供了比以前使用的手工设计的语音特征更丰富的语音数据。
针对每个参与者的大脑数据定制的卷积神经网络具有“主题层”,改善了个体化。
该模型在公共数据集上进行训练,其中包括 169 名参与者的 15,000 小时的语音数据。另外值得注意的是:对新的未见过的句子的测试展示了令人印象深刻的零样本解码能力。
对于 3 秒的语音片段,该模型可以通过以下方式从 1,500 多种可能性中识别匹配片段:
与之前使用非侵入式传感器进行语音解码的尝试相比,这代表了巨大的进步。它还接近使用侵入性大脑植入物的研究中所达到的准确性。
在单词级别,该模型在从 MEG 信号中识别单个单词方面实现了 44% 的最高准确率。这种直接从非侵入性神经活动记录中解码单词的能力是一个重要的里程碑,即使效率达到 44%。
这项研究带来了希望:只要取得足够的进展,语音解码算法有一天可以帮助患有神经系统疾病的患者流畅地进行交流。
脑电图和脑磁图传感器不是通过手术植入电极,而是有可能聆听大脑说话的意图。然后,先进的人工智能可以即时合成单词和句子,为无声者提供声音。
听到自己的声音表达独特的新颖想法和情感可以帮助患者恢复身份和自主权。它确实可以改善社交互动、情绪健康和生活质量。
尽管前景广阔,但在这项技术准备用于医疗应用之前仍然存在许多挑战。最大的一个问题是,当前的准确性虽然远远超出了之前的尝试,但对于自然对话来说仍然太低。
更重要的是,主动语音产生过程中的大脑信号可能与此处测试的被动聆听场景有很大不同。需要对参与者说话或想象说话时记录的数据集进行进一步研究,以确保模型准确。
最后,脑电图和脑磁图信号容易受到肌肉运动和其他伪影的干扰。需要强大的算法来隔离与语音相关的神经信号。
这项研究代表了神经科学和人工智能交叉领域的一个里程碑。利用强大的深度学习方法和大型数据集,研究人员突破了从非侵入性大脑信号解码语音的可能性界限。
他们的技术为进一步发展奠定了坚实的基础。通过严格的研究和负责任的开发,这项技术有一天可能会帮助患有神经系统疾病和语言障碍的患者恢复自然沟通能力。这是让无声者重新拥有发言权的漫长道路上的一个重要里程碑。
也发布在这里。