に掲載された最近の論文
彼らはどうやって脳の記録を音声に変換する方法を見つけたのでしょうか?
見てみましょう。
コミュニケーションが取れなくなると、壊滅的な事態になる可能性があります。脳損傷、脳卒中、ALS、その他の神経学的疾患により、毎年何千人もの人々が話す能力を失っています。患者は自分の心の中に閉じ込められ、自分の考え、感情、ニーズ、欲望を表現できなくなります。これは彼らの生活の質を著しく低下させ、彼らの自主性と尊厳を奪います。
言論の回復は極めて困難な課題である。脳に電極を埋め込む侵襲的なブレインコンピューターインターフェイスを使用すると、患者は自分の考えを入力できるようになります。しかし、電極を使わずに脳信号から自然な音声を合成することは依然として難しい。
このモデルは、対応する脳活動パターンから音声の表現を予測するようにトレーニングされました。これにより、新しい脳の記録を最も可能性の高い音声表現と照合することで音声を解読できるようになりました。
3 つの重要な革新が関係していました。
トレーニングに対照的な損失関数を使用することは、従来の教師あり学習アプローチよりも効果的であることが証明されました。この損失により、モデルは脳潜在と最大限に一致する音声潜在を識別するようになりました。
wav2vec 2.0 モデルの強力な事前トレーニング済み音声表現を活用することで、以前に使用されていた手作業でエンジニアリングされた音声特徴よりも豊富な音声データが提供されました。
「被験者層」を使用して各参加者の脳データに合わせて調整された畳み込みニューラル ネットワークにより、個別化が向上しました。
このモデルは、169 人の参加者からの 15,000 時間の音声データで構成される公開データセットでトレーニングされました。また、注目すべき点は、新しい未確認の文に対するテストで、印象的なゼロショット デコード能力が実証されたことです。
3 秒間の音声セグメントの場合、モデルは次のように 1,500 以上の可能性から一致するセグメントを識別できます。
これは、非侵襲性センサーを使用した音声デコードのこれまでの試みに比べて劇的な改善を示しています。また、侵襲的脳インプラントを使用した研究で達成される精度にも近づきます。
単語レベルでは、このモデルは MEG 信号から個々の単語を識別する際に 44% の最高精度を達成しました。神経活動の非侵襲的記録から直接単語を解読できるこの機能は、たとえ有効性が 44% であっても、大きなマイルストーンです。
この研究は、十分な進歩があれば、音声解読アルゴリズムが神経学的疾患を持つ患者が流暢にコミュニケーションできるようになる日が来るかもしれないという希望を与えてくれます。
外科的に埋め込まれた電極の代わりに、EEG センサーと MEG センサーが脳の発話意図を聞き取ることができる可能性があります。高度な AI は、その場で単語や文章を合成し、声なき人々に声を与えることができるようになります。
患者自身の声がユニークで斬新な考えや感情を表現するのを聞くことは、患者にアイデンティティと自主性を取り戻すのに役立つ可能性があります。それは社会的交流、精神的健康、そして生活の質を本当に改善する可能性があります。
非常に有望ではありますが、この技術が医療応用の準備が整うまでには多くの課題が残されています。最大の問題は、現在の精度は以前の試みをはるかに上回っていますが、自然な会話にはまだ低すぎることです。
さらに、能動的な発話中の脳信号は、ここでテストした受動的なリスニングのシナリオとはかなり異なる可能性があります。モデルが正確であることを確認するには、参加者が話している間、または話すことを想像している間に記録されたデータセットについてさらなる研究が必要です。
最後に、EEG 信号と MEG 信号は、筋肉の動きやその他のアーチファクトによる干渉を受けやすくなります。音声関連の神経信号を分離するには、堅牢なアルゴリズムが必要になります。
この研究は、神経科学と人工知能の交差点における画期的な出来事です。研究者らは、強力な深層学習アプローチと大規模なデータセットを活用して、非侵襲的な脳信号から音声を解読する際に可能な限界を押し広げました。
彼らの技術はさらなる進歩のための強固な基盤を提供します。厳密な研究と責任ある開発により、このテクノロジーは、いつか神経学的症状や言語喪失に苦しむ患者の自然なコミュニケーション能力を回復するのに役立つかもしれません。これは、声なき人々に声を取り戻すための長い道のりにおける重要なマイルストーンです。