Yakın zamanda yayınlanan bir makale
Beyin kayıtlarını konuşmaya dönüştürmeyi nasıl başardılar?
Görelim.
İletişim kuramama yıkıcı olabilir. Beyin yaralanmaları, felç, ALS ve diğer nörolojik rahatsızlıklar nedeniyle her yıl binlerce insan konuşma yeteneğini kaybediyor. Hastalar kendi zihinlerinin içinde sıkışıp kalırlar; düşüncelerini, duygularını, ihtiyaçlarını ve arzularını ifade edemezler. Bu onların yaşam kalitelerini derinden düşürür, özerkliklerini ve onurlarını ortadan kaldırır.
Konuşmayı geri yüklemek son derece zor bir iştir. Beyine elektrotlar yerleştiren istilacı beyin-bilgisayar arayüzleri, hastaların düşünceleriyle yazmasına olanak tanıyabiliyor. Ancak doğal konuşmayı beyin sinyallerinden elektrotlar olmadan sentezlemek hala zor.
Model, karşılık gelen beyin aktivite modellerinden konuşma sesinin temsillerini tahmin edecek şekilde eğitildi. Bu, yeni beyin kayıtlarını en olası konuşma temsiliyle eşleştirerek konuşmanın kodunu çözmesine olanak sağladı.
Üç önemli yenilik söz konusuydu:
Eğitim için karşılaştırmalı kayıp fonksiyonunu kullanmanın, geleneksel denetimli öğrenme yaklaşımlarından daha etkili olduğu kanıtlandı. Bu kayıp, modeli beyin latentleriyle maksimum düzeyde hizalanmış konuşma latentlerini tanımlamaya teşvik etti.
wav2vec 2.0 modelindeki önceden eğitilmiş güçlü konuşma temsillerinden yararlanmak, daha önce kullanılan elle tasarlanmış konuşma özelliklerinden daha zengin konuşma verileri sağladı.
Bir "konu katmanı" ile her katılımcının beyin verilerine göre uyarlanan evrişimli bir sinir ağı, bireyselleştirmeyi geliştirdi.
Model, 169 katılımcının 15.000 saatlik konuşma verisinden oluşan halka açık veri kümeleri üzerinde eğitildi. Ayrıca şunu da unutmayın: yeni görünmeyen cümleler üzerinde yapılan testler, etkileyici bir sıfır atış kod çözme yeteneği gösterdi.
Model, 3 saniyelik konuşma bölümleri için 1.500'den fazla olasılık arasından eşleşen bölümü şu şekilde tanımlayabiliyor:
Bu, invaziv olmayan sensörler kullanılarak yapılan konuşma kod çözme konusundaki önceki girişimlere göre çarpıcı bir gelişmeyi temsil ediyor. Bu aynı zamanda invaziv beyin implantlarının kullanıldığı çalışmalarda elde edilen doğruluğa da yaklaşmaktadır.
Kelime düzeyinde model, MEG sinyallerinden tek tek kelimeleri tanımlamada %44'lük en yüksek doğruluğa ulaştı. Sinirsel aktivitenin müdahalesiz kayıtlarından kelimeleri doğrudan çözme yeteneği, %44 verimlilikle bile önemli bir kilometre taşıdır.
Bu araştırma, yeterli ilerleme sağlandığında, konuşma kod çözme algoritmalarının bir gün nörolojik rahatsızlıkları olan hastaların akıcı bir şekilde iletişim kurmasına yardımcı olabileceğine dair umut veriyor.
EEG ve MEG sensörleri, cerrahi olarak implante edilen elektrotlar yerine beynin konuşma niyetini potansiyel olarak dinleyebilir. Gelişmiş yapay zeka daha sonra sessizlere ses vermek için kelimeleri ve cümleleri anında sentezleyebiliyor.
Kendi seslerinin benzersiz yeni düşünce ve duyguları ifade ettiğini duymak, hastalara kimlik ve özerklik kazandırmaya yardımcı olabilir. Sosyal etkileşimi, duygusal sağlığı ve yaşam kalitesini gerçekten iyileştirebilir.
Son derece umut verici olsa da, bu teknolojinin tıbbi uygulamaya hazır hale gelmesinden önce pek çok zorluk devam ediyor. Bunlardan en büyüğü, mevcut doğruluğun, önceki girişimlerin çok ötesinde olmasına rağmen, doğal konuşmalar için hala çok düşük olmasıdır.
Dahası, aktif konuşma üretimi sırasındaki beyin sinyalleri, burada test edilen pasif dinleme senaryosundan oldukça farklı olabilir. Modellerin doğru olduğundan emin olmak için katılımcılar konuşurken veya konuşmayı hayal ederken kaydedilen veri kümeleri üzerinde daha fazla araştırma yapılması gerekecektir.
Son olarak, EEG ve MEG sinyalleri kas hareketlerinden ve diğer yapay etkenlerden kaynaklanan girişimlere karşı hassastır. Konuşmayla ilgili sinir sinyallerini izole etmek için güçlü algoritmalara ihtiyaç duyulacak.
Bu çalışma sinir bilimi ile yapay zekanın kesişiminde bir dönüm noktasını temsil ediyor. Güçlü derin öğrenme yaklaşımlarından ve büyük veri kümelerinden yararlanan araştırmacılar, müdahalesiz beyin sinyallerinden konuşmanın kodunu çözmede mümkün olanın sınırlarını zorladı.
Teknikleri daha ileri ilerlemeler için sağlam bir temel sağlıyor. Titiz araştırmalar ve sorumlu geliştirmelerle bu teknoloji, bir gün nörolojik rahatsızlıkları ve konuşma kaybı olan hastaların doğal iletişim yeteneklerini geri kazanmalarına yardımcı olabilir. Bu, sessizlerin sesini geri verme yolundaki uzun yolda önemli bir kilometre taşıdır.