हाल ही में एक पेपर प्रकाशित हुआ
उन्होंने यह कैसे पता लगाया कि मस्तिष्क की रिकॉर्डिंग को भाषण में कैसे बदला जाए?
चलो देखते हैं।
संवाद करने में असमर्थ होना विनाशकारी हो सकता है। मस्तिष्क की चोटों, स्ट्रोक, एएलएस और अन्य न्यूरोलॉजिकल स्थितियों के कारण हर साल हजारों लोग बोलने की क्षमता खो देते हैं। मरीज़ अपने ही मन में फंस जाते हैं और अपने विचारों, भावनाओं, ज़रूरतों और इच्छाओं को व्यक्त करने में असमर्थ हो जाते हैं। इससे उनके जीवन की गुणवत्ता बहुत कम हो जाती है और उनकी स्वायत्तता और गरिमा ख़त्म हो जाती है।
वाणी को पुनः स्थापित करना एक अत्यंत कठिन चुनौती है। आक्रामक मस्तिष्क-कंप्यूटर इंटरफेस जो मस्तिष्क में इलेक्ट्रोड प्रत्यारोपित करते हैं, रोगियों को अपने विचारों के साथ टाइप करने की अनुमति दे सकते हैं। लेकिन मस्तिष्क संकेतों से प्राकृतिक भाषण को संश्लेषित करना - इलेक्ट्रोड के बिना - मायावी बना हुआ है।
मॉडल को संबंधित मस्तिष्क गतिविधि पैटर्न से भाषण ऑडियो के प्रतिनिधित्व की भविष्यवाणी करने के लिए प्रशिक्षित किया गया था। इसने इसे सबसे संभावित भाषण प्रतिनिधित्व के साथ नई मस्तिष्क रिकॉर्डिंग का मिलान करके भाषण को डिकोड करने की अनुमति दी।
तीन प्रमुख नवाचार शामिल थे:
प्रशिक्षण के लिए कंट्रास्टिव लॉस फ़ंक्शन का उपयोग करना पारंपरिक पर्यवेक्षित शिक्षण दृष्टिकोण की तुलना में अधिक प्रभावी साबित हुआ। इस हानि ने मॉडल को वाक् अव्यक्तता की पहचान करने के लिए प्रोत्साहित किया जो मस्तिष्क की अव्यक्तता के साथ अधिकतम रूप से संरेखित थी।
Wav2vec 2.0 मॉडल से शक्तिशाली पूर्व-प्रशिक्षित भाषण अभ्यावेदन का लाभ उठाने से पहले इस्तेमाल किए गए हाथ से इंजीनियर भाषण सुविधाओं की तुलना में समृद्ध भाषण डेटा प्रदान किया गया।
"विषय परत" के साथ प्रत्येक प्रतिभागी के मस्तिष्क डेटा के अनुरूप एक दृढ़ तंत्रिका नेटवर्क ने वैयक्तिकरण में सुधार किया।
मॉडल को सार्वजनिक डेटासेट पर प्रशिक्षित किया गया था जिसमें 169 प्रतिभागियों के 15,000 घंटे के भाषण डेटा शामिल थे। यह भी ध्यान दें: नए अनदेखे वाक्यों पर परीक्षण ने प्रभावशाली शून्य-शॉट डिकोडिंग क्षमता का प्रदर्शन किया।
भाषण के 3-सेकंड खंडों के लिए, मॉडल 1,500 से अधिक संभावनाओं में से मेल खाने वाले खंड की पहचान कर सकता है:
यह गैर-आक्रामक सेंसर का उपयोग करके भाषण डिकोडिंग के पिछले प्रयासों की तुलना में एक नाटकीय सुधार का प्रतिनिधित्व करता है। यह आक्रामक मस्तिष्क प्रत्यारोपण का उपयोग करके अध्ययनों में प्राप्त सटीकता तक भी पहुंचता है।
शब्द स्तर पर, मॉडल ने एमईजी संकेतों से व्यक्तिगत शब्दों की पहचान करने में 44% शीर्ष सटीकता हासिल की। तंत्रिका गतिविधि की गैर-आक्रामक रिकॉर्डिंग से शब्दों को सीधे डिकोड करने की यह क्षमता 44% प्रभावशीलता पर भी एक प्रमुख मील का पत्थर है।
यह शोध आशा प्रदान करता है कि पर्याप्त प्रगति के साथ, भाषण-डिकोडिंग एल्गोरिदम एक दिन न्यूरोलॉजिकल स्थितियों वाले रोगियों को धाराप्रवाह संवाद करने में मदद कर सकता है।
शल्य चिकित्सा द्वारा प्रत्यारोपित इलेक्ट्रोड के बजाय, ईईजी और एमईजी सेंसर संभावित रूप से मस्तिष्क के बोलने के इरादे को सुन सकते हैं। उन्नत एआई बेजुबानों को आवाज देने के लिए तुरंत शब्दों और वाक्यों को संश्लेषित कर सकता है।
अद्वितीय नवीन विचारों और भावनाओं को व्यक्त करने वाली अपनी आवाज़ सुनने से रोगियों को पहचान और स्वायत्तता बहाल करने में मदद मिल सकती है। यह वास्तव में सामाजिक संपर्क, भावनात्मक स्वास्थ्य और जीवन की गुणवत्ता में सुधार कर सकता है।
अत्यधिक आशाजनक होते हुए भी, इस तकनीक के चिकित्सा अनुप्रयोग के लिए तैयार होने से पहले कई चुनौतियाँ बनी हुई हैं। सबसे बड़ी बात यह है कि वर्तमान सटीकता, पिछले प्रयासों से कहीं अधिक है, फिर भी प्राकृतिक बातचीत के लिए बहुत कम है।
इसके अलावा, सक्रिय भाषण उत्पादन के दौरान मस्तिष्क के संकेत यहां परीक्षण किए गए निष्क्रिय श्रवण परिदृश्य से काफी भिन्न हो सकते हैं। प्रतिभागियों के बोलने या बोलने की कल्पना करते समय रिकॉर्ड किए गए डेटासेट पर आगे के शोध की आवश्यकता होगी ताकि यह सुनिश्चित किया जा सके कि मॉडल सटीक हैं।
अंत में, ईईजी और एमईजी सिग्नल मांसपेशियों की गतिविधियों और अन्य कलाकृतियों के हस्तक्षेप के प्रति संवेदनशील होते हैं। भाषण-संबंधी तंत्रिका संकेतों को अलग करने के लिए मजबूत एल्गोरिदम की आवश्यकता होगी।
यह अध्ययन तंत्रिका विज्ञान और कृत्रिम बुद्धिमत्ता के अंतर्संबंध में एक मील का पत्थर दर्शाता है। शक्तिशाली गहन शिक्षण दृष्टिकोण और बड़े डेटासेट का लाभ उठाते हुए, शोधकर्ताओं ने गैर-आक्रामक मस्तिष्क संकेतों से भाषण को डिकोड करने में जो संभव है उसकी सीमाओं को आगे बढ़ाया है।
उनकी तकनीकें आगे की प्रगति के लिए एक ठोस आधार प्रदान करती हैं। कठोर अनुसंधान और जिम्मेदार विकास के साथ, यह तकनीक एक दिन न्यूरोलॉजिकल स्थितियों और भाषण हानि से पीड़ित रोगियों को प्राकृतिक संचार क्षमताओं को बहाल करने में मदद कर सकती है। बेजुबानों को आवाज वापस देने की लंबी यात्रा में यह एक महत्वपूर्ण मील का पत्थर है।