paint-brush
शोधकर्ता मस्तिष्क तरंगों से भाषण को डिकोड करते हैं: क्या एआई अब दिमाग पढ़ सकता है?द्वारा@mikeyoung44
201 रीडिंग

शोधकर्ता मस्तिष्क तरंगों से भाषण को डिकोड करते हैं: क्या एआई अब दिमाग पढ़ सकता है?

द्वारा Mike Young4m2023/10/09
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

एक नया अध्ययन गैर-आक्रामक मस्तिष्क रिकॉर्डिंग से सीधे भाषण को डिकोड करने के लिए एक रोमांचक नया दृष्टिकोण प्रस्तुत करता है। यह उन रोगियों में संचार क्षमताओं को बहाल करने का मार्ग प्रशस्त कर सकता है जो बोलने की क्षमता खो चुके हैं। हर साल, हजारों लोग मस्तिष्क की चोटों, स्ट्रोक, एएलएस और अन्य न्यूरोलॉजिकल स्थितियों के कारण बोलने की क्षमता खो देते हैं।
featured image - शोधकर्ता मस्तिष्क तरंगों से भाषण को डिकोड करते हैं: क्या एआई अब दिमाग पढ़ सकता है?
Mike Young HackerNoon profile picture
0-item
1-item


हाल ही में एक पेपर प्रकाशित हुआ arXiv गैर-आक्रामक मस्तिष्क रिकॉर्डिंग से सीधे भाषण को डिकोड करने के लिए एक रोमांचक नया दृष्टिकोण प्रस्तुत करता है। यह उन रोगियों में संचार क्षमताओं को बहाल करने का मार्ग प्रशस्त कर सकता है जो न्यूरोलॉजिकल स्थितियों के कारण बोलने की क्षमता खो चुके हैं। अध्ययन आशा प्रदान करता है कि निरंतर शोध के साथ, गैर-आक्रामक मस्तिष्क डिकोडिंग बेजुबानों को आवाज दे सकता है।


उन्होंने यह कैसे पता लगाया कि मस्तिष्क की रिकॉर्डिंग को भाषण में कैसे बदला जाए?


चलो देखते हैं।


वाणी हानि की चुनौती

संवाद करने में असमर्थ होना विनाशकारी हो सकता है। मस्तिष्क की चोटों, स्ट्रोक, एएलएस और अन्य न्यूरोलॉजिकल स्थितियों के कारण हर साल हजारों लोग बोलने की क्षमता खो देते हैं। मरीज़ अपने ही मन में फंस जाते हैं और अपने विचारों, भावनाओं, ज़रूरतों और इच्छाओं को व्यक्त करने में असमर्थ हो जाते हैं। इससे उनके जीवन की गुणवत्ता बहुत कम हो जाती है और उनकी स्वायत्तता और गरिमा ख़त्म हो जाती है।


वाणी को पुनः स्थापित करना एक अत्यंत कठिन चुनौती है। आक्रामक मस्तिष्क-कंप्यूटर इंटरफेस जो मस्तिष्क में इलेक्ट्रोड प्रत्यारोपित करते हैं, रोगियों को अपने विचारों के साथ टाइप करने की अनुमति दे सकते हैं। लेकिन मस्तिष्क संकेतों से प्राकृतिक भाषण को संश्लेषित करना - इलेक्ट्रोड के बिना - मायावी बना हुआ है।



एक नवीन भाषण डिकोडिंग दृष्टिकोण

इस नए अध्ययन में , शोधकर्ताओं ने गैर-आक्रामक मस्तिष्क रिकॉर्डिंग का विश्लेषण करने के लिए एक गहन शिक्षण मॉडल का उपयोग किया क्योंकि प्रतिभागियों ने निष्क्रिय रूप से भाषण सुना। इलेक्ट्रोएन्सेफलोग्राफी (ईईजी) और मैग्नेटोएन्सेफलोग्राफी (एमईजी) सेंसर ने मस्तिष्क के संकेतों को पकड़ लिया।


मॉडल को संबंधित मस्तिष्क गतिविधि पैटर्न से भाषण ऑडियो के प्रतिनिधित्व की भविष्यवाणी करने के लिए प्रशिक्षित किया गया था। इसने इसे सबसे संभावित भाषण प्रतिनिधित्व के साथ नई मस्तिष्क रिकॉर्डिंग का मिलान करके भाषण को डिकोड करने की अनुमति दी।



तीन प्रमुख नवाचार शामिल थे:


  • प्रशिक्षण के लिए कंट्रास्टिव लॉस फ़ंक्शन का उपयोग करना पारंपरिक पर्यवेक्षित शिक्षण दृष्टिकोण की तुलना में अधिक प्रभावी साबित हुआ। इस हानि ने मॉडल को वाक् अव्यक्तता की पहचान करने के लिए प्रोत्साहित किया जो मस्तिष्क की अव्यक्तता के साथ अधिकतम रूप से संरेखित थी।


  • Wav2vec 2.0 मॉडल से शक्तिशाली पूर्व-प्रशिक्षित भाषण अभ्यावेदन का लाभ उठाने से पहले इस्तेमाल किए गए हाथ से इंजीनियर भाषण सुविधाओं की तुलना में समृद्ध भाषण डेटा प्रदान किया गया।


  • "विषय परत" के साथ प्रत्येक प्रतिभागी के मस्तिष्क डेटा के अनुरूप एक दृढ़ तंत्रिका नेटवर्क ने वैयक्तिकरण में सुधार किया।


मॉडल को सार्वजनिक डेटासेट पर प्रशिक्षित किया गया था जिसमें 169 प्रतिभागियों के 15,000 घंटे के भाषण डेटा शामिल थे। यह भी ध्यान दें: नए अनदेखे वाक्यों पर परीक्षण ने प्रभावशाली शून्य-शॉट डिकोडिंग क्षमता का प्रदर्शन किया।



सटीकता में महत्वपूर्ण सुधार

भाषण के 3-सेकंड खंडों के लिए, मॉडल 1,500 से अधिक संभावनाओं में से मेल खाने वाले खंड की पहचान कर सकता है:


  • एमईजी रिकॉर्डिंग के लिए 73% तक सटीकता
  • ईईजी रिकॉर्डिंग के लिए 19% तक सटीकता


यह गैर-आक्रामक सेंसर का उपयोग करके भाषण डिकोडिंग के पिछले प्रयासों की तुलना में एक नाटकीय सुधार का प्रतिनिधित्व करता है। यह आक्रामक मस्तिष्क प्रत्यारोपण का उपयोग करके अध्ययनों में प्राप्त सटीकता तक भी पहुंचता है।


शब्द स्तर पर, मॉडल ने एमईजी संकेतों से व्यक्तिगत शब्दों की पहचान करने में 44% शीर्ष सटीकता हासिल की। तंत्रिका गतिविधि की गैर-आक्रामक रिकॉर्डिंग से शब्दों को सीधे डिकोड करने की यह क्षमता 44% प्रभावशीलता पर भी एक प्रमुख मील का पत्थर है।



प्राकृतिक वाणी को बहाल करने की क्षमता

यह शोध आशा प्रदान करता है कि पर्याप्त प्रगति के साथ, भाषण-डिकोडिंग एल्गोरिदम एक दिन न्यूरोलॉजिकल स्थितियों वाले रोगियों को धाराप्रवाह संवाद करने में मदद कर सकता है।


शल्य चिकित्सा द्वारा प्रत्यारोपित इलेक्ट्रोड के बजाय, ईईजी और एमईजी सेंसर संभावित रूप से मस्तिष्क के बोलने के इरादे को सुन सकते हैं। उन्नत एआई बेजुबानों को आवाज देने के लिए तुरंत शब्दों और वाक्यों को संश्लेषित कर सकता है।


अद्वितीय नवीन विचारों और भावनाओं को व्यक्त करने वाली अपनी आवाज़ सुनने से रोगियों को पहचान और स्वायत्तता बहाल करने में मदद मिल सकती है। यह वास्तव में सामाजिक संपर्क, भावनात्मक स्वास्थ्य और जीवन की गुणवत्ता में सुधार कर सकता है।



शेष चुनौतियाँ

अत्यधिक आशाजनक होते हुए भी, इस तकनीक के चिकित्सा अनुप्रयोग के लिए तैयार होने से पहले कई चुनौतियाँ बनी हुई हैं। सबसे बड़ी बात यह है कि वर्तमान सटीकता, पिछले प्रयासों से कहीं अधिक है, फिर भी प्राकृतिक बातचीत के लिए बहुत कम है।


इसके अलावा, सक्रिय भाषण उत्पादन के दौरान मस्तिष्क के संकेत यहां परीक्षण किए गए निष्क्रिय श्रवण परिदृश्य से काफी भिन्न हो सकते हैं। प्रतिभागियों के बोलने या बोलने की कल्पना करते समय रिकॉर्ड किए गए डेटासेट पर आगे के शोध की आवश्यकता होगी ताकि यह सुनिश्चित किया जा सके कि मॉडल सटीक हैं।


अंत में, ईईजी और एमईजी सिग्नल मांसपेशियों की गतिविधियों और अन्य कलाकृतियों के हस्तक्षेप के प्रति संवेदनशील होते हैं। भाषण-संबंधी तंत्रिका संकेतों को अलग करने के लिए मजबूत एल्गोरिदम की आवश्यकता होगी।



एक महत्वपूर्ण सीमा पर एक मील का पत्थर

यह अध्ययन तंत्रिका विज्ञान और कृत्रिम बुद्धिमत्ता के अंतर्संबंध में एक मील का पत्थर दर्शाता है। शक्तिशाली गहन शिक्षण दृष्टिकोण और बड़े डेटासेट का लाभ उठाते हुए, शोधकर्ताओं ने गैर-आक्रामक मस्तिष्क संकेतों से भाषण को डिकोड करने में जो संभव है उसकी सीमाओं को आगे बढ़ाया है।

उनकी तकनीकें आगे की प्रगति के लिए एक ठोस आधार प्रदान करती हैं। कठोर अनुसंधान और जिम्मेदार विकास के साथ, यह तकनीक एक दिन न्यूरोलॉजिकल स्थितियों और भाषण हानि से पीड़ित रोगियों को प्राकृतिक संचार क्षमताओं को बहाल करने में मदद कर सकती है। बेजुबानों को आवाज वापस देने की लंबी यात्रा में यह एक महत्वपूर्ण मील का पत्थर है।


सदस्यता लें या मुझे फ़ॉलो करें ट्विटर इस तरह की और अधिक सामग्री के लिए!