हाल ही में एक पेपर प्रकाशित हुआ  गैर-आक्रामक मस्तिष्क रिकॉर्डिंग से सीधे भाषण को डिकोड करने के लिए एक रोमांचक नया दृष्टिकोण प्रस्तुत करता है। यह उन रोगियों में संचार क्षमताओं को बहाल करने का मार्ग प्रशस्त कर सकता है जो न्यूरोलॉजिकल स्थितियों के कारण बोलने की क्षमता खो चुके हैं। अध्ययन आशा प्रदान करता है कि निरंतर शोध के साथ, गैर-आक्रामक मस्तिष्क डिकोडिंग बेजुबानों को आवाज दे सकता है।   arXiv  उन्होंने यह कैसे पता लगाया कि मस्तिष्क की रिकॉर्डिंग को भाषण में कैसे बदला जाए?  चलो देखते हैं।  वाणी हानि की चुनौती  संवाद करने में असमर्थ होना विनाशकारी हो सकता है। मस्तिष्क की चोटों, स्ट्रोक, एएलएस और अन्य न्यूरोलॉजिकल स्थितियों के कारण हर साल हजारों लोग बोलने की क्षमता खो देते हैं। मरीज़ अपने ही मन में फंस जाते हैं और अपने विचारों, भावनाओं, ज़रूरतों और इच्छाओं को व्यक्त करने में असमर्थ हो जाते हैं। इससे उनके जीवन की गुणवत्ता बहुत कम हो जाती है और उनकी स्वायत्तता और गरिमा ख़त्म हो जाती है।  वाणी को पुनः स्थापित करना एक अत्यंत कठिन चुनौती है। आक्रामक मस्तिष्क-कंप्यूटर इंटरफेस जो मस्तिष्क में इलेक्ट्रोड प्रत्यारोपित करते हैं, रोगियों को अपने विचारों के साथ टाइप करने की अनुमति दे सकते हैं। लेकिन मस्तिष्क संकेतों से प्राकृतिक भाषण को संश्लेषित करना - इलेक्ट्रोड के बिना - मायावी बना हुआ है।  एक नवीन भाषण डिकोडिंग दृष्टिकोण  , शोधकर्ताओं ने गैर-आक्रामक मस्तिष्क रिकॉर्डिंग का विश्लेषण करने के लिए एक   मॉडल का उपयोग किया क्योंकि प्रतिभागियों ने निष्क्रिय रूप से भाषण सुना। इलेक्ट्रोएन्सेफलोग्राफी (ईईजी) और मैग्नेटोएन्सेफलोग्राफी (एमईजी) सेंसर ने मस्तिष्क के संकेतों को पकड़ लिया।   इस नए अध्ययन में गहन शिक्षण  मॉडल को संबंधित मस्तिष्क गतिविधि पैटर्न से भाषण ऑडियो के प्रतिनिधित्व की भविष्यवाणी करने के लिए प्रशिक्षित किया गया था। इसने इसे सबसे संभावित भाषण प्रतिनिधित्व के साथ नई मस्तिष्क रिकॉर्डिंग का मिलान करके भाषण को डिकोड करने की अनुमति दी।   तीन प्रमुख नवाचार शामिल थे:  प्रशिक्षण के लिए   उपयोग करना पारंपरिक पर्यवेक्षित शिक्षण दृष्टिकोण की तुलना में अधिक प्रभावी साबित हुआ। इस हानि ने मॉडल को वाक् अव्यक्तता की पहचान करने के लिए प्रोत्साहित किया जो मस्तिष्क की अव्यक्तता के साथ अधिकतम रूप से संरेखित थी। कंट्रास्टिव लॉस फ़ंक्शन का  Wav2vec 2.0 मॉडल से शक्तिशाली   लाभ उठाने से पहले इस्तेमाल किए गए हाथ से इंजीनियर भाषण सुविधाओं की तुलना में समृद्ध भाषण डेटा प्रदान किया गया। पूर्व-प्रशिक्षित भाषण अभ्यावेदन का  "विषय परत" के साथ प्रत्येक प्रतिभागी के मस्तिष्क डेटा के अनुरूप एक   वैयक्तिकरण में सुधार किया। दृढ़ तंत्रिका नेटवर्क ने  मॉडल को सार्वजनिक डेटासेट पर प्रशिक्षित किया गया था जिसमें 169 प्रतिभागियों के 15,000 घंटे के भाषण डेटा शामिल थे। यह भी ध्यान दें: नए अनदेखे वाक्यों पर परीक्षण ने प्रभावशाली शून्य-शॉट डिकोडिंग क्षमता का प्रदर्शन किया।  सटीकता में महत्वपूर्ण सुधार  भाषण के 3-सेकंड खंडों के लिए, मॉडल 1,500 से अधिक संभावनाओं में से मेल खाने वाले खंड की पहचान कर सकता है:  एमईजी रिकॉर्डिंग के लिए 73% तक सटीकता  ईईजी रिकॉर्डिंग के लिए 19% तक सटीकता  यह गैर-आक्रामक सेंसर का उपयोग करके भाषण डिकोडिंग के पिछले प्रयासों की तुलना में एक नाटकीय सुधार का प्रतिनिधित्व करता है। यह आक्रामक मस्तिष्क प्रत्यारोपण का उपयोग करके अध्ययनों में प्राप्त सटीकता तक भी पहुंचता है।  शब्द स्तर पर, मॉडल ने एमईजी संकेतों से व्यक्तिगत शब्दों की पहचान करने में 44% शीर्ष सटीकता हासिल की। तंत्रिका गतिविधि की गैर-आक्रामक रिकॉर्डिंग से शब्दों को सीधे डिकोड करने की यह क्षमता 44% प्रभावशीलता पर भी एक प्रमुख मील का पत्थर है।  प्राकृतिक वाणी को बहाल करने की क्षमता  यह शोध आशा प्रदान करता है कि पर्याप्त प्रगति के साथ, भाषण-डिकोडिंग एल्गोरिदम एक दिन न्यूरोलॉजिकल स्थितियों वाले रोगियों को धाराप्रवाह संवाद करने में मदद कर सकता है।  शल्य चिकित्सा द्वारा प्रत्यारोपित इलेक्ट्रोड के बजाय, ईईजी और एमईजी सेंसर संभावित रूप से मस्तिष्क के बोलने के इरादे को सुन सकते हैं। उन्नत एआई बेजुबानों को आवाज देने के लिए तुरंत शब्दों और वाक्यों को संश्लेषित कर सकता है।  अद्वितीय नवीन विचारों और भावनाओं को व्यक्त करने वाली अपनी आवाज़ सुनने से रोगियों को पहचान और स्वायत्तता बहाल करने में मदद मिल सकती है। यह वास्तव में सामाजिक संपर्क, भावनात्मक स्वास्थ्य और जीवन की गुणवत्ता में सुधार कर सकता है।  शेष चुनौतियाँ  अत्यधिक आशाजनक होते हुए भी, इस तकनीक के चिकित्सा अनुप्रयोग के लिए तैयार होने से पहले कई चुनौतियाँ बनी हुई हैं। सबसे बड़ी बात यह है कि वर्तमान सटीकता, पिछले प्रयासों से कहीं अधिक है, फिर भी प्राकृतिक बातचीत के लिए बहुत कम है।  इसके अलावा, सक्रिय भाषण उत्पादन के दौरान मस्तिष्क के संकेत यहां परीक्षण किए गए निष्क्रिय श्रवण परिदृश्य से काफी भिन्न हो सकते हैं। प्रतिभागियों के बोलने या बोलने की कल्पना करते समय रिकॉर्ड किए गए डेटासेट पर आगे के शोध की आवश्यकता होगी ताकि यह सुनिश्चित किया जा सके कि मॉडल सटीक हैं।  अंत में, ईईजी और एमईजी सिग्नल मांसपेशियों की गतिविधियों और अन्य कलाकृतियों के हस्तक्षेप के प्रति संवेदनशील होते हैं। भाषण-संबंधी तंत्रिका संकेतों को अलग करने के लिए मजबूत एल्गोरिदम की आवश्यकता होगी।  एक महत्वपूर्ण सीमा पर एक मील का पत्थर  यह अध्ययन तंत्रिका विज्ञान और कृत्रिम बुद्धिमत्ता के अंतर्संबंध में एक मील का पत्थर दर्शाता है। शक्तिशाली गहन शिक्षण दृष्टिकोण और बड़े डेटासेट का लाभ उठाते हुए, शोधकर्ताओं ने गैर-आक्रामक मस्तिष्क संकेतों से भाषण को डिकोड करने में जो संभव है उसकी सीमाओं को आगे बढ़ाया है।  उनकी तकनीकें आगे की प्रगति के लिए एक ठोस आधार प्रदान करती हैं। कठोर अनुसंधान और जिम्मेदार विकास के साथ, यह तकनीक एक दिन न्यूरोलॉजिकल स्थितियों और भाषण हानि से पीड़ित रोगियों को प्राकृतिक संचार क्षमताओं को बहाल करने में मदद कर सकती है। बेजुबानों को आवाज वापस देने की लंबी यात्रा में यह एक महत्वपूर्ण मील का पत्थर है।   यहाँ भी प्रकाशित किया गया।       सदस्यता लें या मुझे फ़ॉलो करें   ट्विटर इस तरह की और अधिक सामग्री के लिए!

This story contains new, firsthand information uncovered by the writer.

Hot off the press! This story contains factual information about a recent event.

Tell me why my site sucks so I can make it better. Be mean.

Read My Stories

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

शोधकर्ता मस्तिष्क तरंगों से भाषण को डिकोड करते हैं: क्या एआई अब दिमाग पढ़ सकता है?

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

डिजिटल खानाबदोशों सुनो: थाईलैंड के नए डीटीवी वीज़ा के बारे में आपको क्या जानना चाहिए

उपयोगकर्ता-केंद्रित क्रिप्टो उत्पाद बनाना: ग्राहक प्रतिक्रिया का महत्व

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

फ्लोकी का वल्लाह भारत के श्रीलंका दौरे के लिए सहयोगी प्रायोजक के रूप में शामिल हुआ

डिजिटल खानाबदोशों सुनो: थाईलैंड के नए डीटीवी वीज़ा के बारे में आपको क्या जानना चाहिए

उपयोगकर्ता-केंद्रित क्रिप्टो उत्पाद बनाना: ग्राहक प्रतिक्रिया का महत्व

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

फ्लोकी का वल्लाह भारत के श्रीलंका दौरे के लिए सहयोगी प्रायोजक के रूप में शामिल हुआ

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps