সম্প্রতি প্রকাশিত একটি গবেষণাপত্র
মস্তিষ্কের রেকর্ডিংকে কীভাবে বক্তৃতায় পরিণত করা যায় তা তারা কীভাবে আবিষ্কার করেছিল?
দেখা যাক.
যোগাযোগ করতে অক্ষম হওয়া ধ্বংসাত্মক হতে পারে। মস্তিষ্কের আঘাত, স্ট্রোক, এএলএস এবং অন্যান্য স্নায়বিক অবস্থার কারণে প্রতি বছর হাজার হাজার মানুষ কথা বলার ক্ষমতা হারিয়ে ফেলে। রোগীরা তাদের মনের ভিতরে আটকা পড়ে, তাদের চিন্তা, অনুভূতি, চাহিদা এবং ইচ্ছা প্রকাশ করতে অক্ষম। এটি তাদের জীবনযাত্রার মানকে গভীরভাবে হ্রাস করে এবং তাদের স্বায়ত্তশাসন ও মর্যাদাকে সরিয়ে দেয়।
বক্তৃতা পুনরুদ্ধার করা একটি অত্যন্ত কঠিন চ্যালেঞ্জ। আক্রমণাত্মক মস্তিষ্ক-কম্পিউটার ইন্টারফেস যা মস্তিষ্কে ইলেক্ট্রোড ইমপ্লান্ট করে রোগীদের তাদের চিন্তাভাবনা দিয়ে টাইপ করতে দেয়। কিন্তু মস্তিষ্কের সংকেত থেকে প্রাকৃতিক বক্তৃতা সংশ্লেষণ করা - ইলেক্ট্রোড ছাড়াই - অধরা থেকে গেছে।
মডেলটিকে সংশ্লিষ্ট মস্তিষ্কের কার্যকলাপের নিদর্শন থেকে বক্তৃতা অডিওর উপস্থাপনা ভবিষ্যদ্বাণী করার জন্য প্রশিক্ষণ দেওয়া হয়েছিল। এটি এটিকে নতুন মস্তিষ্কের রেকর্ডিংগুলিকে সর্বাধিক সম্ভাব্য বক্তৃতা উপস্থাপনের সাথে মিলিয়ে স্পিচ ডিকোড করার অনুমতি দেয়।
তিনটি মূল উদ্ভাবন জড়িত ছিল:
প্রশিক্ষণের জন্য একটি বিপরীত ক্ষতির ফাংশন ব্যবহার করা ঐতিহ্যগত তত্ত্বাবধানে শেখার পদ্ধতির চেয়ে বেশি কার্যকর প্রমাণিত হয়েছে। এই ক্ষতি মডেলটিকে স্পিচ ল্যাটেন্টগুলি সনাক্ত করতে উত্সাহিত করেছিল যা মস্তিষ্কের প্রচ্ছন্নতার সাথে সর্বাধিক সংযুক্ত ছিল।
wav2vec 2.0 মডেল থেকে শক্তিশালী প্রাক-প্রশিক্ষিত বক্তৃতা উপস্থাপনা পূর্বে ব্যবহৃত হ্যান্ড-ইঞ্জিনিয়ারড বক্তৃতা বৈশিষ্ট্যগুলির তুলনায় সমৃদ্ধ বক্তৃতা ডেটা সরবরাহ করে।
একটি "সাবজেক্ট লেয়ার" উন্নত স্বতন্ত্রীকরণের সাথে প্রতিটি অংশগ্রহণকারীর মস্তিষ্কের ডেটার জন্য তৈরি একটি কনভোলিউশনাল নিউরাল নেটওয়ার্ক ।
মডেলটি 169 জন অংশগ্রহণকারীর 15,000 ঘন্টা বক্তৃতা ডেটা সমন্বিত পাবলিক ডেটাসেটের উপর প্রশিক্ষিত হয়েছিল। এছাড়াও লক্ষণীয়: নতুন অদেখা বাক্যগুলির পরীক্ষা একটি চিত্তাকর্ষক জিরো-শট ডিকোডিং ক্ষমতা প্রদর্শন করেছে।
বক্তৃতার 3-সেকেন্ডের অংশগুলির জন্য, মডেলটি 1,500 টিরও বেশি সম্ভাবনার সাথে মিলিত অংশটিকে চিহ্নিত করতে পারে:
এটি নন-ইনভেসিভ সেন্সর ব্যবহার করে স্পিচ ডিকোডিংয়ের পূর্ববর্তী প্রচেষ্টার তুলনায় নাটকীয় উন্নতির প্রতিনিধিত্ব করে। এটি আক্রমণাত্মক মস্তিষ্ক ইমপ্লান্ট ব্যবহার করে গবেষণায় অর্জিত নির্ভুলতার দিকেও যায়।
শব্দ স্তরে, মডেলটি MEG সংকেত থেকে পৃথক শব্দ সনাক্ত করার ক্ষেত্রে 44% শীর্ষ নির্ভুলতা অর্জন করেছে। নিউরাল কার্যকলাপের অ-আক্রমণকারী রেকর্ডিং থেকে সরাসরি শব্দগুলি ডিকোড করার এই ক্ষমতা একটি বড় মাইলফলক, এমনকি 44% কার্যকারিতাতেও।
এই গবেষণা আশা করে যে পর্যাপ্ত অগ্রগতির সাথে, স্পিচ-ডিকোডিং অ্যালগরিদম একদিন স্নায়বিক অবস্থার রোগীদের সাবলীলভাবে যোগাযোগ করতে সাহায্য করতে পারে।
অস্ত্রোপচারের মাধ্যমে প্রতিস্থাপিত ইলেক্ট্রোডের পরিবর্তে, ইইজি এবং এমইজি সেন্সরগুলি সম্ভবত কথা বলার মস্তিষ্কের অভিপ্রায় শুনতে পারে। অ্যাডভান্সড এআই তখন শব্দ ও বাক্যকে ফ্লাইতে সংশ্লেষিত করে ভয়েসহীনকে কণ্ঠ দিতে পারে।
তাদের নিজস্ব কণ্ঠস্বর শুনে অভিনব অভিনব চিন্তাভাবনা এবং অনুভূতি প্রকাশ করা রোগীদের পরিচয় এবং স্বায়ত্তশাসন পুনরুদ্ধার করতে সহায়তা করতে পারে। এটি সত্যিই সামাজিক মিথস্ক্রিয়া, মানসিক স্বাস্থ্য এবং জীবনের মান উন্নত করতে পারে।
অত্যন্ত প্রতিশ্রুতিশীল হলেও, এই প্রযুক্তি চিকিৎসা প্রয়োগের জন্য প্রস্তুত হওয়ার আগে অনেক চ্যালেঞ্জ রয়ে গেছে। সবচেয়ে বড়টি হল বর্তমান নির্ভুলতা, যদিও পূর্ববর্তী প্রচেষ্টার চেয়ে অনেক বেশি, স্বাভাবিক কথোপকথনের জন্য এখনও খুব কম।
আরও কী, সক্রিয় বক্তৃতা উত্পাদনের সময় মস্তিষ্কের সংকেতগুলি এখানে পরীক্ষা করা নিষ্ক্রিয় শোনার দৃশ্য থেকে যথেষ্ট আলাদা হতে পারে। মডেলগুলি সঠিক কিনা তা নিশ্চিত করার জন্য অংশগ্রহণকারীদের কথা বলার বা কল্পনা করার সময় রেকর্ড করা ডেটাসেটের উপর আরও গবেষণার প্রয়োজন হবে।
অবশেষে, ইইজি এবং এমইজি সংকেত পেশী আন্দোলন এবং অন্যান্য শিল্পকর্ম থেকে হস্তক্ষেপের জন্য সংবেদনশীল। বক্তৃতা-সম্পর্কিত স্নায়ু সংকেত বিচ্ছিন্ন করার জন্য শক্তিশালী অ্যালগরিদম প্রয়োজন হবে।
এই গবেষণাটি স্নায়ুবিজ্ঞান এবং কৃত্রিম বুদ্ধিমত্তার সংযোগস্থলে একটি মাইলফলক উপস্থাপন করে। শক্তিশালী গভীর শিক্ষা পদ্ধতি এবং বৃহৎ ডেটাসেটগুলিকে কাজে লাগিয়ে, গবেষকরা অ-আক্রমণাত্মক মস্তিষ্কের সংকেত থেকে বক্তৃতা ডিকোড করার ক্ষেত্রে কী সম্ভব তার সীমারেখা ঠেলে দিয়েছেন।
তাদের কৌশলগুলি আরও অগ্রগতির জন্য একটি শক্ত ভিত্তি প্রদান করে। কঠোর গবেষণা এবং দায়িত্বশীল বিকাশের সাথে, এই প্রযুক্তি একদিন স্নায়বিক অবস্থা এবং বক্তৃতা হ্রাসে ভুগছেন এমন রোগীদের স্বাভাবিক যোগাযোগ ক্ষমতা পুনরুদ্ধার করতে সহায়তা করতে পারে। কণ্ঠহীনদের কণ্ঠস্বর ফিরিয়ে দেওয়ার দীর্ঘ পথে এটি একটি গুরুত্বপূর্ণ মাইলফলক।
এছাড়াও এখানে প্রকাশিত.