paint-brush
গেমটির জন্য সাইন আপ করুন: এআই কি স্পোর্টস স্ট্রিমগুলিকে অ্যাক্সেসযোগ্য করে তুলতে পারে?দ্বারা@degravia
250 পড়া

গেমটির জন্য সাইন আপ করুন: এআই কি স্পোর্টস স্ট্রিমগুলিকে অ্যাক্সেসযোগ্য করে তুলতে পারে?

দ্বারা Roman Garin7m2023/09/19
Read on Terminal Reader
Read this story w/o Javascript

অতিদীর্ঘ; পড়তে

রিয়েল টাইমে সাংকেতিক ভাষায় অনুবাদ করা একটি কঠিন কাজ, এমনকি মানুষের দোভাষীদের জন্যও। এই সমস্যা সমাধানের জন্য AI ব্যবহার করা একটি খুব আকর্ষণীয় চ্যালেঞ্জ।
featured image - গেমটির জন্য সাইন আপ করুন: এআই কি স্পোর্টস স্ট্রিমগুলিকে অ্যাক্সেসযোগ্য করে তুলতে পারে?
Roman Garin HackerNoon profile picture
0-item

23 সেপ্টেম্বর হল আন্তর্জাতিক সাংকেতিক ভাষার দিবস , যেমনটি 2017 সালে জাতিসংঘ ঘোষণা করেছে। এই তারিখটি স্বপ্ন দেখার একটি ভাল উপলক্ষ (বা হতে পারে একটি লক্ষ্য নির্ধারণ) যে একটি দিন আসবে যখন সমস্ত মিডিয়া এবং প্রযুক্তি পণ্যগুলি সমানভাবে অ্যাক্সেসযোগ্য হবে সমস্ত মানুষ তাদের প্রতিবন্ধী নির্বিশেষে। আমি স্বপ্ন দেখি যে একদিন সব বধির মানুষ লাইভ স্পোর্টস স্ট্রিম দেখতে সক্ষম হবে। রিয়েল টাইমে সাংকেতিক ভাষায় অনুবাদ করা একটি কঠিন কাজ, এমনকি মানুষের দোভাষীদের জন্যও। কিন্তু যেহেতু খুব কম দক্ষ দোভাষী এবং অনেকগুলি বিভিন্ন সাইন ল্যাঙ্গুয়েজ আছে, তাই স্পোর্টস স্ট্রিমগুলি এই মুহুর্তে সত্যই সর্বজনীনভাবে অ্যাক্সেসযোগ্য হয়ে উঠতে পারে না। এই সমস্যাটি সমাধানের জন্য কৃত্রিম বুদ্ধিমত্তা (AI) ব্যবহার করা একটি খুব আকর্ষণীয় প্রযুক্তিগত চ্যালেঞ্জ এবং অবশ্যই একটি খুব ভাল কারণ। গত কয়েক বছরে এই ক্ষেত্রে অনেক কিছু করা হয়েছে, কিন্তু বাধা এখনও রয়ে গেছে। এই নিবন্ধে, আমি এই লক্ষ্যে নিবেদিত সর্বশেষ প্রযুক্তির একটি ওভারভিউ অফার করছি এবং আপনাকে এই ফলাফলগুলি নিয়ে আলোচনা করতে এবং এই ধাঁধাটি ফাটানোর জন্য অবদান রাখতে আমন্ত্রণ জানাচ্ছি।

খেলাধুলা সবার জন্য নয়?

খেলাধুলা রাজা, সময়কাল। প্রথম প্রাচীন অলিম্পিক থেকে (এবং সম্ভবত তার আগেও) এটি মানব প্রকৃতির প্রতিযোগিতামূলক অংশকে অহিংস আকারে রূপান্তরিত করতে সাহায্য করেছিল। এটি বিশ্বব্যাপী এবং রাজনৈতিক সীমানা ছাড়িয়ে লক্ষ লক্ষ মানুষকে একত্রিত করেছে। এটি আধুনিক ডিজিটাল এবং মিডিয়া মহাবিশ্বেরও শাসক। অনুসারে গবেষণা এবং বাজার, বিশ্ব ক্রীড়া বাজার 2022 সালে $486.61 বিলিয়ন থেকে 2023 সালে $512.14 বিলিয়ন একটি চক্রবৃদ্ধি বার্ষিক বৃদ্ধির হার (CAGR) 5.2% এ বৃদ্ধি পেয়েছে। ক্রীড়া বাজার 2027 সালে 5.0% এর CAGR-এ আরও বৃদ্ধি পেয়ে $623.63 বিলিয়ন হবে বলে আশা করা হচ্ছে। এটি বিশ্ব অর্থনীতির বৃদ্ধির চেয়ে দ্রুততর, যা 2022 সালের আনুমানিক 3.5% থেকে 2023 এবং 2024 উভয় ক্ষেত্রেই 3.0%-এ নেমে আসবে বলে অনুমান করা হয়েছে। আন্তর্জাতিক মুদ্রা তহবিল . 2020 সালে বিশ্বব্যাপী অনলাইন লাইভ ভিডিও স্পোর্টস স্ট্রিমিং বাজারের মূল্য ছিল $18.11 বিলিয়ন এবং প্রত্যাশিত 2028 সালে 87.33 বিলিয়ন ডলারে পৌঁছাবে। খেলাধুলার জনপ্রিয়তা আরও চিত্রিত করে, একটি 2022 নিলসেন স্পোর্টসের প্রতিবেদন প্রকাশ করেছে যে ইউএস রৈখিক টিভি বিজ্ঞাপনের আয়ের 31% লাইভ স্পোর্টস প্রোগ্রামিংয়ের উপর নির্ভর করে, যদিও উপলব্ধ সম্প্রচার প্রোগ্রাম সামগ্রীর মাত্র 2.7% স্পোর্টস অ্যাকাউন্টিং।


যাইহোক, এই বিশাল শিল্পটি বিশ্বের জনসংখ্যার একটি উল্লেখযোগ্য অংশ (আংশিক বা সম্পূর্ণ) মিস করে। জাতিসংঘ ডেটা প্রস্তাব করে যে বিশ্বে 70 মিলিয়ন বধির মানুষ রয়েছে, যা পৃথিবীর 8.05-বিলিয়ন জনসংখ্যার 10% এর চেয়েও কম। সমস্যাটি অগ্রসর হয়: বিশ্ব স্বাস্থ্য সংস্থা আশা করে যে 2050 সালের মধ্যে 2.5 বিলিয়ন মানুষ (অথবা সমস্ত মানুষের প্রায় এক চতুর্থাংশ) কিছুটা শ্রবণশক্তি হ্রাস পাবে। অবশ্যই, অনেক ক্রীড়া সম্প্রচারের সাবটাইটেল আছে। কিন্তু সমস্যা হল যে অনেক বধির মানুষের পড়তে এবং লিখতে শিখতে অসুবিধা হয়। বেশিরভাগ দেশে বধিরদের মধ্যে নিরক্ষরতার হার 75% এর উপরে , একটি সত্যিই বিস্ময়কর হার. অনেক সম্প্রচার, বিশেষ করে টিভিতে, লাইভ সাইন ল্যাঙ্গুয়েজ ইন্টারপ্রেটার আছে। কিন্তু, আবার, একটি সমস্যা আছে. সারা বিশ্বে বধির লোকেরা 300 টিরও বেশি বিভিন্ন সাইন ভাষা ব্যবহার করে এবং তাদের বেশিরভাগই পারস্পরিকভাবে দুর্বোধ্য। একটি সম্প্রচার বিশ্বব্যাপী অ্যাক্সেসযোগ্য করার জন্য 300 দোভাষী নিয়োগ করা স্পষ্টতই অসম্ভব। কিন্তু আমরা যদি পরিবর্তে একটি এআই নিয়োগ করি?

জীবনের চিহ্ন (ভাষা)

এই কাজের অসুবিধা সম্পূর্ণরূপে বোঝার জন্য, আসুন আমরা সংক্ষিপ্তভাবে আলোচনা করি যে সাংকেতিক ভাষাগুলি আসলে কী। ঐতিহাসিকভাবে, তারা প্রায়শই সাধারণ শ্রবণশক্তিতে আশীর্বাদপ্রাপ্ত ব্যক্তিদের দ্বারা ভাষা ফ্রাঙ্কা হিসাবে ব্যবহৃত হত, কিন্তু বিভিন্ন ভাষায় কথা বলত। সবচেয়ে পরিচিত উদাহরণ হল সাংকেতিক ভাষা সমতল ভারতীয়রা 19 শতকের উত্তর আমেরিকায়। বিভিন্ন উপজাতির ভাষা ভিন্ন ছিল, কিন্তু তাদের জীবনযাত্রা এবং পরিবেশ বেশ অভিন্ন ছিল, যা তাদের সাধারণ প্রতীক খুঁজে পেতে সাহায্য করেছিল। উদাহরণস্বরূপ, আকাশের বিপরীতে আঁকা একটি বৃত্তের অর্থ চাঁদ, বা চাঁদের মতো ফ্যাকাশে কিছু। যোগাযোগের অনুরূপ উপায় আফ্রিকা এবং অস্ট্রেলিয়ার উপজাতিরা ব্যবহার করেছিল।


যাইহোক, বধিরদের দ্বারা ব্যবহৃত সাংকেতিক ভাষার ক্ষেত্রে এটি হয় না। তারা প্রতিটি অঞ্চলে, দেশে স্বাধীনভাবে বিকাশ করছে এবং কখনও কখনও তারা এমনকি শহর থেকে শহরে পৃথক হয়। উদাহরণস্বরূপ, মার্কিন যুক্তরাষ্ট্রে ব্যাপকভাবে ব্যবহৃত আমেরিকান সাইন ল্যাঙ্গুয়েজ (ASL) ব্রিটিশ সাইন ল্যাঙ্গুয়েজ থেকে সম্পূর্ণ আলাদা যদিও উভয় দেশই ইংরেজিতে কথা বলে। হাস্যকরভাবে, ASL হয় ওল্ড ফ্রেঞ্চ সাইন ল্যাঙ্গুয়েজের অনেক কাছাকাছি (LSF) কারণ একজন ফরাসী বধির লোক, লরেন্ট ক্লার্ক, 19 শতকে মার্কিন যুক্তরাষ্ট্রে বধিরদের জন্য প্রথম শিক্ষকদের একজন। একটি জনপ্রিয় বিশ্বাসের বিপরীতে, কোন সত্যিকারের আন্তর্জাতিক সাইন ভাষা নেই। একটি তৈরি করার চেষ্টা ছিল গেসতুনো, যা এখন আন্তর্জাতিক সাইন ল্যাঙ্গুয়েজ নামে পরিচিত , 1951 সালে ইন্টারন্যাশনাল ফেডারেশন অফ দ্য ডেফ দ্বারা ধারনা করা হয়েছিল। যাইহোক, শ্রবণশক্তির মানুষের জন্য এটির অ্যানালগ, এস্পেরান্তো, এটি একটি সত্যিকারের সমাধান হয়ে উঠতে প্রায় ততটা জনপ্রিয় নয়।


সাংকেতিক ভাষায় অনুবাদ নিয়ে আলোচনা করার সময় আরেকটি গুরুত্বপূর্ণ বিষয় মনে রাখতে হবে, যেগুলি তাদের নিজস্ব ভাষা, আমরা যে ভাষাগুলি শুনতে পাই তার থেকে সম্পূর্ণ আলাদা। একটি খুব সাধারণ ভুল ধারণা হল যে সাংকেতিক ভাষাগুলি শ্রবণ দ্বারা কথ্য ভাষাগুলিকে অনুকরণ করছে। বিপরীতভাবে, তাদের ভাষাগত কাঠামো, ব্যাকরণ এবং বাক্য গঠন সম্পূর্ণ ভিন্ন। উদাহরণস্বরূপ, ASL এর একটি বিষয়-মন্তব্য সিনট্যাক্স রয়েছে, যখন ইংরেজি বিষয়-অবজেক্ট-ক্রিয়া নির্মাণ ব্যবহার করে। সুতরাং, সিনট্যাক্স পরিপ্রেক্ষিতে, ASL আসলে কথ্য জাপানিদের সাথে আরও ভাগ করে এটি ইংরেজির তুলনায়। সাইন বর্ণমালা আছে (তাদের সম্পর্কে আরও দেখুন এখানে ), কিন্তু এগুলি স্থান এবং মানুষের সঠিক নামের বানান করতে ব্যবহৃত হয়, শব্দ রচনা করতে নয়।

বাধা ভেঙ্গে

কথ্য এবং সাংকেতিক ভাষার সংযোগ স্থাপনের জন্য অনেক প্রচেষ্টা ছিল "রোবোটিক গ্লাভস" ব্যবহার করে অঙ্গভঙ্গি স্বীকৃতির জন্য। তাদের মধ্যে কিছু 1980 এর দশকের। সময়ের সাথে সাথে, আরো পরিশীলিত গ্যাজেট যোগ করা হয়েছে, যেমন অ্যাক্সিলোমিটার এবং সব ধরণের সেন্সর। তবে এসব চেষ্টায় সফলতা এসেছে সেরা সীমিত ছিল . এবং যাইহোক, তাদের বেশিরভাগই সাংকেতিক ভাষাগুলিকে কথ্য ভাষায় অনুবাদ করার দিকে মনোনিবেশ করেছিল, অন্যভাবে নয়। কম্পিউটার ভিশন, স্পিচ রিকগনিশন, নিউরাল নেটওয়ার্ক, মেশিন লার্নিং এবং এআই-এর সাম্প্রতিক উন্নয়ন আশা করে যে কথ্য থেকে সাংকেতিক ভাষায় সরাসরি অনুবাদও সম্ভব।


সবচেয়ে সাধারণ পথ হল সাংকেতিক ভাষা অঙ্গভঙ্গি এবং আবেগ প্রদর্শনের জন্য 3d অবতার ব্যবহার করা, বক্তৃতা এবং অন্যান্য ডেটা ইনপুট হিসাবে ব্যবহার করা। একটি উল্লেখযোগ্য বৈশিষ্ট্য এনএইচকে দ্বারা উন্নত জাপানের ব্রডকাস্ট কর্পোরেশন অ্যানিমেটেড কার্টুন-সদৃশ অবতার দ্বারা প্রদর্শিত সাইন ল্যাঙ্গুয়েজে খেলোয়াড়দের নাম, স্কোর ইত্যাদির মতো ক্রীড়া ডেটা অনুবাদ করতে সক্ষম করে৷ ইভেন্ট সংগঠক বা অন্যান্য সংস্থার কাছ থেকে প্রাপ্ত ডেটা ব্যাখ্যা করা হয় এবং টেমপ্লেটে রাখা হয় এবং তারপর অবতার দ্বারা প্রকাশ করা হয়। যাইহোক, শুধুমাত্র সীমিত ধরণের ডেটা এইভাবে অনুবাদ করা যেতে পারে। এনএইচকে বলে যে এটি প্রযুক্তির বিকাশ অব্যাহত রেখেছে যাতে অবতাররা আরও মানবিক পদ্ধতিতে আবেগ প্রকাশ করতে পারে।


লেনোভো এবং একটি ব্রাজিলিয়ান ইনোভেশন হাব CESAR সম্প্রতি ঘোষণা করা হয়েছে তারা AI নিয়োগকারী লোকদের শোনার জন্য একটি সাংকেতিক ভাষা অনুবাদক তৈরি করছিল। একইভাবে, SLAIT (যা সাইন ল্যাঙ্গুয়েজ এআই অনুবাদককে বোঝায়) বিকশিত হয়েছে একটি শিক্ষামূলক টুল যা একটি ইন্টারেক্টিভ উপায়ে ASL শিখতে সাহায্য করে। যদিও এই কাজগুলি আমাদের সুযোগের থেকে আলাদা, এই প্রকল্পগুলির দ্বারা তৈরি কম্পিউটার দৃষ্টি কৌশল এবং AI প্রশিক্ষণ মডেলগুলি ভবিষ্যতে বক্তৃতা থেকে সাংকেতিক ভাষাতে অনুবাদ প্রদানের জন্য খুব কার্যকর হতে পারে।


অন্যান্য স্টার্টআপগুলি আমাদের আলোচনার বিষয়ের কাছাকাছি আসছে। উদাহরণস্বরূপ, Signapseউঠে এল একটি সমাধান সহ যা পাঠ্যকে সাংকেতিক ভাষায় অনুবাদ করতে পারে ফটো-বাস্তববাদী অ্যানিমেটেড অবতার গতি হিসাবে প্রদর্শিত। কোম্পানি জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক এবং গভীর শিক্ষার কৌশল ব্যবহার করে, সেইসাথে একটি ক্রমাগত উন্নয়নশীল ভিডিও ডাটাবেস ব্যবহার করে (তাদের সমকক্ষ-পর্যালোচিত নিবন্ধে আরও এখানে ) যাইহোক, এই প্ল্যাটফর্মের লক্ষ্য বেশিরভাগ পাবলিক ঘোষণা এবং ওয়েবসাইটের পাঠ্য অনুবাদ করা। অন্য কথায়, এটি এখনও বাস্তব-সময়ের লাইভ অনুবাদ থেকে অনেক দূরে বলে মনে হচ্ছে।


ইসরায়েল-ভিত্তিক স্টার্টআপ CODA আমাদের লক্ষ্যে আরও এক ধাপ এগিয়েছে। এটি একটি AI-চালিত অডিও-টু-সাইন ট্রান্সলেশন টুল তৈরি করেছে এবং দাবি করে যে এটি কাজ করে "প্রায় সাথে সাথে" . এটি বর্তমানে পাঁচটি উৎস ভাষায় তার পরিষেবা প্রদান করে: ইংরেজি, হিব্রু, ফরাসি, স্প্যানিশ এবং ইতালীয়। পরবর্তীতে, CODA-এর লক্ষ্য ভারত এবং চীনের মতো উচ্চ জনসংখ্যার দেশগুলির একাধিক ভিন্ন সাংকেতিক ভাষা যোগ করা।


যুক্তিযুক্তভাবে আমাদের স্বপ্নের সবচেয়ে কাছের মিলটি Baidu AI ক্লাউড তার ডিজিটাল অবতার প্ল্যাটফর্ম Xiling-এ উপস্থাপন করেছে। প্লাটফর্ম চালু করা হয় বেইজিং 2022 প্যারালিম্পিক শীতকালীন গেমসের সম্প্রচার সহ শ্রবণ-প্রতিবন্ধী দর্শকদের প্রদান করতে। স্থানীয় মিডিয়া বলেছে যে এটি "মিনিটের মধ্যে" সাইন ল্যাঙ্গুয়েজ অনুবাদ এবং লাইভ ব্যাখ্যার জন্য ডিজিটাল অবতার তৈরি করতে সক্ষম।

উপসংহার

স্পিচ-টু-সাইন ট্রান্সলেশন ডেভেলপ করার পরবর্তী ধাপ হবে আউটপুটকে যতটা সম্ভব সাইন ল্যাঙ্গুয়েজে প্রসারিত করা এবং অনুবাদের জন্য প্রয়োজনীয় সময়ের ব্যবধান মিনিট থেকে সেকেন্ডে কমানো। দুটি কাজই প্রধান চ্যালেঞ্জের প্রতিনিধিত্ব করে। আউটপুট ফিডে আরও সাংকেতিক ভাষা যোগ করার অর্থ হল হাত এবং শরীরের অঙ্গভঙ্গির পাশাপাশি মুখের অভিব্যক্তিগুলির ব্যাপক ডেটাবেস তৈরি এবং স্থায়ীভাবে বিকাশ করা। সময়ের ব্যবধান কমানো আরও বেশি গুরুত্বপূর্ণ, কারণ খেলাধুলা সব মুহূর্ত সম্পর্কে। এমনকি এক মিনিটের ব্যবধানের অর্থ হল স্ট্রীমটি বিলম্বিত হওয়া উচিত নয়তো দর্শকরা খেলাটির মূল সারমর্মটি মিস করবেন। অনুবাদের জন্য প্রয়োজনীয় সময় আরও বিস্তৃত হার্ডওয়্যার অবকাঠামো তৈরি করে, সবচেয়ে সাধারণ বক্তৃতা টেমপ্লেটগুলির ডেটাবেস তৈরি করে কমানো যেতে পারে যা শব্দগুচ্ছ শেষ হওয়ার আগেই স্বীকৃত হতে পারে। এই সব একটি ব্যয়বহুল উদ্যোগ মত শোনাতে পারে. কিন্তু একদিকে, লক্ষ লক্ষ মানুষের জীবনমান উন্নত করা অমূল্য। অন্যদিকে, আমরা শুধু দানের কথা বলি না। সম্প্রচারগুলি যে অতিরিক্ত শ্রোতারা পাবে এবং স্পনসরের অর্থের কথা চিন্তা করুন। সব মিলিয়ে, এটি বেশ জয়-জয়ের খেলা হতে পারে।


দেখে মনে হচ্ছে টেক মেজররাও রেসে যোগ দিচ্ছে। জিপিয়া নামের একটি ক্যারিয়ার পোর্টাল সম্প্রতি এমন ইঙ্গিত দিয়েছে গুগল নিয়োগ করা হয়েছে সাংকেতিক ভাষার দোভাষীরা সাধারণত মার্কিন যুক্তরাষ্ট্রে যে বেতন আশা করে তার দ্বিগুণেরও বেশি ($110,734 বনাম গড় $43,655)। এই হারে, একজন ভাষা দোভাষী মার্কিন যুক্তরাষ্ট্রে একজন গড় সফ্টওয়্যার ইঞ্জিনিয়ারের চেয়ে প্রায় 10% বেশি পাবেন ( $100,260 ) এটি একটি ইঙ্গিত হতে পারে যে আমরা শীঘ্রই একটি বড় অগ্রগতির আশা করছি...


অনুগ্রহ করে নির্দ্বিধায় মন্তব্য করুন এবং আমাদের সমাধান খুঁজতে বাহিনীতে যোগদান করুন!