paint-brush
गेम के लिए साइन अप करें: क्या AI स्पोर्ट्स स्ट्रीम को सुलभ बना सकता है? द्वारा@degravia
252 रीडिंग

गेम के लिए साइन अप करें: क्या AI स्पोर्ट्स स्ट्रीम को सुलभ बना सकता है?

द्वारा Roman Garin
Roman Garin HackerNoon profile picture

Roman Garin

@degravia

Senior Vice President, Innovation (aaS) at Sportradar

7 मिनट read2023/09/19
Read on Terminal Reader
Read this story in a terminal
Print this story

बहुत लंबा; पढ़ने के लिए

वास्तविक समय में सांकेतिक भाषाओं में अनुवाद करना एक मुश्किल काम है, यहां तक कि मानव दुभाषियों के लिए भी। इस समस्या को हल करने के लिए AI का उपयोग करना एक बहुत ही दिलचस्प चुनौती है।
featured image - गेम के लिए साइन अप करें: क्या AI स्पोर्ट्स स्ट्रीम को सुलभ बना सकता है?
Roman Garin HackerNoon profile picture
Roman Garin

Roman Garin

@degravia

Senior Vice President, Innovation (aaS) at Sportradar

0-item

STORY’S CREDIBILITY

Opinion piece / Thought Leadership

Opinion piece / Thought Leadership

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

23 सितंबर को अंतर्राष्ट्रीय सांकेतिक भाषा दिवस है, जैसा कि 2017 में संयुक्त राष्ट्र द्वारा घोषित किया गया था। यह तारीख सपने देखने (या शायद एक लक्ष्य निर्धारित करने) का एक अच्छा अवसर है कि एक दिन आएगा जब सभी मीडिया और तकनीकी उत्पाद समान रूप से सुलभ होंगे सभी लोग अपनी विकलांगताओं की परवाह किए बिना। मेरा सपना है कि किसी दिन सभी बधिर लोग लाइव स्पोर्ट्स स्ट्रीम देख सकेंगे। वास्तविक समय में सांकेतिक भाषाओं में अनुवाद करना एक मुश्किल काम है, यहां तक कि मानव दुभाषियों के लिए भी। लेकिन चूँकि बहुत कम कुशल दुभाषिए हैं और बहुत सारी अलग-अलग सांकेतिक भाषाएँ हैं, खेल धाराएँ इस समय वास्तव में सार्वभौमिक रूप से सुलभ नहीं हो सकती हैं। इस समस्या को हल करने के लिए आर्टिफिशियल इंटेलिजेंस (एआई) का उपयोग करना एक बहुत ही दिलचस्प तकनीकी चुनौती है और निश्चित रूप से एक बहुत अच्छा कारण है। पिछले कुछ वर्षों में इस क्षेत्र में बहुत कुछ किया गया है, लेकिन बाधाएँ अभी भी बनी हुई हैं। इस लेख में, मैं इस लक्ष्य के लिए समर्पित नवीनतम तकनीक का अवलोकन प्रस्तुत कर रहा हूं और आपको इन निष्कर्षों पर चर्चा करने और इस पहेली को सुलझाने में योगदान देने के लिए आमंत्रित करता हूं।

खेल हर किसी के लिए नहीं है?

खेल राजा है, अवधि। पहले प्राचीन ओलंपिक के बाद से (और शायद उससे भी पहले) इसने मानव स्वभाव के प्रतिस्पर्धी हिस्से को अहिंसक रूपों में बदलने में मदद की। यह दुनिया भर में और राजनीतिक सीमाओं से ऊपर लाखों लोगों को एकजुट कर रहा है। यह आधुनिक डिजिटल और मीडिया जगत का शासक भी है। के अनुसार अनुसंधान और बाजार, वैश्विक खेल बाजार 5.2% की चक्रवृद्धि वार्षिक वृद्धि दर (सीएजीआर) पर 2022 में $486.61 बिलियन से बढ़कर 2023 में $512.14 बिलियन हो गया। 2027 में 5.0% की सीएजीआर पर खेल बाजार बढ़कर 623.63 बिलियन डॉलर तक पहुंचने की उम्मीद है। यह विश्व अर्थव्यवस्था की वृद्धि से कहीं अधिक तेज़ है, जिसके 2022 में अनुमानित 3.5% से गिरकर 2023 और 2024 दोनों में 3.0% होने का अनुमान है, के अनुसार अंतर्राष्ट्रीय मुद्रा कोष . अकेले वैश्विक ऑनलाइन लाइव वीडियो स्पोर्ट्स स्ट्रीमिंग बाजार का मूल्य 2020 में $18.11 बिलियन था उम्मीद है 2028 में $87.33 बिलियन तक पहुंचने के लिए। खेलों की लोकप्रियता को और स्पष्ट करते हुए, 2022 नीलसन स्पोर्ट्स की रिपोर्ट पता चला कि यूएस लीनियर टीवी विज्ञापन राजस्व का 31% लाइव स्पोर्ट्स प्रोग्रामिंग पर निर्भर करता है, बावजूद इसके कि उपलब्ध प्रसारण कार्यक्रम सामग्री में खेल का हिस्सा केवल 2.7% है।


हालाँकि, यह विशाल उद्योग दुनिया की आबादी के एक महत्वपूर्ण हिस्से को (आंशिक रूप से या पूरी तरह से) मिस करता है। संयुक्त राष्ट्र आंकड़ों से पता चलता है कि दुनिया में 70 मिलियन बधिर लोग हैं, जो पृथ्वी की 8.05 अरब आबादी के 10% से थोड़ा कम है। समस्या बढ़ती जा रही है: विश्व स्वास्थ्य संगठन को उम्मीद है कि 2050 तक 2.5 अरब लोग (या लगभग सभी मनुष्यों का एक चौथाई) कुछ हद तक श्रवण हानि का अनुभव करेंगे। बेशक, कई खेल प्रसारणों में उपशीर्षक होते हैं। लेकिन समस्या यह है कि कई बधिर लोगों को पढ़ना-लिखना सीखने में कठिनाई होती है। अधिकांश देशों में, बधिरों के बीच निरक्षरता दर 75% से ऊपर है , वास्तव में चौंका देने वाली दर। कई प्रसारणों में, विशेषकर टीवी पर, लाइव सांकेतिक भाषा दुभाषिए होते हैं। लेकिन, फिर से एक समस्या है. दुनिया भर में बधिर लोग 300 से अधिक विभिन्न सांकेतिक भाषाओं का उपयोग करते हैं और उनमें से अधिकांश परस्पर समझ से परे हैं। एक प्रसारण को विश्व स्तर पर सुलभ बनाने के लिए 300 दुभाषियों को नियुक्त करना स्पष्ट रूप से असंभव है। लेकिन क्या होगा अगर हम इसके बजाय एआई को काम पर रखें?

जीवन का संकेत (भाषा)।

इस कार्य की कठिनाई को पूरी तरह से समझने के लिए, आइए संक्षेप में जानें कि सांकेतिक भाषाएँ वास्तव में क्या हैं। ऐतिहासिक रूप से, सामान्य श्रवण क्षमता वाले, लेकिन अलग-अलग भाषाएं बोलने वाले लोगों द्वारा इन्हें अक्सर सामान्य भाषा के रूप में उपयोग किया जाता था। इसका सबसे प्रसिद्ध उदाहरण सांकेतिक भाषा है सादे भारतीय 19वीं सदी के उत्तरी अमेरिका में। विभिन्न जनजातियों की भाषाएँ भिन्न थीं, लेकिन उनका रहन-सहन और वातावरण काफी समान था, जिससे उन्हें सामान्य प्रतीक खोजने में मदद मिली। उदाहरण के लिए, आकाश के विपरीत खींचे गए वृत्त का अर्थ चंद्रमा, या चंद्रमा के समान पीला कुछ है। अफ़्रीका और ऑस्ट्रेलिया की जनजातियाँ भी संवाद करने के ऐसे ही तरीकों का इस्तेमाल करती थीं।


हालाँकि, बधिरों द्वारा उपयोग की जाने वाली सांकेतिक भाषाओं के मामले में ऐसा नहीं है। वे प्रत्येक क्षेत्र, देश में स्वतंत्र रूप से विकास कर रहे हैं और कभी-कभी वे एक शहर से दूसरे शहर में भिन्न भी होते हैं। उदाहरण के लिए, अमेरिका में व्यापक रूप से उपयोग की जाने वाली अमेरिकी सांकेतिक भाषा (एएसएल) ब्रिटिश सांकेतिक भाषा से बिल्कुल अलग है, भले ही दोनों देश अंग्रेजी बोलते हों। विडंबना यह है कि एएसएल है पुरानी फ़्रेंच सांकेतिक भाषा के बहुत करीब (एलएसएफ) क्योंकि एक फ्रांसीसी बधिर व्यक्ति, लॉरेंट क्लर्क, 19वीं शताब्दी में अमेरिका में बधिरों के लिए पहले शिक्षकों में से एक था। आम धारणा के विपरीत, कोई सच्ची अंतर्राष्ट्रीय सांकेतिक भाषा नहीं है। बनाने का एक प्रयास था गेस्टुनो, जिसे अब अंतर्राष्ट्रीय सांकेतिक भाषा के रूप में जाना जाता है , 1951 में इंटरनेशनल फेडरेशन ऑफ डेफ द्वारा कल्पना की गई थी। हालाँकि, सुनने वाले लोगों के लिए इसके एनालॉग, एस्पेरान्तो की तरह, यह एक सच्चा समाधान बनने के लिए उतना लोकप्रिय नहीं है।


सांकेतिक भाषाओं में अनुवाद पर चर्चा करते समय ध्यान में रखने वाली एक और महत्वपूर्ण बात यह है कि वे अपनी स्वयं की स्वतंत्र भाषाएँ हैं, उन भाषाओं से पूरी तरह से अलग हैं जिन्हें हम सुन सकते हैं। एक बहुत ही आम ग़लतफ़हमी यह है कि सांकेतिक भाषाएँ श्रवण द्वारा बोली जाने वाली भाषाओं की नकल कर रही हैं। इसके विपरीत, उनकी भाषाई संरचना, व्याकरण और वाक्यविन्यास बिल्कुल अलग है। उदाहरण के लिए, एएसएल में विषय-टिप्पणी वाक्यविन्यास है, जबकि अंग्रेजी विषय-वस्तु-क्रिया निर्माण का उपयोग करती है। तो, वाक्यविन्यास के संदर्भ में, वास्तव में ए.एस.एल जापानी भाषा बोलने वालों के साथ अधिक साझा करता है जितना यह अंग्रेजी के साथ होता है। संकेत अक्षर हैं (उनके बारे में और देखें)। यहाँ ), लेकिन उनका उपयोग स्थानों और लोगों के उचित नामों की वर्तनी के लिए किया जाता है, शब्दों की रचना के लिए नहीं।

बाधाओं को तोड़ना

बोली जाने वाली और सांकेतिक भाषाओं को जोड़ने के कई प्रयास किए गए "रोबोटिक दस्ताने" का उपयोग करना हावभाव पहचान के लिए. उनमें से कुछ 1980 के दशक के हैं। समय के साथ, एक्सेलेरोमीटर और सभी प्रकार के सेंसर जैसे अधिक परिष्कृत गैजेट जोड़े गए। हालाँकि, इन प्रयासों की सफलता सर्वोत्तम रूप से सीमित थे . और वैसे भी, उनमें से अधिकांश ने सांकेतिक भाषाओं को बोली जाने वाली भाषाओं में अनुवाद करने पर ध्यान केंद्रित किया, न कि इसके विपरीत। कंप्यूटर विज़न, वाक् पहचान, तंत्रिका नेटवर्क, मशीन लर्निंग और एआई में हाल के विकास से उम्मीद है कि बोली जाने वाली भाषा से सांकेतिक भाषाओं में सीधा अनुवाद भी संभव है।


सबसे आम रास्ता सांकेतिक भाषा के इशारों और भावनाओं को प्रदर्शित करने के लिए 3डी अवतारों का उपयोग करना, भाषण और अन्य डेटा को इनपुट के रूप में उपयोग करना है। एक उल्लेखनीय विशेषता एनएचके द्वारा विकसित जापान में ब्रॉडकास्ट कॉरपोरेशन खेल डेटा, जैसे खिलाड़ियों के नाम, स्कोर आदि को एनिमेटेड कार्टून जैसे अवतार द्वारा प्रदर्शित सांकेतिक भाषा में अनुवाद करने में सक्षम बनाता है। इवेंट आयोजकों या अन्य संस्थाओं से प्राप्त डेटा की व्याख्या की जाती है और उसे टेम्पलेट्स में डाला जाता है और फिर अवतार द्वारा व्यक्त किया जाता है। हालाँकि, केवल सीमित प्रकार के डेटा का ही इस तरह अनुवाद किया जा सकता है। एनएचके का कहना है कि वह प्रौद्योगिकी विकसित करना जारी रखे हुए है ताकि अवतार अधिक मानवीय तरीके से भावनाओं को व्यक्त कर सकें।


लेनोवो और ब्राज़ीलियाई इनोवेशन हब CESAR हाल ही में घोषणा की गई वे एआई का उपयोग करके लोगों की बात सुनने के लिए एक सांकेतिक भाषा अनुवादक बना रहे थे। इसी प्रकार, SLAIT (जो सांकेतिक भाषा AI अनुवादक के लिए है) विकास हो रहा है एक शैक्षिक उपकरण जो एएसएल को इंटरैक्टिव तरीके से सीखने में मदद करता है। हालाँकि ये कार्य हमारे दायरे से भिन्न हैं, लेकिन इन परियोजनाओं द्वारा विकसित कंप्यूटर विज़न तकनीक और एआई प्रशिक्षण मॉडल भविष्य में भाषण से सांकेतिक भाषा में अनुवाद प्रदान करने में बहुत उपयोगी हो सकते हैं।


अन्य स्टार्टअप हमारी चर्चा के विषय के करीब आ रहे हैं। उदाहरण के लिए, साइनैप्सआ गया एक ऐसे समाधान के साथ जो फोटो-यथार्थवादी एनिमेटेड अवतार गति के रूप में प्रदर्शित पाठ को सांकेतिक भाषा में अनुवादित कर सकता है। कंपनी जेनरेटिव एडवरसैरियल नेटवर्क और गहन शिक्षण तकनीकों के साथ-साथ लगातार विकसित होने वाले वीडियो डेटाबेस का उपयोग करती है (उनके सहकर्मी-समीक्षा लेख में इसके बारे में अधिक जानकारी) यहाँ ). हालाँकि, इस प्लेटफ़ॉर्म का उद्देश्य अधिकतर सार्वजनिक घोषणाओं और वेबसाइट टेक्स्ट का अनुवाद करना है। दूसरे शब्दों में, यह अभी भी वास्तविक समय के लाइव अनुवाद से बहुत दूर लगता है।


इज़राइली-आधारित स्टार्टअप CODA ने हमारे लक्ष्य की ओर एक और कदम आगे बढ़ाया है। इसने एआई-संचालित ऑडियो-टू-साइन ट्रांसलेशन टूल विकसित किया है और दावा किया है कि यह काम करता है "लगभग तुरंत" . यह वर्तमान में पांच स्रोत भाषाओं में अपनी सेवाएं प्रदान करता है: अंग्रेजी, हिब्रू, फ्रेंच, स्पेनिश और इतालवी। इसके बाद, CODA का लक्ष्य भारत और चीन जैसे उच्च जनसंख्या वाले देशों की कई अलग-अलग सांकेतिक भाषाओं को जोड़ना है।


यकीनन हमारे सपने का सबसे करीबी मुकाबला Baidu AI क्लाउड ने अपने डिजिटल अवतार प्लेटफॉर्म Xiling पर प्रस्तुत किया था। प्लेटफ़ॉर्म शुरू किया गया था बीजिंग 2022 पैरालंपिक शीतकालीन खेलों के प्रसारण के साथ श्रवण-बाधित दर्शकों को प्रदान करना। स्थानीय मीडिया ने कहा कि यह "मिनटों के भीतर" सांकेतिक भाषा अनुवाद और लाइव व्याख्या के लिए डिजिटल अवतार तैयार करने में सक्षम है।

निष्कर्ष

वाक्-से-संकेत अनुवाद विकसित करने में अगला कदम आउटपुट को यथासंभव अधिक से अधिक सांकेतिक भाषाओं तक विस्तारित करना और अनुवाद के लिए आवश्यक समय अंतराल को मिनटों से घटाकर सेकंड करना होगा। दोनों कार्य बड़ी चुनौतियों का प्रतिनिधित्व करते हैं। आउटपुट फ़ीड में अधिक सांकेतिक भाषाओं को जोड़ने का मतलब हाथ और शरीर के इशारों के साथ-साथ चेहरे के भावों के व्यापक डेटाबेस बनाना और स्थायी रूप से विकसित करना है। समय के अंतराल को कम करना और भी महत्वपूर्ण है, क्योंकि खेल सभी क्षणों के बारे में हैं। यहां तक कि एक मिनट के अंतराल का मतलब है कि स्ट्रीम में देरी होनी चाहिए अन्यथा दर्शक खेल के सार से वंचित रह जाएंगे। अनुवाद के लिए आवश्यक समय को अधिक व्यापक हार्डवेयर बुनियादी ढांचे का निर्माण करके, सबसे विशिष्ट भाषण टेम्पलेट्स के डेटाबेस विकसित करके कम किया जा सकता है जिन्हें वाक्यांश समाप्त होने से पहले ही पहचाना जा सकता है। यह सब एक महँगा उद्यम लग सकता है। लेकिन एक ओर, लाखों लोगों के लिए जीवन की गुणवत्ता में सुधार अमूल्य है। दूसरी ओर, हम केवल दान की बात नहीं करते। प्रसारणों को मिलने वाले अतिरिक्त दर्शकों और चलन में मौजूद प्रायोजक राशि के बारे में सोचें। कुल मिलाकर, यह काफी हद तक जीत-जीत वाला खेल हो सकता है।


ऐसा लगता है जैसे तकनीकी दिग्गज भी इस दौड़ में शामिल हो रहे हैं। जिपिया, एक कैरियर पोर्टल, ने हाल ही में संकेत दिया कि Google भर्ती कर रहा है सांकेतिक भाषा दुभाषियों को संयुक्त राज्य अमेरिका में आम तौर पर अपेक्षित वेतन ($110,734 बनाम औसत $43,655) से दोगुने से अधिक वेतन मिलता है। इस दर पर, एक भाषा दुभाषिया को अमेरिका में एक औसत सॉफ्टवेयर इंजीनियर की तुलना में लगभग 10% अधिक वेतन मिलेगा ( $100,260 ). यह एक संकेत हो सकता है कि हम जल्द ही एक बड़ी सफलता की उम्मीद कर रहे हैं...


कृपया बेझिझक टिप्पणी करें और हमें समाधान खोजने के लिए एकजुट होने दें!