कुछ साल पहले, मैंने Google सहायक से एक सरल प्रश्न पूछा था (मुझे याद नहीं है कि यह क्या था) और यह एक असंबंधित उत्तर लेकर आया। मैंने फिर पूछा, और यह एक अलग उत्तर लाया। मुझे अपना प्रश्न टाइप करना था।
व्यक्तिगत विकास और जोखिम के कारण मेरी बोली जाने वाली अंग्रेजी और उच्चारण में सुधार हुआ है, लेकिन मैं यह भी बता सकता हूं कि कई वॉयस रिकॉग्निशन ऐप और सॉफ्टवेयर अफ्रीकी बोलने वालों (उच्चारण-वार) के लिए अधिक अनुकूल होते जा रहे हैं। हालाँकि, सच्चाई यह है कि अफ्रीकियों के लिए आवाज की पहचान के लिए अभी बहुत लंबा रास्ता तय करना है।
मुझे अभी भी आश्चर्य है कि हमारे पास ऐसे कई ऐप क्यों नहीं हैं जिन्हें प्रमुख स्थानीय अफ्रीकी भाषाओं के साथ जोड़ा जा सकता है, जिनमें से 10 मिलियन से अधिक देशी वक्ता हैं। इसलिए, मैंने अफ्रीकी संदर्भों और भाषाओं में कृत्रिम बुद्धि और प्राकृतिक भाषा प्रसंस्करण की वर्तमान स्थिति पर एक क्षेत्रीय भाषाविद और अकादमिक शोधकर्ता से बात करने का फैसला किया।
हाय, मैं ओलनरेवाजू सैमुअल हूं।
मुझे कम्प्यूटेशनल फोनोलॉजी, डेटासेट बिल्डिंग, एनोटेशन और क्यूरेशन, नेचुरल लैंग्वेज प्रोसेसिंग और फील्ड भाषाविज्ञान में दिलचस्पी है।
मेरे प्राथमिक गुरु हैं
मैं अभी तक अपने शोध लक्ष्यों को लेकर सख्त नहीं हूं, लेकिन मैं अपनी विशेषज्ञता विकसित करने और अभी के लिए अपनी संभावनाएं तलाशने पर केंद्रित हूं। प्रमाणन के लिए नहीं, बल्कि आत्म-विकास के लिए। इसलिए, मैं यहां अपना कार्यक्रम पूरा करने और कुछ अन्य चीजों की ओर बढ़ने का प्रयास करते हुए खुद को विकसित करने की कोशिश कर रहा हूं।
मैंने विभिन्न प्रकाशनों का हिस्सा बनने के लिए विभिन्न महान व्यक्तियों के साथ सहयोग किया है। मेरे हाल के भाषाविज्ञान पत्रों में से एक है "
यह भी शामिल है:
मैं "भाषाविदों के लिए प्राकृतिक भाषा प्रसंस्करण" नामक पाठ्यक्रम पढ़ा रहा हूँ। मूल रूप से, मैं किगाली, रवांडा में अफ्रीकी संदर्भों में भाषाई प्राकृतिक भाषा प्रक्रियाओं को पढ़ा रहा हूँ।
मुझे विभिन्न एनएलपी कार्यों के लिए बहुभाषी डेटासेट के निर्माण, व्याख्या, क्यूरेटिंग, विश्लेषण और प्रकाशन की बारीकियों को प्रदान करने और प्रदर्शित करने का काम सौंपा गया है, जैसे कि बड़े भाषा मॉडल (एलएलएम) का निर्माण। एक बड़े भाषा मॉडल का अर्थ है एक ही धारा के भीतर कई भाषा प्रणालियों को कार्य करने के लिए लाना। हम लेटरलाइजेशन द्वारा इसे हासिल करने की कोशिश करते हैं, जो एआई सिस्टम को एक पैटर्न या टेम्पलेट के साथ प्रशिक्षित करने जैसा है। पैटर्न तब इसके अन्य अनुप्रयोगों का आधार बन जाता है।
संवादात्मक एआई से परे, हम जनरेटिव एआई के क्षेत्र में कुछ सार्थक करने पर विचार कर रहे हैं, जो अभी भी मॉडल की क्षमता के लिए लेटरलाइजेशन का एक हिस्सा है, जो डेटा को क्रमबद्ध करने और गणितीय संगणना जैसे संभाव्यता द्वारा परिणाम उत्पन्न करने के लिए है।
एनएलपी का उपयोग पूरे अफ्रीका में कई उदाहरणों में किया गया है, जिनमें से कुछ में रोबोटिक्स और संवादी एआई शामिल हैं। एक संवादात्मक एआई का एक विशिष्ट उदाहरण लागोस अलाय है, जो प्राकृतिक पर्यटकों (अन्य राज्यों के नाइजीरियाई) को लागोस-एक मेगा-शहर और राज्य- के आसपास अपना रास्ता खोजने में मदद करने के लिए है और रेस्तरां, क्लब, दुकानों जैसे स्थानों की पहचान करने के लिए है। और यहां तक कि लोकप्रिय नाइजीरियाई पिजिन (नैजा पिजिन) का उपयोग करते हुए यातायात की स्थिति।
हम एआई मॉडल विकसित कर रहे हैं जिन्हें कार्यों को करने के लिए प्रशिक्षित किया जा सकता है - एक जटिल प्रणाली या प्रक्रिया को सरल कमांड स्ट्रिंग (मॉडलिंग) में संकुचित कर दिया जाता है। यह रोबोटिक्स में एनएलपी का व्यावहारिक अनुप्रयोग है क्योंकि यह इस समय अफ्रीका में खड़ा है।
वर्तमान में, भाषाविज्ञान में, एआई का अनुप्रयोग ज्यादातर स्वचालन में है, हालांकि रोबोट और चैटबॉट जैसे विभिन्न एआई अनुप्रयोगों में भाषाई मॉडल शामिल हैं।
हमारे पास कुछ लोग वास्तव में बहुत अच्छा काम कर रहे हैं, जैसे
एआई उद्योग में वैश्विक प्रासंगिकता खोजने में अफ्रीका के परिदृश्य के लिए एक बड़ी चुनौती भाषा संसाधनों (डेटा) की सीमा है। अफ्रीका बहुभाषी है, इसलिए हैं
यदि एआई को कुछ होगा, तो यह उच्च संसाधन वाली भाषाओं को होगा। यहां तक कि अगर यह अफ्रीकी भाषाओं के साथ होता है, तो हमारे पास उन्हें शक्ति देने के लिए सिस्टम नहीं है। इसलिए, हम पिछड़ रहे हैं क्योंकि हमारे पास काम करने के लिए पर्याप्त नहीं है, और यह मुद्दा हमारे दस्तावेज़ीकरण की कमी की लगभग आजीवन समस्या रही है।
उदाहरण के लिए, नाइजीरिया को लें, 200 से अधिक जनजातियाँ, फिर भी केवल तीन भाषाएँ ही सबसे अधिक लोकप्रिय हैं। योरूबा, इग्बो और हौसा के विपरीत, छोटी जनजातियों और भाषाओं में बहुत कम डेटा (कम संसाधन डेटा) होता है। हम यही करने की कोशिश कर रहे हैं
एआई और एनएलपी तकनीशियन निवेश नहीं कर रहे हैं क्योंकि वे इसमें विश्वास नहीं करते हैं, या उन्हें लगता है कि उनके आरओआई का पता लगाने के लिए पर्याप्त डेटा नहीं है। इसलिए, हम उम्मीद कर रहे हैं कि हमारे मौजूदा भूमिगत कार्य सफलता साबित होंगे।
इसके अलावा, अफ्रीका भाषाई एआई और एनएलपी के वैश्विक बाजार में हाशिए पर है क्योंकि सबसे लोकप्रिय खोज इंजन एशियाई और पश्चिमी (विशेष रूप से अमेरिकी) हैं। इसके अलावा, यहां हमारे कुछ कार्यों के लिए, प्रायोजन के कारण हम अफ्रीकियों के रूप में उनका श्रेय नहीं ले सकते।
सबसे अधिक प्रभाव डालने वाले अफ्रीकी देशों में दक्षिण अफ्रीका, केन्या और रवांडा शामिल हैं-वे लोग पागल हैं! नाइजीरिया भी कोशिश कर रहा है, लेकिन ज्यादातर लोग जो अंतरिक्ष की खोज कर रहे हैं, वे विकास नहीं बल्कि अकादमिक प्रमाणपत्रों की संतुष्टि चाहते हैं। हम अपनी भाषा (भाषाओं) को महत्व देते हैं, लेकिन हम उनके साथ डेटासेट नहीं बना रहे हैं। हम अपनी भाषा को एक विरासत के रूप में बोलना या उसका निजीकरण करना पसंद करेंगे, जब हमें भाषा को संरक्षित और संरक्षित करने के लिए प्रलेखन में निवेश करना चाहिए।
ईमानदारी से, डेटासेट बेचने के व्यवसाय के अलावा और कुछ नहीं है। फिर भी, जो परियोजनाओं में पैसा लगाते हैं, वे बहुत कुछ देते हैं, लेकिन जो राशि फील्ड एजेंटों को मिलती है, वह मूल राशि की तुलना में बहुत कम होती है।
डेटा संग्रह के खिलाफ कोई कानून नहीं है। सबसे महत्वपूर्ण बात यह है कि देशी वक्ताओं से स्वेच्छा से डेटा एकत्र किया जाता है, और उन्हें उनके समय के लिए पुरस्कृत किया जाता है। हालांकि, सभी गतिविधियां अफ्रीकी संघ के अनुरूप होनी चाहिए
और आपके दूसरे प्रश्न के लिए, कोई भी उस राशि के बारे में कुछ नहीं कर सकता है जो अंततः इन क्षेत्रों में शामिल लोगों तक पहुँचती है। सबसे महत्वपूर्ण बात यह है कि हर कोई परियोजना को स्वेच्छा से करता है। लोगों को बताया जाता है कि उन्हें रिकॉर्ड किया जाएगा और पुरस्कृत किया जाएगा, और जब तक वे कीमत के साथ ठीक हैं, कोई "अनुचितता" नहीं है।
यह एक विस्तृत मैदान है। कई के पास पहले से ही नींव है और वे निर्माण के चरणों में हैं, लेकिन हमारे पास अभी भी अधिक पहलू हैं जो मुश्किल से मूलभूत हैं। मैं किसी को भी भाषा डेटा संग्रह और विश्लेषण में शामिल होने की सलाह दूंगा। हमें डेटासेट के लिए डेटा एनालिटिक्स की उतनी ही आवश्यकता है जितनी हमें डेटा की आवश्यकता है।
इसलिए, मैं उत्साही डेटा-संचालित समूहों में शामिल होने या स्वयंसेवा करने की सलाह दूंगा; डेटा संग्रह और विश्लेषण, सीखने के नामकरण और अन्य के लिए स्वयंसेवक।
अलग-अलग एआई और एनएलपी के लिए कमांड या प्रॉम्प्ट के साथ वॉयस रिकग्निशन सॉफ्टवेयर में अफ्रीका को अनुचित तरीके से दर्शाया जाना जारी है। जब अफ़्रीकी लोग डेटासेट बनाने के लिए निकलेंगे और अपनी भाषा बाहर निकालेंगे और दस्तावेज़ीकरण में निवेश करना जारी रखेंगे, तो कथा अलग हो जाएगी। फिर भी, आप एआई और एनएलपी अनुप्रयोगों के संबंध में अफ्रीका से आने वाली कुछ कृतियों से प्रभावित होंगे।
मेरे शोध और निम्नलिखित सुरागों में, मैंने देखा है कि रोबोटों को स्थानीय अफ्रीकी भाषाओं के साथ प्रेरित किया जा रहा है, हमारे पास विभिन्न अफ्रीकी संदर्भों (पर्यटन, अन्वेषण) के लिए अधिक स्थानीय चैटबॉट हैं, कुछ भाषाओं का उपयोग घरेलू उपकरणों के लिए IoT के लिए किया जा रहा है। हालांकि, मेरा मानना है कि अभी दुनिया में बड़े पैमाने पर एआई और एनएलपी क्रांति चल रही है, इस पर विचार करते हुए हमें और अधिक करना चाहिए। अभी के लिए, हमारे पास और है