हाल ही में मुझे एक लेख मिला जिसमें लेखक ने तर्क दिया है कि 2023 में AI के लिए एक उन्मादी वर्ष रहा, कॉर्पोरेट बोर्डरूम और मीडिया में एक गर्म विषय रहा और यहां तक कि सार्वजनिक शेयर बाजार के प्रदर्शन को भी प्रभावित किया, 2024 अन्वेषण और खोज का वर्ष होगा। वह AI की वर्तमान स्थिति की तुलना "आदिम सूप" चरण से करते हैं, जो संभावनाओं से भरा हुआ है, फिर भी अभी भी अस्पष्ट है, और दावा करते हैं कि हम AI के अन्वेषण चरण से सक्रिय शोषण की ओर बहुत जल्दी भाग गए हैं, तेज़ और आसान परिणामों का पीछा करते हुए। अब, यह "रीसेट बटन दबाने" और सार्थक मूल्य निर्माण की दिशा में AI का और अन्वेषण करने का समय है।
इस लेख ने मुझे बहुत प्रभावित किया, और एआई शोध के वर्तमान और भविष्य को आकार देने वाले दिमागों को समझने की जिज्ञासा जगाई। गहन जानकारी प्राप्त करने के लिए, मैंने Portal.ai के CTO और सह-संस्थापक मोहम्मद (हमुदी) नाना का साक्षात्कार लिया, जो Amazon में पूर्व AI शोध वैज्ञानिक और Apple में R&D लैब मैनेजर हैं। हमारी बातचीत में AI अन्वेषण की वर्तमान स्थिति और इसके अगले मोर्चे, जिम्मेदार और नैतिक AI विकास की चुनौतियों और अवसरों, छाया AI के संभावित प्रभाव, मजबूत AI विशेषज्ञता बनाने के लिए क्या करना पड़ता है और बहुत कुछ शामिल है।
पढ़ने का आनंद लें!
एआई में मेरी यात्रा मेरे विश्वविद्यालय के वर्षों के दौरान ग्राउंडब्रेकिंग एलेक्सनेट पेपर के साथ शुरू हुई। छवियों को वर्गीकृत करने के लिए एक मॉडल को प्रशिक्षित करने का विचार विस्मयकारी था, ऐसा कुछ जो पारंपरिक सॉफ़्टवेयर के साथ अप्राप्य लगता था। इस जटिलता से प्रेरित होकर, मैंने तंत्रिका नेटवर्क को बेहतर ढंग से समझने के लिए एआई शोध में गहराई से जाना। मुझे एक मजबूत अंतर्ज्ञान था कि अगर हम छवि वर्गीकरण को हल कर सकते हैं, तो यह केवल समय की बात है इससे पहले कि हम और भी जटिल डेटा और समस्याओं से निपट सकें, अंततः बुद्धिमत्ता का निर्माण कर सकें। मैं उस यात्रा का हिस्सा बनना चाहता था।
शुरुआत में, मैंने कंप्यूटर विज़न में गोता लगाया, जनरेटिव एआई, विशेष रूप से जीएएन और डिफ्यूजन मॉडल की रचनात्मक संभावनाओं से मोहित हो गया। बाद में, ट्रांसफॉर्मर पेपर के साथ भाषा मॉडल के विस्फोट ने मेरा ध्यान आकर्षित किया, जिससे सच्ची कृत्रिम बुद्धिमत्ता का सपना करीब आ गया। आज, मैं टेक्स्ट और इमेज दोनों में जनरेटिव एआई के रोमांचक चौराहे पर हूँ।
आज भी, वर्षों बाद, हम AI की संभावनाओं की सतह को ही खरोंच रहे हैं। यह एक बहुत ही गर्म विषय है; आप देखते हैं कि बहुत सारे रुझान आते-जाते रहते हैं, और हर दिन सीमाएँ आकार ले रही हैं।
इस सीमा पर एक प्रमुख दिशा मल्टीमोडैलिटी है। दुनिया सिर्फ़ टेक्स्ट से कहीं ज़्यादा है, और मैं मूल रूप से मल्टीमोडल एआई में एक उज्ज्वल भविष्य देखता हूँ - टेक्स्ट, इमेज, ऑडियो और उससे परे को एकीकृत करना। कई प्रमुख एआई कंपनियाँ पहले से ही इसे अपना रही हैं, और हम विभिन्न इनपुट का समर्थन करने वाले मूलभूत मॉडल देखते हैं।
एक और डोमेन जिसके बारे में मैं बहुत अधिक प्रत्याशा और उत्साह देखता हूं वह है एजेंट । इन प्रणालियों में अवलोकन, तर्क, स्थिति, क्रियाएं और प्रतिबिंब के साथ एक पूर्ण फीडबैक लूप होता है। वे "इनपुट-आउटपुट" प्रतिमान से परे जाते हैं जिसे हमने आज अधिकांश एलएलएम-आधारित एआई के साथ देखा है।
इस बात पर बहस जारी है कि क्या ट्रांसफार्मर-आधारित आर्किटेक्चर, जैसे इनपुट-आउटपुट टोकन मशीन, "सच्ची" बुद्धिमत्ता के लिए पर्याप्त हैं।
मौलिक रूप से नए आर्किटेक्चर की खोज करना एक आशाजनक लेकिन चुनौतीपूर्ण दिशा है। हम स्टेटफुल मेमोरी-नेटिव आर्किटेक्चर जैसे कि न्यूरल ट्यूरिंग मशीन (NTM) या डिफरेंशियल न्यूरल कंप्यूटर (DNC) का पुनर्जागरण देख सकते हैं, जो ट्रांसफॉर्मर की कुछ खामियों को दूर कर सकते हैं।
ये सभी प्रगति रोबोटिक्स में क्रांति लाएगी, और उम्मीद से भी जल्दी हमारे दैनिक जीवन में बुद्धिमान सहायकों को लाएगी। मेरा मानना है कि हम कुछ ही सालों में, शायद उससे भी कम समय में, अपने बीच पहले रोबोट को चलते हुए देखेंगे।
हालाँकि, प्रौद्योगिकी विकसित करना एक बात है और उसके आधार पर उपयोगी उत्पाद बनाना दूसरी बात है।
मल्टीमॉडल ऑडियो-नेटिव AI का मूल्य यह है कि उपयोगकर्ता अल्ट्रा-पर्सनलाइज्ड गाने बना सकते हैं जिसमें वे अपनी भावनाएं डाल सकते हैं। वही मूल तकनीक, लेकिन सही पैकेजिंग में उत्पाद लोगों को सशक्त बनाता है। और यहीं पर मुझे जल्द ही बहुत सारे अन्वेषण होते हुए दिखाई देते हैं, जहाँ मॉडल अधिक विश्वसनीय, नियंत्रणीय और मजबूत होते जा रहे हैं ।
मल्टीमॉडल एआई पहले से ही तकनीक के साथ हमारी बातचीत के तरीके को बदल रहा है। चैटबॉट को ही लें - एक समय में सरल टेक्स्ट-आधारित उपकरण जिन्हें लोग वेबसाइटों पर अनदेखा कर देते थे, अब वे नए डिज़ाइन के केंद्र में परिष्कृत, मल्टीमॉडल इंटरफ़ेस में विकसित हो रहे हैं।
मल्टीमोडैलिटी नए इंटरैक्शन पैटर्न को सक्षम कर रही है - डुओलिंगो या खान अकादमी जैसे शैक्षिक ऐप लें। अपने AI पार्टनर को टेक्स्ट लिखकर अपनी भाषा कौशल का अभ्यास करने में सक्षम होना, वॉयस वार्तालाप में अपने उच्चारण को सुधारना, या फ़ोटो में अपने गणित के समीकरण दिखाना तकनीक के साथ अधिक स्वाभाविक रूप से बातचीत करने का एक बिल्कुल नया तरीका है, जिससे उत्पादकता और जुड़ाव बढ़ता है।
मैं एक ऐसे भविष्य की कल्पना करता हूँ जिसमें सुपर ऐप्स या नए ऑपरेटिंग सिस्टम होंगे, जहां उपयोगकर्ता विभिन्न ऐप्स पर जाए बिना निर्देश दे सकेंगे और परिणाम प्राप्त कर सकेंगे।
उदाहरण के लिए, भोजन ऑर्डर करने के लिए आइकन और टेक्स्ट पर क्लिक करने के बजाय, आप अधिक मानवीय तरीके से बातचीत करने के लिए बोल सकते हैं, इशारा कर सकते हैं या कुछ तत्वों को देख सकते हैं। ह्यूमेन एआई पिन और रैबिट आर1 जैसे शुरुआती अपनाने वाले वादे दिखाते हैं लेकिन अप्रत्याशितता और सुधार की गुंजाइश को भी उजागर करते हैं। डेवलपर्स और एआई शोधकर्ताओं के रूप में, हमें इन मुद्दों को संबोधित करने की आवश्यकता है, और मुझे आशा है कि हम ऐसा करेंगे।
मल्टीमॉडल एआई सिस्टम संचार के विभिन्न रूपों के बीच की बाधाओं को तोड़कर प्रौद्योगिकी के साथ हमारी बातचीत के तरीके में क्रांतिकारी बदलाव लाने के लिए तैयार हैं। हम अभी भी इंटरफेस बनाने के उस नए तरीके की खोज की शुरुआत में हैं, लेकिन एक सामान्य पैटर्न पहले से ही ध्यान देने योग्य है:
पूर्व-निर्धारित अंतःक्रिया पैटर्न वाली मौजूदा प्रणालियों का पुनः आविष्कार किया जाएगा।
एआई के नैतिक परिदृश्य को समझना जटिल लेकिन महत्वपूर्ण है, क्योंकि तकनीक तेजी से विकसित हो रही है और इसके निहितार्थ अभी भी समझे जा रहे हैं। हमें पूर्वाग्रहों और अनपेक्षित परिणामों का पूर्वानुमान लगाना और उन्हें कम करना चाहिए।
कुछ चुनौतियाँ मानवीय दोषों से संबंधित नैतिक निहितार्थों से उत्पन्न होती हैं। उदाहरण के लिए, AI साथी बनाने के उद्देश्य से बनाई गई परियोजनाएँ अकेलेपन से निपटने में मदद कर सकती हैं। फिर भी, वे लोगों को वास्तविक जीवन की बातचीत के बजाय AI में आराम खोजने के लिए प्रोत्साहित करके इसे और भी बढ़ा सकते हैं। यह रचनाकारों के लिए उनके ऐप्स के निहितार्थों और उन्हें कैसे संबोधित करना चाहिए, इस बारे में सवाल उठाता है। यह उन बुनियादी सवालों का सिर्फ़ एक उदाहरण है जो प्रतीत होता है कि सरल ऐप्स से उठते हैं, और ऐसे कई और सवाल हैं जिनकी हमें अभी कल्पना करनी है, उनके अस्तित्व के दुष्प्रभावों की तो बात ही छोड़िए।
हाल ही में बड़ी प्रौद्योगिकी क्षेत्र में घटित घटनाएं, जैसे कि उत्पन्न छवियों में लोगों का ऐतिहासिक चित्रण , नैतिक चिंताओं और अनपेक्षित परिणामों सहित महत्वपूर्ण चुनौतियों को उजागर करती हैं, जो एआई प्रौद्योगिकी की तीव्र प्रगति के साथ आती हैं।
इसका कोई सरल उत्तर नहीं है, लेकिन मेरा मानना है कि ओपन-सोर्स एलएलएम विकास के माध्यम से पारदर्शिता सुनिश्चित करना (मॉडल और जिस डेटा पर उन्हें प्रशिक्षित किया गया था, दोनों को उजागर करना) और केवल इंजीनियरों और वैज्ञानिकों को ही नहीं, बल्कि विविध पृष्ठभूमि वाले लोगों को शामिल करते हुए बहु-विषयक दृष्टिकोण को बढ़ावा देना, इन चुनौतियों का समाधान करने में महत्वपूर्ण कदम हैं।
ये सवाल पूछना ही सही तरीका है। हम सबसे शक्तिशाली तकनीकों के भविष्य को आकार देने के लिए जिम्मेदार हैं। एआई के निर्माता के रूप में, हमें अंतर्निहित और संभावित पूर्वाग्रहों पर विचार करना चाहिए और उन्हें कम करने के तरीकों पर विचार करना चाहिए।
एआई का जादू लेजर-केंद्रित उपयोग के मामलों को समझने में निहित है जहां यह सबसे अधिक मददगार हो सकता है। अमेज़न छोड़ने के बाद, मैंने अपने मित्र व्लाद पंचेंको के साथ भविष्य की कल्पना करते हुए और विभिन्न तरीकों से एआई मानवता को लाभ पहुंचा सकता है, इस पर चर्चा की। कुछ समय के लिए एजेंटिक सिस्टम का निर्माण करने और उस ज्ञान को एक सफल सीरियल उद्यमी के रूप में व्लाद के अनुभव के साथ जोड़ने के बाद, हमने यह सोचना शुरू किया कि एआई एजेंट्स को व्यवसायों में कैसे लागू किया जा सकता है। अधिकांश व्यवसायों में शीर्ष-स्तरीय सीएमओ, सीओओ और सफल होने के लिए आवश्यक अन्य विशेषज्ञों तक पहुंच की कमी होती है। एआई अभूतपूर्व पैमाने पर खुफिया जानकारी तक पहुंच का लोकतंत्रीकरण कर सकता है। साथ में, हमने जटिल व्यावसायिक प्रक्रियाओं को छोटे, पहचाने जाने योग्य कार्यों में विघटित करने की खोज की, एजेंटों को अलग-अलग ईंटों के रूप में देखा जो एक दूसरे से जुड़ सकते हैं और संवाद कर सकते हैं।
एआई दोहराए जाने वाले कार्यों को स्वचालित करके और निर्णय लेने की क्षमता को बढ़ाकर व्यवसाय प्रबंधन में क्रांति लाने के लिए तैयार है।
कल्पना कीजिए कि आपके पास एक AI पार्टनर है जो आपकी मार्केटिंग, लॉजिस्टिक्स और HR को संभालता है, जिससे आप रचनात्मक और रणनीतिक काम पर ध्यान केंद्रित कर सकते हैं। यह परिवर्तन विशेषज्ञ ज्ञान तक पहुँच को लोकतांत्रिक बनाएगा, जिससे हर व्यवसाय उच्च स्तर पर काम करने में सक्षम होगा।
परिचालन को सुव्यवस्थित करने की एआई की क्षमता न केवल दक्षता को बढ़ाएगी बल्कि नवाचार और विकास को भी बढ़ावा देगी।
' शैडो एआई ' - एआई का अनपेक्षित और अक्सर छिपा हुआ उपयोग - महत्वपूर्ण जोखिम पैदा करता है। उदाहरण के लिए, सोशल मीडिया एल्गोरिदम को गेम करने के लिए एआई का उपयोग करने वाले लोग इस बात पर प्रकाश डालते हैं कि एआई का दुरुपयोग कैसे किया जा सकता है। जैसे-जैसे एआई सामग्री इंटरनेट पर भरती जाती है, अखंडता और सुरक्षा बनाए रखना चुनौतीपूर्ण होता जाता है। नैतिक एआई अनुसंधान को इन विकासों के साथ तालमेल रखना चाहिए, पारदर्शिता और मजबूत सुरक्षा उपायों को बढ़ावा देना चाहिए। इन जोखिमों को संबोधित करने के लिए दुरुपयोग से बचाने के लिए निरंतर सतर्कता और अनुकूली रणनीतियों की आवश्यकता होती है।
हम स्वयं को इस नए युग में पाते हैं, जहां ऐसी बहुत सी बातें हैं जिन्हें हमें अपने दिमाग में रखना होगा और उन पर बहस करते रहना होगा।
सब कुछ इतनी तेजी से आगे बढ़ रहा है और बदल रहा है, यह बहुत बढ़िया है। लेकिन इसका मतलब यह भी है कि पहले से ही तीन महीनों में, इस बात की अच्छी संभावना है कि कुछ पुराना, अप्रचलित या बस पुराने जमाने का हो जाएगा। इन त्वरित पुनरावृत्ति चक्रों में सिर्फ एक किताब पढ़ना और अद्यतित रहना कोई तरीका नहीं है।
इस क्षेत्र में प्रमुख नेता और प्रतिष्ठित स्रोत हैं, इसलिए उनका अनुसरण करने से अपडेट रहने में मदद मिलती है। शोध में गहराई से उतरने के लिए, मैं Reddit और Twitter/X जैसे प्लेटफ़ॉर्म पर प्रासंगिक न्यूज़लेटर्स और समुदायों की सदस्यता लेता हूँ - और, ज़ाहिर है, मैं Reddit पर अपने धागों को सारांशित करने के लिए AI का उपयोग करता हूँ।
एआई में विशेषज्ञता हासिल करने की चाहत रखने वाले किसी भी व्यक्ति के लिए कई रास्ते हैं। अगर आप शोधकर्ता बनना चाहते हैं, तो एक मजबूत आधार तैयार करें—एआई गणित में गहराई से निहित है, और जबकि रुझान बदलते हैं, अंतर्निहित गणित वही रहता है।
कुल मिलाकर, मैं हैकाथॉन का बहुत बड़ा समर्थक हूँ। मैं बहुत से हैकाथॉन में गया हूँ, कई का आयोजन किया है। और मुझे बहुत से प्रोजेक्ट देखने को मिले हैं। वे लोगों के लिए कुछ नया सीखने के लिए बहुत बढ़िया हैं। अगर मैं किसी को भी एक चीज़ की सलाह दूँ, चाहे वह इंजीनियर हो, उत्पाद प्रबंधक हो या सीईओ हो, तो वह होगी: वहाँ जाओ, ऐसे लोगों से मिलो जो कुछ बनाना चाहते हैं, अपने हाथों को गंदा करो, और इसे शुरू करो। यह वास्तव में चीजों को समझने का सबसे अच्छा तरीका है, क्योंकि इससे आपको अपना अंतर्ज्ञान विकसित करने और मज़े करने का मौका मिलता है। बस जिज्ञासु बने रहो!
मैं वास्तव में 20 साल बाद यह साक्षात्कार पढ़ना चाहता हूँ! AI इतनी तेज़ी से बदल रहा है कि 20 महीनों में क्या होगा, 20 साल की तो बात ही छोड़िए, इसका अनुमान लगाना भी मुश्किल है। हम एक अनोखे दौर में हैं, जहाँ हम सभी मानवीय बुद्धिमत्ता को एक सिस्टम में एकीकृत करने में सक्षम होने के शुरुआती चरणों में हैं, जिससे ज्ञान तक सार्वभौमिक पहुँच संभव हो सके। वर्तमान में, शिक्षा जैसे संसाधन समान रूप से वितरित नहीं हैं, और मेरा मानना है कि AI कई मायनों में सार्वभौमिक तुल्यकारक के रूप में यहाँ बड़ा प्रभाव डालेगा।
और फिर से रोबोट की बात करें तो मुझे लगता है कि यह एक वास्तविक चीज़ बन जाएगी। हमारे पास निजी रोबोट होंगे जो हमारे सहायक के रूप में हमारे साथ रहेंगे और सभी घरेलू काम संभालेंगे।
हमारे पास हाइपर-पर्सनलाइज्ड उत्पाद होंगे - हमारे अपने ट्यूटर, कोच और दोस्त। हमारे पास अभी तक इन संस्थाओं के लिए कोई नाम भी नहीं है, लेकिन यह पहले से ही हो रहा है।
एक और बात जो मुझे उत्साहित करती है, वह है अनुसंधान में तेज़ी। मैं पहली एआई-सह-विकसित दवा या इलाज की संभावना से रोमांचित हूँ - यह कितनी खूबसूरत दुनिया होगी। मैं बेहतर भविष्य में दृढ़ विश्वास रखता हूँ और उस भविष्य को आकार देने के लिए मैं जो कुछ भी कर सकता हूँ, करने के लिए उत्साहित हूँ।
यह सही है! मेरा जन्म लेबनान में हुआ, बचपन में मैं यूक्रेन चला गया और वहीं पला-बढ़ा। यूक्रेन ने मुझे गहराई से आकार दिया। 17 साल की उम्र में, मैं यूनिवर्सिटी के लिए जर्मनी चला गया, जहाँ बाद में मेरा परिवार मेरे साथ आ गया और मेरा करियर शुरू हुआ। विविधतापूर्ण और समान रूप से सुंदर समाजों में रहते हुए, मैंने उनकी अनूठी चुनौतियों और अवसरों के बारे में सीखा।
वर्तमान में AI शोध में अंग्रेजी-भाषी-केंद्रित पूर्वाग्रह है, जिसमें अधिकांश डेटा और सिस्टम अंग्रेजी बोलने वालों द्वारा और उनके लिए बनाए गए हैं। यह मानते हुए कि AI को एक सार्वभौमिक तुल्यकारक होना चाहिए, हमें वास्तव में सार्वभौमिक AI बनाने के लिए हर भाषा को समायोजित और समर्थन करने की आवश्यकता है। पाँच भाषाएँ बोलने में सक्षम होने के कारण, मैं उन सभी से पहचान रखता हूँ - मैं लेबनानी, यूक्रेनी और जर्मन हूँ। मैं इंसान हूँ। इन अनुभवों ने मुझे इस बारे में अमूल्य अंतर्दृष्टि दी है कि हमें क्या जोड़ता है और हमें अद्वितीय बनाता है, और मैं अपने सभी प्रयासों में इस ज्ञान को अपने साथ रखता हूँ।