कृत्रिम बुद्धि के क्षेत्र में नवाचार की एक अप्रत्याशित वृद्धि का अनुभव कर रहा है, फिर भी सार्वजनिक भाषण अक्सर बड़े भाषा मॉडल (एलएलएम) पर निहित रहता है। और मेटा के मुख्य एआई वैज्ञानिक ने वर्तमान एआई के प्रगति के परतों को वापस काट दिया, एक दृष्टि को प्रकट किया जो टोकन पूर्वानुमान से कहीं अधिक फैलता है. LeCun की अंतर्दृष्टि पारंपरिक ज्ञान को चुनौती देती है, जो उन प्रणालियों की ओर एक परिवर्तन पर जो वास्तव में समझते हैं, तर्क करते हैं, और हमारे जटिल भौतिक दुनिया के साथ बातचीत करते हैं। बिल डाली जैन लेक भाषा की सीमा से परे जैन LeCun खुले तौर पर स्वीकार करता है कि वह अब एलएलएम से ज्यादा दिलचस्पी नहीं है। . not so interested in LLMs anymore जबकि वे अधिक डेटा, गणना और सिंथेटिक डेटा उत्पादन के माध्यम से मार्जिन में सुधार करना जारी रखते हैं, लेकन उन्हें "समझने का एक सरल तरीका" के रूप में देखता है। भौतिक दुनिया को समझना: मशीनों को वास्तविक दुनिया के भौतिकी और बातचीत की बारीकियों को कैसे समझना है? स्थायी स्मृति: लंबी अवधि, सुलभ स्मृति के लिए क्षमता के साथ एआई सिस्टम विकसित करना। तर्क: एलएलएम में वर्तमान, अक्सर मूलभूत, तर्क के रूपों से परे आगे बढ़ना अधिक परिष्कृत, सहज तरीकों के लिए। योजना: मानव संज्ञानात्मक प्रक्रियाओं के समान, विशिष्ट लक्ष्यों को प्राप्त करने के लिए कार्यों की अनुक्रमों की योजना बनाने की अनुमति दें। LeCun का सुझाव है कि तकनीकी समुदाय, जबकि वर्तमान में एलएलएम पर केंद्रित है, शायद पांच साल में इन "अकादमिक अखबारों" के बारे में उत्साहित हो जाएगा। वास्तविक दुनिया की चुनौती: क्यों टोकन कम हो जाते हैं LeCun के अनुसार, वर्तमान एलएलएम की मौलिक सीमा उनके टोकन-आधारित दृष्टिकोण में है. टोकन, आमतौर पर संभावनाओं के एक समाप्त सेट का प्रतिनिधित्व करते हैं (एलएलएम के लिए लगभग 100,000), भाषा जैसे विशिष्ट डेटा के लिए अच्छी तरह से उपयुक्त हैं. हालांकि, भौतिक दुनिया "उच्च आयाम और निरंतर" है। मनुष्य जीवन के पहले कुछ महीनों में "विश्व मॉडल" प्राप्त करते हैं, जिससे हमें कारण और प्रभाव को समझने की अनुमति मिलती है - उदाहरण के लिए, एक बोतल को ऊपर से कैसे धक्का दे सकता है, जबकि इसे नीचे से धक्का दे सकता है। एक पिक्सेल स्तर पर वीडियो की तरह उच्च आयाम, निरंतर डेटा की भविष्यवाणी करके दुनिया को समझने के लिए सिस्टम को प्रशिक्षित करने की कोशिशें काफी हद तक विफल हो गई हैं. ऐसे सिस्टम अप्रत्याशित विवरणों को आविष्कार करने की कोशिश करने के लिए अपने संसाधनों को खराब कर देते हैं, जिससे "सभी संसाधनों की बर्बादी" होती है। यहां तक कि भ्रष्ट संस्करणों से छवियों को पुनर्निर्माण करके काम करने वाली आत्म-अनुरूपित सीखने की तकनीकें भी वैसे ही विकल्प आर्किटेक्चरों के रूप में काम नहीं कर पाती हैं. ऐसा इसलिए है क्योंकि वास्तविकता के कई पहलुओं को एक granular स्तर पर स्वाभाविक रूप से अप्रत्याशित नहीं किया जा सकता है, जैसे कि एक वीडियो अनु Joint Embedding Predictive Architectures (JAPA): दुनिया के मॉडल का भविष्य इस चुनौती का जवाब, LeCun का तर्क है, Joint Embedding Predictive Architectures (JAPA) में है. जेनेरेटिव मॉडल के विपरीत जो पिक्सेल स्तर के पुनर्निर्माण का प्रयास करते हैं, JAPA डेटा के "अग्रस्त प्रतिनिधित्वों" को सीखने पर केंद्रित है। How JAPA Works: इनपुट का एक टुकड़ा (उदाहरण के लिए, वीडियो का एक टुकड़ा या एक छवि) एक निष्कर्षण प्रतिनिधित्व बनाने के लिए एक एन्कोडर के माध्यम से चलाया जाता है। इनपुट का एक निरंतर या परिवर्तित संस्करण भी एक एन्कोडर के माध्यम से चलाया जाता है। सिस्टम फिर इस "संस्करण अंतरिक्ष" (लाप्त अंतरिक्ष) के भीतर पूर्वानुमान करने का प्रयास करता है, न कि कच्चे इनपुट अंतरिक्ष में। यह दृष्टिकोण टूटने की समस्या से बचता है जहां सिस्टम इनपुट को अनदेखा कर सकते हैं और निरंतर, अनौपचारिक प्रतिनिधित्व पैदा कर सकते हैं, एक बाधा जिसे दूर करने में वर्षों लग गए। एजेंटिक प्रणालियों के लिए जो तर्क और योजना कर सकते हैं, जेपीए एक शक्तिशाली तंत्र प्रदान करता है. एक पूर्वानुमान की कल्पना करें जो, दुनिया की वर्तमान स्थिति का निरीक्षण करके, "दुनिया की अगली स्थिति का अनुमान लगा सकता है, जब तक कि मैं एक ऐसा कार्य कर सकता हूं जिसे मैं कल्पना कर रहा हूं"। JAPA for Reasoning and Planning: LeCun इस बात को वर्तमान "वास्तविक तर्क प्रणालियों" के साथ मजबूत रूप से विपरीत करता है जो बड़ी संख्या में टोकन अनुक्रम उत्पन्न करते हैं और फिर एक दूसरे तंत्रिका नेटवर्क का उपयोग करते हैं ताकि सबसे अच्छा चयन किया जा सके. वह इसे "प्रोग्राम को लिखने के तरीके को जानने के बिना एक प्रोग्राम लिखने" के समान करता है - किसी भी चीज़ के लिए "सभी संक्षिप्त अनुक्रमों से परे एक पूरी तरह से अप्रत्याशित" विधि, क्योंकि यह लंबाई के साथ एक्सपोनेंटिक रूप से स्केल करता है. इसके बजाय, सच्चा तर्क एक निष्कर्षित मानसिक स्थिति में होता है, न कि "टोकनों को चारों ओर खींचना". एक बिल्ली, उदाहरण के लिए, भाषा या ट JAPA की क्षमता का एक व्यावहारिक उदाहरण VJA (Video Joint Embedding Predictive Architecture) परियोजना है, वर्तमान में मेटा में विकास में है. VJA सिस्टम, छोटे वीडियो सेगमेंट्स पर प्रशिक्षित है ताकि मास्क किए गए संस्करणों से पूर्ण वीडियो के प्रतिनिधित्वों का पूर्वानुमान किया जा सके, यह पता लगाने की क्षमता का प्रदर्शन कर रहा है कि क्या एक वीडियो "शारीरिक रूप से संभव है या नहीं"। पूर्वानुमान त्रुटि को मापकर, यह "अन्य" घटनाओं को चिह्नित कर सकता है जैसे स्वस्थ रूप से दिखाई देते हैं या गायब हो जाते हैं, या भौतिकी का विरोध करते हैं। यह दर्शाता है कि कैसे बच्चे इंसान सहज भौतिकी सीखते हैं: 9 महीने के बच्चे को आश्चर्य होता उन्नत मशीन इंटेलिजेंस (AMI) के लिए रास्ता LeCun कृत्रिम जनरल इंटेलिजेंस (AGI) की तुलना में उन्नत मशीन इंटेलिजेंस (AMI) शब्द को पसंद करता है, मानव बुद्धि की अत्यधिक विशेषज्ञता प्रकृति को संदर्भित करते हुए। मानव स्तर पर एआई संभावित रूप से एक दशक या उससे अधिक के भीतर आ सकता है। मानव स्तर पर एआई संभावित रूप से एक दशक या उससे अधिक के भीतर आ सकता है। हालांकि, वह एआई में अत्यधिक आशावाद के ऐतिहासिक पैटर्न के खिलाफ चेतावनी देता है, जहां प्रत्येक नया पैराडाइम एक दशक के भीतर मानव स्तर की बुद्धि के लिए मार्ग के रूप में घोषित किया जाता है। एक प्रमुख बोतल बूंद डेटा है. एलएलएम को बड़ी मात्रा में पाठ (उदाहरण के लिए, 30 ट्रिलियन टोकन, 400,000 साल की पढ़ाई के बराबर) पर प्रशिक्षित किया जाता है). इसके विपरीत, एक 4 साल का बच्चा केवल 16,000 घंटे में दृष्टि के माध्यम से समान मात्रा में डेटा को संसाधित करता है, जो दृश्य सीखने की विशाल दक्षता को दर्शाता है। एएमआई को लॉक करने की कुंजी, लेकन के अनुसार, जेपीए आर्किटेक्चर को बड़े पैमाने पर प्रशिक्षित करने के लिए "अच्छे नुस्खा" का पता लगाना है. जैसा कि इंजीनियरिंग ट्रिक्स, गैर-लाइनरताओं और नवाचारों के सही संयोजन को समझने में समय लगा, जैसे कि रिसेनेट (पिछले दशक में विज्ञान में सबसे अधिक उद्धृत पत्र) गहरे न्यूरोल नेटवर्क और ट्रांसफार्मर को प्रभावी ढंग से प्रशिक्षित करने के लिए, जेपीए के लिए एक समान विफलता की आवश्यकता है। एआई का प्रभाव: जीवन बचाने से उत्पादकता उपकरणों तक भविष्य के पैरामिडम पर ध्यान केंद्रित करने के बावजूद, LeCun उजागर करता है कि एआई के बहुत सकारात्मक प्रभाव पहले से ही हैं: विज्ञान और चिकित्सा: एआई दवा डिजाइन, प्रोटीन प्लगिंग, और जीवन के तंत्रों को समझने में परिवर्तन कर रहा है. चिकित्सा छविकरण में, गहरी सीखने के सिस्टम ट्यूमर के लिए प्री-स्क्रीन मैमोग्राम करते हैं, और एआई कम डेटा से उच्च संकल्प की छवियों को पुनर्प्राप्त करके एमआरआई स्कैन समय को चार गुना कम करता है। ऑटोमोबाइल: ड्राइविंग सहायता और स्वचालित आपातकालीन ब्रेक सिस्टम, अब यूरोप में अनिवार्य हैं, दुर्घटनाओं को 40% तक कम करते हैं, जीवन बचाते हैं। उत्पादकता और रचनात्मकता: एआई लोगों को प्रतिस्थापित नहीं करता है, लेकिन "शक्ति उपकरण" के रूप में कार्य करता है जो व्यक्तियों को अधिक उत्पादक और रचनात्मक बनाता है, चाहे कोडिंग सहायक, चिकित्सा में या कलात्मक प्रयासों में। हालांकि, व्यापक तैनाती के लिए रास्ता हमेशा चिकनी नहीं होता है। ऑटोमोटिव ड्राइविंग जैसे अनुप्रयोगों में "सटीकता और विश्वसनीयता" की आवश्यकता (जहां गलतियां घातक हो सकती हैं) एआई सिस्टमों को फैलाना और तैनाती करना "बहुत से अधिक कठिन" बनाता है। यह वह जगह है जहां एआई अक्सर विफल होता है - बुनियादी तकनीक या डेमो में नहीं, बल्कि मौजूदा सिस्टम में विश्वसनीय रूप से एकीकृत करने में। एआई के "डार्क पक्ष" के बारे में, जैसे गहरे फैक और झूठे समाचार, LeCun आश्चर्यजनक आशावाद व्यक्त करता है। मेटा का अनुभव बताता है कि, एलएलएम की उपलब्धता के बावजूद, उन्होंने सोशल नेटवर्क पर पोस्ट किए जाने वाले जनरेटिव सामग्री में "बड़ी वृद्धि" नहीं देखी है, या कम से कम खराब तरीके से नहीं। वह "गैलेक्टिका" एपिसोड को बताता है, जहां मेटा के वैज्ञानिक साहित्य के लिए ओपन-सॉर्ड एलएलएम को "विट्रिओल" के साथ मुलाकात की गई और डर के कारण हटा दिया गया है, केवल ChatGPT को हफ्तों बाद मनाने के लिए। LeCun का मानना है कि "बुद्ध उपयोग के खिलाफ विरोधी उपाय सिर्फ बेहतर एआई है" - ओपन सोर्स और वैश्विक सहयोग का अनिवार्य भूमिका LeCun की दर्शन का एक मूल सिद्धांत ओपन-सॉर्ड एआई प्लेटफार्मों की पूर्ण आवश्यकता है. वह जोर देता है कि "अच्छे विचार बहुत से लोगों के बातचीत और विचारों का आदान-प्रदान से आते हैं." कोई भी इकाई नवाचार पर एकमात्रता नहीं रखती है, जैसा कि क्रांतिकारी रिसेनेट वास्तुकला द्वारा दिखाया गया है, जो माइक्रोसॉफ्ट रिसर्च बीजिंग में चीनी वैज्ञानिकों से आया था। मेटा के ओपन सोर्स प्रतिबद्धता, PyTorch और LLaMA द्वारा उदाहरण के रूप में, इस विश्वास से प्रेरित है कि यह स्टार्टअप के एक समृद्ध पारिस्थितिकी तंत्र को बढ़ावा देता है और सबसे अधिक संख्या में स्मार्ट लोगों को आवश्यक कार्यक्षमताओं का निर्माण करने में योगदान देने की अनुमति देता है. LLaMA, एक नवीनतम एलएलएम जो खुले वजन के साथ पेश किया जाता है, ने एक अरब से अधिक डाउनलोड देखे हैं, जो एआई परिदृश्य में क्रांति शुरू कर दिया है। Why Open Source AI is Crucial for the Future: एआई सहायकों की विविधता: भविष्य में जहां एआई लगभग हर डिजिटल बातचीत (उदाहरण के लिए, स्मार्ट चश्मे) को मध्यस्थ करता है, एक ही छोटे से कंपनियों को आवश्यक सहायकों की विविधता प्रदान नहीं कर सकता है. हमें सहायकों की आवश्यकता है जो "दुनिया के सभी भाषाओं, दुनिया के सभी संस्कृतियों, सभी मूल्य प्रणालियों को समझते हैं," और विभिन्न पूर्वाग्रहों और रायओं को व्यक्त कर सकते हैं, जैसे कि एक विविध प्रेस लोकतंत्र के लिए महत्वपूर्ण है। वितरित प्रशिक्षण: कोई भी इकाई दुनिया के सभी डेटा को सभी भाषाओं में इकट्ठा नहीं करेगी. भविष्य के मॉडल में ओपन सोर्स फाउंडेशन मॉडल शामिल हैं जो वितरित तरीके से प्रशिक्षित किए गए हैं, डेटा सेंटर वैश्विक रूप से डेटा के उपसेट तक पहुंचते हैं ताकि एक "सामान्य मॉडल" को प्रशिक्षित किया जा सके. स्वायत्त डेटा पर फिनिंग: एलएलएएमए जैसे ओपन-सॉर्ड मॉडल कंपनियों को अपने स्वयं के स्वायत्त डेटा पर डाउनलोड करने और फिनिंग करने की अनुमति देते हैं, इसे अपलोड करने की आवश्यकता के बिना, समर्पित ऊर्ध्वाधर अनुप्रयोगों और स्टार्टअप बिजनेस मॉडल का समर्थन करते हैं। LeCun उच्चारण करता है कि जिन कंपनियों के आय केवल एआई सेवाओं से जुड़े नहीं हैं (जैसे मेटा के विज्ञापन मॉडल) को अपने मॉडल को ओपन-सॉर्सिंग से कम खोने के लिए और अधिक कमाने के लिए है, जो Google जैसे कंपनियों के विपरीत है जो इसे अपने कोर खोज व्यवसाय के लिए एक खतरा के रूप में देख सकते हैं। हार्डवेयर: अगली एआई क्रांति को ईंधन देना जबकि जीपीयू ने अविश्वसनीय प्रगति (केप्लर से ब्लैकवेल तक क्षमता में 5,000 से 10,000 गुना वृद्धि) देखी है, निष्कर्षण अंतरिक्ष में तर्क का कंप्यूटर लागत का मतलब है कि "हम हार्डवेयर में सभी प्रतिस्पर्धा की जरूरत होगी जिसे हम प्राप्त कर सकते हैं। LeCun ज्यादातर निकट भविष्य में सामान्य एआई कार्यों के लिए न्यूरोमॉर्फिक हार्डवेयर, ऑप्टिकल कंप्यूटिंग और क्वांटम कंप्यूटिंग के बारे में संदेहजनक है. वह इंगित करता है कि डिजिटल अर्धचालक उद्योग इतनी "गहरा स्थानीय न्यूनतम" में है कि वैकल्पिक प्रौद्योगिकियों को पकड़ने के लिए एक विशाल चुनौती का सामना करना पड़ता है. जबकि मस्तिष्क स्पीक के माध्यम से डिजिटल रूप से संचार करता है, न्यूरोमॉर्फिक दृष्टिकोण अक्सर हार्डवेयर के पुनः उपयोग और कुशल बहु चिप संचार के साथ संघर्ष करते हैं. हालांकि, वह प्रोसेसर-इन-मेमोरी (पीआईएम) या एनालॉग / डिजिटल प्रोसेसर और मेमोरी प्रौद्योगिकियों में कुछ विशिष्ट "एज कंप्यूटिंग" परिदृश्यों के लिए वादा देखता है, जैसे कि स्मार्ट चश्मा में कम शक्ति वाली दृश्य प्रसंस्करण। इसे दृश्य कोरल में भेजने से पहले इसे संपीड़ित करने के लिए, साबित करते हुए कि डेटा, कंप्यूटिंग स्वयं नहीं, अक्सर सबसे अधिक ऊर्जा का उपभोग करता है. यह ऊर्जा कुशल, हमेशा पर एआई के लिए एक आशाजनक दिशा है. सेंसर पर भविष्य: सुपर बुद्धिमान आभासी लोगों का एक स्टाफ अंत में, LeCun एक भविष्य की कल्पना करता है जहां एआई सिस्टम मानव क्षमताओं को बढ़ावा देने वाले "शक्ति उपकरण" हैं, न कि उन्हें प्रतिस्थापित करने के लिए। भविष्य के एआई के साथ हमारे रिश्ते एक कमांड का हिस्सा होंगे; हम उनके "बॉस" होंगे, हमारे लिए काम करने वाले "सुपर-स्मार्ट वर्चुअल लोगों के एक स्टाफ" के साथ। मूल रूप से, एआई का भविष्य अचानक दिखाई देने वाली एक मोनोलिटिक, ब्लैक बॉक्स इकाई नहीं है. इसके बजाय, यह एक सहयोगी, पुनरावृत्तिपूर्ण प्रक्रिया है, जैसे कि एक विशाल, जटिल शहर का निर्माण, जहां प्रत्येक बिल्डर, आर्किटेक्ट और इंजीनियर अपने अद्वितीय विशेषज्ञता को एक साझा नीलामी में योगदान देता है, जो उन्नत मशीन इंटेलिजेंस की एक जीवंत और विविध मेट्रोपोलिस का नेतृत्व करता है।