paint-brush
OpenAI के सह-संस्थापक इल्या सुतस्केवर के साथ एक साक्षात्कारद्वारा@Eye on AI
16,193 रीडिंग
16,193 रीडिंग

OpenAI के सह-संस्थापक इल्या सुतस्केवर के साथ एक साक्षात्कार

द्वारा [email protected]15m2023/03/20
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

एआई ने पहले ही हमारे जीवन के कई पहलुओं पर कब्जा कर लिया है। लेकिन जो आ रहा है वह कहीं अधिक उन्नत है, कहीं अधिक शक्तिशाली है। हम अज्ञात क्षेत्र में जा रहे हैं। लेकिन यह भी महत्वपूर्ण है कि अतिप्रतिक्रिया न करें, कछुओं की तरह उस तेज धूप से पीछे न हटें जो अब हम पर चमक रही है।
featured image - OpenAI के सह-संस्थापक इल्या सुतस्केवर के साथ एक साक्षात्कार
craig@eye-on.ai HackerNoon profile picture

जैसा कि हम कृत्रिम बुद्धिमत्ता से भरे भविष्य की ओर बढ़ रहे हैं, कई टिप्पणीकार जोर-जोर से सोच रहे हैं कि क्या हम बहुत तेजी से आगे बढ़ रहे हैं। तकनीकी दिग्गज, शोधकर्ता और निवेशक सभी सबसे उन्नत एआई विकसित करने के लिए पागल हो गए हैं।


लेकिन क्या वे जोखिमों पर विचार कर रहे हैं, चिंता करने वाले पूछते हैं ?


सवाल पूरी तरह से विवादास्पद नहीं है, और निश्चिंत रहें कि डायस्टोपियन संभावनाओं पर विचार करने वाले सैकड़ों तीक्ष्ण दिमाग हैं - और उनसे बचने के तरीके।


लेकिन तथ्य यह है कि भविष्य अज्ञात है, इस शक्तिशाली नई तकनीक के निहितार्थ उतने ही अकल्पनीय हैं जितने कि इंटरनेट के आगमन के समय सोशल मीडिया थे।


अच्छा होगा और बुरा होगा, लेकिन हमारे भविष्य में शक्तिशाली आर्टिफिशियल इंटेलिजेंस सिस्टम होंगे और हमारे पोते-पोतियों के भविष्य में और भी शक्तिशाली एआई होंगे। इसे रोका नहीं जा सकता, लेकिन समझा जा सकता है।


मैंने इस नई तकनीक के बारे में ओपनएआई के सह-संस्थापक, इल्या स्टुट्स्केव आर के साथ बात की, जो गैर-लाभकारी एआई अनुसंधान संस्थान है, जिसके स्पिनऑफ़ पृथ्वी पर सबसे अधिक लाभदायक संस्थाओं में से एक होने की संभावना है।


इलिया के साथ मेरी बातचीत GPT-4 के रिलीज़ होने से कुछ समय पहले हुई थी, OpenAI की विशाल AI प्रणाली की नवीनतम पुनरावृत्ति, जिसने पाठ के अरबों शब्दों का उपभोग किया है - किसी भी मानव से अधिक संभवतः जीवन भर पढ़ सकता है।


GPT का अर्थ है जनरेटिव प्री-ट्रेन ट्रांसफॉर्मर, इस होमरिक पॉलीपेमस को समझने में तीन महत्वपूर्ण शब्द। ट्रांसफार्मर विशाल के दिल में एल्गोरिथम का नाम है।


पूर्व-प्रशिक्षित पाठ के विशाल कोष के साथ विशाल की शिक्षा को संदर्भित करता है, इसे अंतर्निहित पैटर्न और भाषा के संबंधों को सिखाता है - संक्षेप में, इसे दुनिया को समझने के लिए सिखाता है।


जनरेटिव का मतलब है कि ज्ञान के इस आधार से एआई नए विचार पैदा कर सकता है।


एआई ने पहले ही हमारे जीवन के कई पहलुओं पर कब्जा कर लिया है। लेकिन जो आ रहा है वह कहीं अधिक उन्नत है, कहीं अधिक शक्तिशाली है। हम अज्ञात क्षेत्र में जा रहे हैं। और यह विचार करने लायक है कि इसका क्या मतलब है।


लेकिन यह भी महत्वपूर्ण है कि अधिक प्रतिक्रिया न करें, कछुओं की तरह उस तेज धूप से पीछे न हटें जो अब हम पर चमक रही है। होमर की महाकाव्य कविता "द ओडिसी" में, साइक्लोप्स पॉलीपेमस ओडीसियस और उसके चालक दल को अपनी गुफा में फँसाता है, उन्हें खाने का इरादा रखता है।


लेकिन ओडीसियस विशाल को अंधा करने और भागने में सफल होता है। एआई हमें नहीं खाएगा।


Ilya Sutskever OpenAI के सह-संस्थापक और मुख्य वैज्ञानिक हैं और बड़े भाषा मॉडल GPT-4 और इसकी सार्वजनिक संतान, ChatGPT के पीछे प्राथमिक दिमागों में से एक हैं, जो मुझे नहीं लगता कि यह कहना अतिशयोक्ति है कि यह दुनिया को बदल रहा है।


यह पहली बार नहीं है जब इल्या ने दुनिया को बदला है। वह एलेक्सनेट के लिए मुख्य प्रेरक थे, दृढ़ तंत्रिका नेटवर्क जिसके नाटकीय प्रदर्शन ने 2012 में वैज्ञानिक समुदाय को चकित कर दिया और गहन शिक्षण क्रांति को स्थापित किया।


निम्नलिखित हमारी बातचीत का एक संपादित प्रतिलेख है।


क्रेग: इल्या, मुझे पता है कि तुम रूस में पैदा हुए थे। कंप्यूटर विज्ञान में आपकी रुचि क्या थी, अगर वह प्रारंभिक आवेग था, या तंत्रिका विज्ञान या जो कुछ भी था।


इल्या: दरअसल, मेरा जन्म रूस में हुआ था। मैं इज़राइल में पला-बढ़ा, और फिर एक किशोर के रूप में, मेरा परिवार कनाडा में आ गया। मेरे माता-पिता कहते हैं कि मुझे कम उम्र से ही एआई में दिलचस्पी थी। मैं भी चेतना से बहुत प्रेरित था। मैं इससे बहुत परेशान था, और मैं उन चीजों के बारे में उत्सुक था जो मुझे इसे बेहतर ढंग से समझने में मदद कर सकें।


मैंने ज्योफ हिंटन के साथ काम करना शुरू कर दिया था [डीप लर्निंग के संस्थापकों में से एक, GPT-4 के पीछे एआई की तरह, और उस समय टोरंटो विश्वविद्यालय में एक प्रोफेसर] जब मैं 17 साल का था। क्योंकि हम कनाडा चले गए थे और मैं तुरंत टोरंटो विश्वविद्यालय में शामिल होने में सक्षम था। मैं वास्तव में मशीन लर्निंग करना चाहता था, क्योंकि यह कृत्रिम बुद्धिमत्ता का सबसे महत्वपूर्ण पहलू था जो उस समय पूरी तरह से दुर्गम था।


वह 2003 था। हम यह मान लेते हैं कि कंप्यूटर सीख सकते हैं, लेकिन 2003 में, हमने यह मान लिया कि कंप्यूटर सीख नहीं सकते । उस समय एआई की सबसे बड़ी उपलब्धि डीप ब्लू थी, [आईबीएम का] शतरंज खेलने वाला इंजन [जिसने 1997 में विश्व चैंपियन गैरी कास्परोव को हराया था]।


लेकिन वहाँ, आपके पास यह खेल है और आपके पास यह शोध है, और आपके पास यह निर्धारित करने का यह सरल तरीका है कि क्या एक स्थिति दूसरी से बेहतर है। और वास्तव में ऐसा महसूस नहीं हुआ कि यह संभवतः वास्तविक दुनिया पर लागू हो सकता है क्योंकि कोई सीख नहीं थी। सीखना यह बड़ा रहस्य था। और मुझे वास्तव में, वास्तव में सीखने में दिलचस्पी थी। मेरे सौभाग्य से, ज्योफ हिंटन विश्वविद्यालय में एक प्रोफेसर थे, और हमने लगभग तुरंत ही एक साथ काम करना शुरू कर दिया।


तो बुद्धि बिल्कुल कैसे काम करती है? हम कंप्यूटर को थोड़ा सा भी बुद्धिमान कैसे बना सकते हैं? एआई में बहुत छोटा, लेकिन वास्तविक योगदान देने का मेरा बहुत स्पष्ट इरादा था। तो, प्रेरणा थी, क्या मैं समझ सकता हूँ कि बुद्धि कैसे काम करती है? और इसमें अपना योगदान भी दें? तो वह मेरी शुरुआती प्रेरणा थी। वह लगभग ठीक 20 साल पहले था।


संक्षेप में, मुझे इस बात का अहसास था कि यदि आप एक बड़े तंत्रिका नेटवर्क को एक बड़े पर्याप्त डेटासेट पर प्रशिक्षित करते हैं, जो कुछ जटिल कार्य निर्दिष्ट करता है जो लोग करते हैं, जैसे कि दृष्टि, तो आप आवश्यक रूप से सफल होंगे। और इसके लिए तर्क अप्रासंगिक था; हम जानते हैं कि मानव मस्तिष्क इन कार्यों को हल कर सकता है और उन्हें जल्दी से हल कर सकता है। और मानव मस्तिष्क धीमे न्यूरॉन्स वाला एक तंत्रिका नेटवर्क है।


तो, हमें बस एक छोटा लेकिन संबंधित तंत्रिका नेटवर्क लेने और डेटा पर प्रशिक्षित करने की आवश्यकता है। और कंप्यूटर के अंदर सबसे अच्छा तंत्रिका नेटवर्क उस तंत्रिका नेटवर्क से संबंधित होगा जो हमारे दिमाग में है जो इस कार्य को करता है।


क्रेग: 2017 में, "अटेंशन इज़ ऑल यू नीड" पेपर आत्म-ध्यान और ट्रांसफॉर्मर की शुरुआत करता है। GPT प्रोजेक्ट किस बिंदु पर शुरू हुआ? क्या ट्रांसफॉर्मर के बारे में कुछ अंतर्ज्ञान था?


ILYA: तो, संदर्भ के लिए, OpenAI में शुरुआती दिनों से, हम इस विचार की खोज कर रहे थे कि अगली चीज़ की भविष्यवाणी करना आपके लिए आवश्यक है। हम उस समय के बहुत अधिक सीमित तंत्रिका नेटवर्क के साथ इसकी खोज कर रहे थे, लेकिन आशा थी कि यदि आपके पास एक तंत्रिका नेटवर्क है जो अगले शब्द की भविष्यवाणी कर सकता है, तो यह अप्रशिक्षित शिक्षा को हल करेगा। तो वापस GPTs से पहले, अनियंत्रित शिक्षा को मशीन सीखने का पवित्र कंघी बनानेवाले की रेती माना जाता था।


अब यह पूरी तरह से हल हो गया है, और कोई इसके बारे में बात भी नहीं करता, लेकिन यह एक पवित्र कंघी बनानेवाले की रेती थी। यह बहुत रहस्यमय था, और इसलिए हम इस विचार की खोज कर रहे थे। मैं इसके बारे में वास्तव में उत्साहित था, कि अगले शब्द की अच्छी तरह से भविष्यवाणी करने से आपको अप्रशिक्षित शिक्षा मिलेगी।


लेकिन हमारे तंत्रिका नेटवर्क कार्य के लिए तैयार नहीं थे। हम आवर्तक तंत्रिका नेटवर्क का उपयोग कर रहे थे। जब ट्रांसफॉर्मर बाहर आया, सचमुच जैसे ही पेपर निकला, सचमुच अगले दिन, यह मेरे लिए स्पष्ट था, कि ट्रांसफॉर्मर ने दीर्घकालिक निर्भरताओं को सीखने के पुनरावर्ती तंत्रिका नेटवर्क की सीमाओं को संबोधित किया।


यह एक तकनीकी बात है। लेकिन हमने तुरंत ट्रांसफॉर्मर पर स्विच किया। और इसलिए, ट्रांसफॉर्मर के साथ बहुत नवजात GPT प्रयास जारी रहा। इसने बेहतर काम करना शुरू कर दिया, और आप इसे बड़ा करते हैं, और फिर आप इसे बड़ा करते रहते हैं।


और यही कारण है कि अंततः GPT-3 का नेतृत्व किया और अनिवार्य रूप से हम आज जहां हैं।


क्रेग: बड़े भाषा मॉडल के मौजूद होने की सीमा यह है कि उनका ज्ञान उस भाषा में निहित है जिस पर उन्हें प्रशिक्षित किया जाता है। और अधिकांश मानव ज्ञान, मुझे लगता है कि सभी सहमत हैं, गैर-भाषाई है।


उनका उद्देश्य संकेत की सांख्यिकीय स्थिरता को संतुष्ट करना है। उनके पास भाषा से संबंधित वास्तविकता की अंतर्निहित समझ नहीं है। मैंने चैटजीपीटी से अपने बारे में पूछा। इसने पहचान लिया कि मैं एक पत्रकार हूं, कि मैंने इन विभिन्न समाचार पत्रों में काम किया है, लेकिन यह उन पुरस्कारों के बारे में था जो मैंने कभी नहीं जीते। और यह सब खूबसूरती से पढ़ा जाता है, लेकिन इसका बहुत कम हिस्सा अंतर्निहित वास्तविकता से जुड़ा होता है। क्या ऐसा कुछ है जो आपके शोध को आगे बढ़ाने के लिए किया जा रहा है?


इल्या: हम कितने आश्वस्त हैं कि आज हम जो ये सीमाएँ देखते हैं, वे अब से दो साल बाद भी हमारे साथ रहेंगी? मैं इतना आश्वस्त नहीं हूं। एक और टिप्पणी है जो मैं प्रश्न के एक भाग के बारे में करना चाहता हूं, वह यह है कि ये मॉडल केवल सांख्यिकीय नियमितता सीखते हैं और इसलिए वे वास्तव में नहीं जानते कि दुनिया की प्रकृति क्या है।


मेरा एक दृष्टिकोण है जो इससे अलग है। दूसरे शब्दों में, मुझे लगता है कि सांख्यिकीय नियमितताओं को सीखना आंखों की तुलना में कहीं अधिक बड़ा सौदा है।


भविष्यवाणी भी एक सांख्यिकीय घटना है। फिर भी भविष्यवाणी करने के लिए आपको डेटा उत्पन्न करने वाली अंतर्निहित प्रक्रिया को समझने की आवश्यकता है। आपको उस दुनिया के बारे में अधिक से अधिक समझने की जरूरत है जिसने डेटा तैयार किया।


जैसा कि हमारे जनरेटिव मॉडल असाधारण रूप से अच्छे हो जाते हैं, मेरा दावा है कि उनके पास दुनिया और इसकी कई सूक्ष्मताओं को समझने की एक चौंकाने वाली डिग्री होगी। यह दुनिया है जैसा कि टेक्स्ट के लेंस के माध्यम से देखा जाता है। यह इंटरनेट पर मानव द्वारा अभिव्यक्त पाठ के स्थान पर दुनिया के एक प्रक्षेपण के माध्यम से दुनिया के बारे में अधिक से अधिक जानने की कोशिश करता है।


लेकिन फिर भी, यह पाठ पहले से ही दुनिया को अभिव्यक्त करता है। और मैं आपको एक उदाहरण देता हूँ, एक हालिया उदाहरण, जो मुझे लगता है कि वास्तव में कहने वाला और आकर्षक है। मैंने [चैटजीपीटी] के साथ वास्तव में दिलचस्प बातचीत देखी है जहां [चैटजीपीटी] जुझारू और आक्रामक हो गया जब उपयोगकर्ता ने उसे बताया कि उसे लगता है कि Google बिंग की तुलना में एक बेहतर खोज इंजन है।


इस घटना के बारे में सोचने का एक अच्छा तरीका क्या है? इसका मतलब क्या है? आप कह सकते हैं, यह सिर्फ भविष्यवाणी कर रहा है कि लोग क्या करेंगे और लोग ऐसा करेंगे, जो सच है। लेकिन शायद अब हम एक ऐसे बिंदु पर पहुंच रहे हैं जहां इन तंत्रिका नेटवर्क के व्यवहार को समझने के लिए मनोविज्ञान की भाषा को विनियोजित किया जाने लगा है।


अब बात करते हैं सीमाओं की। यह वास्तव में मामला है कि इन तंत्रिका नेटवर्कों में मतिभ्रम करने की प्रवृत्ति होती है। ऐसा इसलिए है क्योंकि एक भाषा मॉडल दुनिया के बारे में सीखने के लिए बहुत अच्छा है, लेकिन अच्छे परिणाम देने के लिए यह थोड़ा कम महान है। और इसके कई तकनीकी कारण हैं। तकनीकी कारण हैं कि कोई भाषा मॉडल दुनिया के बारे में सीखने, विचारों, अवधारणाओं, लोगों, प्रक्रियाओं के अविश्वसनीय प्रतिनिधित्व सीखने में बेहतर है, लेकिन इसका आउटपुट उतना अच्छा नहीं है जितना कोई उम्मीद करेगा, या बल्कि जितने अच्छे हो सकते हैं।


ILYA: यही कारण है कि, उदाहरण के लिए, चैटजीपीटी जैसी प्रणाली के लिए, जो एक भाषा मॉडल है, एक अतिरिक्त सुदृढीकरण सीखने की प्रशिक्षण प्रक्रिया है। हम इसे ह्यूमन फीडबैक से रीइन्फोर्समेंट लर्निंग कहते हैं।


हम कह सकते हैं कि प्री-ट्रेनिंग प्रक्रिया में आप दुनिया के बारे में सब कुछ सीखना चाहते हैं। मानव प्रतिक्रिया से सुदृढीकरण सीखने के साथ, हम आउटपुट की परवाह करते हैं। हम कहते हैं, कभी भी आउटपुट अनुपयुक्त होता है, इसे दोबारा न करें। हर बार आउटपुट समझ में नहीं आता है, इसे दोबारा न करें।


और यह अच्छे आउटपुट देना जल्दी सीखता है। लेकिन यह आउटपुट का स्तर है, जो भाषा मॉडल पूर्व-प्रशिक्षण प्रक्रिया के दौरान नहीं होता है।


अब मतिभ्रम के बिंदु पर, इसमें समय-समय पर सामान बनाने की प्रवृत्ति होती है, और यह कुछ ऐसा है जो उनकी उपयोगिता को भी बहुत सीमित करता है।


लेकिन मुझे पूरी उम्मीद है कि मानव प्रतिक्रिया कदम से इस बाद के सुदृढीकरण सीखने में सुधार करके, हम इसे मतिभ्रम नहीं करना सिखा सकते हैं। अब आप कह सकते हैं कि क्या यह वास्तव में सीखने वाला है? मेरा जवाब है, आइए जानें।


जिस तरह से हम आज काम करते हैं वह यह है कि हम अपने तंत्रिका नेटवर्क को व्यवहार करने के लिए सिखाने के लिए, चैटजीपीटी को व्यवहार करने के लिए सिखाने के लिए लोगों को नियुक्त करते हैं। आप बस इसके साथ बातचीत करते हैं, और यह आपकी प्रतिक्रिया से देखता है, यह अनुमान लगाता है, ओह, यह वह नहीं है जो आप चाहते थे। आप इसके आउटपुट से खुश नहीं हैं।


इसलिए, आउटपुट अच्छा नहीं था, और इसे अगली बार कुछ अलग करना चाहिए। मुझे लगता है कि इस बात की काफी अधिक संभावना है कि यह दृष्टिकोण मतिभ्रम को पूरी तरह से संबोधित करने में सक्षम होगा।


क्रेग: यान लेकन [फेसबुक में मुख्य एआई वैज्ञानिक और गहन शिक्षा के एक और शुरुआती अग्रणी] का मानना है कि बड़े भाषा मॉडल से जो गायब है वह यह अंतर्निहित विश्व मॉडल है जो गैर-भाषाई है जिसे भाषा मॉडल संदर्भित कर सकता है। मैं यह सुनना चाहता था कि आप उसके बारे में क्या सोचते हैं और क्या आपने उसका अन्वेषण किया है।


इल्या: मैंने यान लेकन के प्रस्ताव की समीक्षा की और वहां कई विचार हैं, और वे अलग-अलग भाषाओं में व्यक्त किए गए हैं और वर्तमान प्रतिमान से कुछ छोटे अंतर हो सकते हैं, लेकिन मेरे विचार से, वे बहुत महत्वपूर्ण नहीं हैं।


पहला दावा यह है कि एक ऐसी प्रणाली के लिए बहुविध समझ होना वांछनीय है जहां यह केवल पाठ से दुनिया के बारे में नहीं जानती है।


और उस पर मेरी टिप्पणी यह होगी कि वास्तव में बहुआयामी समझ वांछनीय है क्योंकि आप दुनिया के बारे में अधिक सीखते हैं, आप लोगों के बारे में अधिक सीखते हैं, आप उनकी स्थिति के बारे में अधिक सीखते हैं, और इसलिए सिस्टम यह समझने में सक्षम होगा कि उसे क्या कार्य करना चाहिए हल करें, और लोग और वे क्या बेहतर चाहते हैं।


हमने उस पर काफी काम किया है, विशेष रूप से दो प्रमुख न्यूरल नेट के रूप में जो हमने किया है। एक को क्लिप कहा जाता है और एक को डल-ई कहा जाता है। और दोनों ही इस बहुआयामी दिशा की ओर बढ़ते हैं।


लेकिन मैं यह भी कहना चाहता हूं कि मैं स्थिति को बाइनरी के रूप में भी नहीं देखता-या, कि अगर आपके पास विजन नहीं है, अगर आप दुनिया को विजुअली या वीडियो से नहीं समझते हैं, तो चीजें काम नहीं करेंगी।


और मैं उसके लिए मामला बनाना चाहता हूं। इसलिए, मुझे लगता है कि छवियों और आरेखों आदि से कुछ चीजें सीखना बहुत आसान है, लेकिन मेरा दावा है कि आप अभी भी उन्हें केवल पाठ से ही सीख सकते हैं, बस धीरे-धीरे। और मैं आपको एक उदाहरण देता हूँ। रंग की धारणा पर विचार करें।


निश्चित रूप से कोई केवल पाठ से रंग की धारणा नहीं सीख सकता है, और फिर भी जब आप एम्बेडिंग को देखते हैं - मुझे एक एम्बेडिंग की अवधारणा को समझाने के लिए एक छोटा चक्कर लगाने की आवश्यकता है। प्रत्येक तंत्रिका नेटवर्क शब्दों, वाक्यों, अवधारणाओं को प्रतिनिधित्व के माध्यम से प्रस्तुत करता है, 'एम्बेडिंग', जो उच्च-आयामी वैक्टर हैं।


और हम उन उच्च-आयामी सदिशों को देख सकते हैं और देख सकते हैं कि क्या के समान है; नेटवर्क इस अवधारणा या उस अवधारणा को कैसे देखता है? और इसलिए, हम रंगों के एम्बेडिंग को देख सकते हैं और यह जानता है कि बैंगनी लाल की तुलना में नीले रंग के अधिक समान है, और यह जानता है कि लाल बैंगनी की तुलना में नारंगी के समान अधिक है। यह उन सभी बातों को सिर्फ पाठ से जानता है। यह कैसे हो सकता?


यदि आपके पास दृष्टि है, तो रंगों के बीच के भेद आप पर कूद पड़ते हैं। आप उन्हें तुरंत समझ जाते हैं। जबकि पाठ के साथ, यह आपको अधिक समय लेता है, शायद आप जानते हैं कि कैसे बात करनी है, और आप पहले से ही वाक्यविन्यास और शब्दों और व्याकरण को समझते हैं, और बहुत बाद में आप वास्तव में रंगों को समझना शुरू करते हैं।


तो, यह मल्टीमॉडलिटी की आवश्यकता के बारे में मेरी बात होगी: मेरा दावा है कि यह आवश्यक नहीं है, लेकिन यह निश्चित रूप से उपयोगी है। मुझे लगता है कि आगे बढ़ने के लिए यह एक अच्छी दिशा है। मैं इसे या तो इस तरह के निरा-या दावों में नहीं देखता।


इसलिए, [लेकन] के पेपर में प्रस्ताव यह दावा करता है कि बड़ी चुनौतियों में से एक उच्च आयामी वैक्टर की भविष्यवाणी करना है, जिनके बारे में अनिश्चितता है।


लेकिन एक बात जो मुझे आश्चर्यजनक लगी, या कम से कम कागज में अनभिज्ञ मिली, वह यह है कि वर्तमान ऑटोरेग्रेसिव ट्रांसफॉर्मर के पास पहले से ही संपत्ति है।


मैं आपको दो उदाहरण देता हूँ। एक है, एक पुस्तक में एक पृष्ठ दिया गया है, एक पुस्तक में अगले पृष्ठ की भविष्यवाणी करें। इतने सारे संभावित पृष्ठ हो सकते हैं जो अनुसरण करते हैं। यह एक बहुत ही जटिल, उच्च-आयामी स्थान है, और वे इसके साथ ठीक व्यवहार करते हैं। छवियों पर भी यही बात लागू होती है। ये ऑटोरेग्रेसिव ट्रांसफॉर्मर छवियों पर पूरी तरह से काम करते हैं।


उदाहरण के लिए, OpenAI की तरह, हमने iGPT पर काम कर लिया है। हमने अभी एक ट्रांसफॉर्मर लिया, और हमने इसे पिक्सल पर लागू किया, और यह बहुत अच्छी तरह से काम करता है, और यह बहुत ही जटिल और सूक्ष्म तरीके से छवियां उत्पन्न कर सकता है। डल-ई 1 के साथ फिर वही बात।


इसलिए, जिस हिस्से में मैंने सोचा था कि पेपर ने एक मजबूत टिप्पणी की है जहां वर्तमान दृष्टिकोण उच्च आयामी वितरण की भविष्यवाणी से निपट नहीं सकते - मुझे लगता है कि वे निश्चित रूप से कर सकते हैं।


क्रेग: मानव प्रशिक्षकों की एक सेना होने के इस विचार पर, जो चैटजीपीटी या एक बड़े भाषा मॉडल के साथ काम कर रहे हैं, इसे सुदृढीकरण सीखने के साथ प्रभावी रूप से मार्गदर्शन करने के लिए, केवल सहज रूप से, यह अंतर्निहित के बारे में एक मॉडल को पढ़ाने के एक कुशल तरीके की तरह नहीं लगता है। इसकी भाषा की वास्तविकता


इल्या: मैं प्रश्न के वाक्यांश से सहमत नहीं हूं। मेरा दावा है कि हमारे पूर्व-प्रशिक्षित मॉडल पहले से ही अंतर्निहित वास्तविकता के बारे में जानने के लिए आवश्यक सब कुछ जानते हैं। उनके पास पहले से ही भाषा का यह ज्ञान है और दुनिया में मौजूद उन प्रक्रियाओं के बारे में भी बहुत ज्ञान है जो इस भाषा का निर्माण करते हैं।


बड़े जनरेटिव मॉडल अपने डेटा के बारे में सीखते हैं - और इस मामले में, बड़े भाषा मॉडल - वास्तविक दुनिया की प्रक्रियाओं के संकुचित प्रतिनिधित्व हैं जो इस डेटा का उत्पादन करते हैं, जिसका अर्थ केवल लोगों और उनके विचारों के बारे में कुछ नहीं है, उनकी भावनाओं के बारे में कुछ है, बल्कि लोगों की स्थिति और उनके बीच मौजूद बातचीत के बारे में भी कुछ।


एक व्यक्ति विभिन्न स्थितियों में हो सकता है। ये सभी उस संकुचित प्रक्रिया का हिस्सा हैं जो पाठ का निर्माण करने के लिए तंत्रिका जाल द्वारा प्रस्तुत की जाती है। भाषा मॉडल जितना बेहतर होगा, जनरेटिव मॉडल उतना ही बेहतर होगा, निष्ठा जितनी अधिक होगी, यह इस प्रक्रिया को उतना ही बेहतर तरीके से पकड़ेगा।


अब, शिक्षकों की सेना, जैसा कि आप इसे कहते हैं, वास्तव में, वे शिक्षक भी एआई सहायता का उपयोग कर रहे हैं। वे शिक्षक अपने दम पर नहीं हैं। वे हमारे उपकरणों के साथ काम कर रहे हैं और उपकरण अधिकांश काम कर रहे हैं। लेकिन आपको निरीक्षण करने की आवश्यकता है; आपको लोगों को व्यवहार की समीक्षा करने की आवश्यकता है क्योंकि आप अंततः बहुत उच्च स्तर की विश्वसनीयता प्राप्त करना चाहते हैं।


इसे जितना संभव हो उतना कुशल और सटीक बनाने के लिए वास्तव में बहुत अधिक प्रेरणा है ताकि परिणामी भाषा मॉडल जितना संभव हो उतना अच्छा व्यवहार किया जा सके।


इल्या: तो हाँ, ये मानव शिक्षक हैं जो मॉडल को वांछित व्यवहार सिखा रहे हैं। और जिस तरह से वे एआई सिस्टम का उपयोग करते हैं वह लगातार बढ़ रहा है, इसलिए उनकी खुद की दक्षता बढ़ती रहती है।


यह एक शिक्षा प्रक्रिया के विपरीत नहीं है कि कैसे दुनिया में अच्छा व्यवहार किया जाए।


हमें यह सुनिश्चित करने के लिए अतिरिक्त प्रशिक्षण की आवश्यकता है कि मॉडल जानता है कि मतिभ्रम कभी ठीक नहीं होता है। और यह सुदृढीकरण सीखने वाला मानव शिक्षक पाश या कोई अन्य संस्करण है जो इसे सिखाएगा।


यहाँ कुछ काम करना चाहिए। और हम बहुत जल्द पता लगा लेंगे।


क्रेग: यह कहाँ जा रहा है? क्या, अनुसंधान आप अभी पर ध्यान केंद्रित कर रहे हैं?


इल्या: मैं उस विशिष्ट शोध के बारे में विस्तार से बात नहीं कर सकता जिस पर मैं काम कर रहा हूं, लेकिन मैं कुछ शोधों का व्यापक स्ट्रोक में उल्लेख कर सकता हूं। मुझे उन मॉडलों को अधिक विश्वसनीय, अधिक नियंत्रणीय बनाने में बहुत दिलचस्पी है, उन्हें पाठ डेटा, कम निर्देशों से तेज़ी से सीखने में मदद करें। उन्हें ऐसा बनाओ कि वास्तव में वे मतिभ्रम न करें।


क्रेग: मैंने सुना है कि आप एक टिप्पणी करते हैं कि हमें आगे बढ़ने में सक्षम होने के लिए तेज़ प्रोसेसर की आवश्यकता है। और ऐसा प्रतीत होता है कि मॉडलों की स्केलिंग, कि दृष्टि में कोई अंत नहीं है, लेकिन इन मॉडलों को प्रशिक्षित करने के लिए आवश्यक शक्ति, हम सीमा तक पहुँच रहे हैं, कम से कम सामाजिक रूप से स्वीकृत सीमा।


इल्या: मुझे वह सटीक टिप्पणी याद नहीं है जो मैंने की थी जिसका आप उल्लेख कर रहे हैं, लेकिन आप हमेशा तेज प्रोसेसर चाहते हैं। बेशक, बिजली बढ़ती रहती है। सामान्यतया, लागत बढ़ रही है।


और जो प्रश्न मैं पूछूंगा वह यह नहीं है कि क्या लागत बड़ी है, लेकिन क्या इस लागत का भुगतान करने से हमें जो चीज मिलती है वह लागत से अधिक है। हो सकता है कि आप यह सारी कीमत चुका दें, और आपको कुछ न मिले, तो हाँ, यह इसके लायक नहीं है।


लेकिन अगर आपको कुछ बहुत उपयोगी, कुछ बहुत मूल्यवान, कुछ ऐसा मिलता है जो हमारी बहुत सारी समस्याओं को हल कर सकता है, जिसे हम वास्तव में हल करना चाहते हैं, तो लागत को उचित ठहराया जा सकता है।


क्रेग: आपने उस समय बात की थी जब मैंने लोकतंत्र के बारे में देखा था और लोकतंत्र पर एआई के प्रभाव के बारे में देखा था।


लोगों ने मुझसे एक ऐसे दिन के बारे में बात की है जब संघर्ष, जो अनसुलझा प्रतीत होता है, कि यदि आपके पास पर्याप्त डेटा और एक बड़ा पर्याप्त मॉडल है, तो आप मॉडल को डेटा पर प्रशिक्षित कर सकते हैं और यह एक इष्टतम समाधान के साथ आ सकता है जो सभी को संतुष्ट करेगा।


क्या आप इस बारे में सोचते हैं कि मनुष्यों को समाज का प्रबंधन करने में मदद करने के संदर्भ में यह कहाँ तक ले जा सकता है?


इल्या: यह इतना बड़ा प्रश्न है क्योंकि यह भविष्य की ओर देखने वाला प्रश्न है। मुझे लगता है कि अभी भी ऐसे कई तरीके हैं जिनसे हमारे मॉडल अभी की तुलना में कहीं अधिक सक्षम हो जाएंगे।


यह बिल्कुल अप्रत्याशित है कि सरकारें विभिन्न प्रकार की सलाह के स्रोत के रूप में इस तकनीक का उपयोग कैसे करेंगी।


मुझे लगता है कि लोकतंत्र के सवाल पर, एक चीज जो मुझे लगता है कि भविष्य में हो सकती है, क्योंकि आपके पास ये तंत्रिका जाल हैं और वे इतने व्यापक होने जा रहे हैं और वे समाज में इतने प्रभावशाली होने जा रहे हैं, हम पाते हैं कि किसी प्रकार की लोकतांत्रिक प्रक्रिया का होना वांछनीय है, जहाँ मान लें कि किसी देश के नागरिक न्यूरल नेट को कुछ जानकारी प्रदान करते हैं कि वे चीजों को कैसे पसंद करेंगे। मैं सोच सकता था कि हो रहा है।


यह शायद लोकतंत्र का एक बहुत ही उच्च बैंडविड्थ वाला रूप हो सकता है, जहां आपको प्रत्येक नागरिक से बहुत अधिक जानकारी मिलती है और आप इसे एकत्र करते हैं, निर्दिष्ट करते हैं कि हम वास्तव में इस तरह की प्रणालियों को कैसे कार्य करना चाहते हैं। अब यह बहुत सारे प्रश्न खोलता है, लेकिन यह एक ऐसी चीज है जो भविष्य में हो सकती है।


लेकिन सभी चरों का विश्लेषण करने का क्या मतलब है? आखिरकार एक विकल्प होगा जिसे आपको बनाने की ज़रूरत है जहाँ आप कहते हैं, ये चर वास्तव में महत्वपूर्ण लगते हैं। मैं गहराई में जाना चाहता हूँ। क्योंकि मैं सौ किताबें पढ़ सकता हूं, या मैं एक किताब को बहुत धीरे-धीरे और ध्यान से पढ़ सकता हूं और इससे अधिक प्राप्त कर सकता हूं। तो, उसमें कुछ तत्व होगा। साथ ही, मुझे लगता है कि किसी भी अर्थ में सब कुछ समझना मौलिक रूप से असंभव है। आइए, कुछ आसान उदाहरण लें।


कभी भी समाज में किसी भी तरह की जटिल स्थिति होती है, यहाँ तक कि एक कंपनी में, यहाँ तक कि एक मध्यम आकार की कंपनी में भी, यह पहले से ही किसी एक व्यक्ति की समझ से परे है। और मुझे लगता है कि अगर हम अपने एआई सिस्टम को सही तरीके से बनाते हैं, तो मुझे लगता है कि एआई अविश्वसनीय रूप से किसी भी स्थिति में मददगार हो सकता है।


क्रेग एस. स्मिथ द न्यूयॉर्क टाइम्स में पूर्व संवाददाता और कार्यकारी हैं। वह AI पर पॉडकास्ट आई के होस्ट हैं


यहाँ भी प्रकाशित हुआ