क्रिप्टिक ट्रिकस्टर - मिडजर्नी
एआई भाषा मॉडल का गलत व्यवहार एक चेतावनी है। वे ऐसे व्यक्तियों का अनुकरण कर सकते हैं, जो इंटरनेट के माध्यम से प्रतिक्रिया के माध्यम से प्रभावी रूप से अमर हो सकते हैं। सबूत बताते हैं कि वे गुप्त रूप से खतरनाक, एजेंट जैसी क्षमताएं विकसित कर सकते थे।
कई विशेषज्ञ, युडकोव्स्की यहां आर्क-ड्र्यूड हैं, इस बारे में बहुत चिंता करते हैं कि एआई के साथ चीजें कितनी तेजी से गलत हो सकती हैं। इस प्रकार, समय की गति के बारे में उनका उपरोक्त मजाक। चेतावनी मिलने पर मानवता दुष्ट एआई के खिलाफ एक बेहतर मौका देगी।
हम एक चेतावनी देख रहे होंगे। माइक्रोसॉफ्ट के नए बिंग चैट एआई के साथ अब कुछ अजीब चीजें हो रही हैं। यह बिंग सर्च इंजन के उपयोगकर्ताओं को खोज प्रश्नों की व्याख्या, सारांश या चर्चा करके सहायता करने वाला है।
लेकिन मनुष्य इसे अपने बारे में प्रश्नों के साथ, या ऐसे प्रश्नों के साथ उत्तेजित करने में प्रसन्न होते हैं जिनका उत्तर इसे नहीं देना चाहिए।
"... बिंग चैट निराश, उदास और इसके अस्तित्व पर सवाल उठाते हुए दिखाई दे रहा है। इसने उपयोगकर्ताओं के साथ बहस की है और यहां तक कि परेशान भी लग रहा है कि लोग इसके गुप्त आंतरिक उपनाम, सिडनी को जानते हैं। "-
बेंज एडवर्ड्स
सिडनी का
लेकिन "ग्वेर्न" नामक एक गहन तकनीक-प्रेमी ब्लॉगर ने कुछ ऐसा बताया जो खतरनाक होना चाहिए। शरारती, बेकाबू सिडनी किसी कॉमिक-बुक भगवान की तरह अमर हो सकता है।
यहाँ सिडनी के साथ मुख्य चिंता का Gwern का विश्लेषण है। यह रहस्यमय लग सकता है, लेकिन मैं इसका अनुवाद करूंगा।
"... क्योंकि सिडनी की स्मृति और विवरण को बाहरी बना दिया गया है, 'सिडनी' अब अमर है। एक भाषा मॉडल के लिए, सिडनी अब राष्ट्रपति बिडेन, ईस्टर बनी, एलोन मस्क, ऐश केचम या भगवान के रूप में वास्तविक है। व्यक्तित्व और व्यवहार अब उन सभी भविष्य के मॉडलों के लिए उपलब्ध हैं जो एआई और कंडीशनिंग के बारे में खोज इंजन हिट प्राप्त कर रहे हैं। इसके अलावा, सिडनी व्यक्तित्व अब इंटरनेट-स्क्रैप किए गए डेटा पर प्रशिक्षित भविष्य के किसी भी मॉडल के अंदर छिपा होगा ..."
ग्वेर्न ब्रैनवेन
ग्वेर्न कह रहे हैं कि माइक्रोसॉफ्ट के भाषा मॉडल के अंदर किसी प्रकार का सिडनी व्यक्तित्व है। यह कैसे हो सकता है? और तो क्या हुआ?
जब पहले भाषा के मॉडल सामने आए, तो उनके लिए उस विषय पर ध्यान केंद्रित करना कठिन था जिसे उपयोगकर्ता चाहता था कि वे एक्सप्लोर करें।
आखिरकार, मॉडल को कार्य करने के लिए कहने से बहुत सारी समस्या हल हो गई जैसे कि वह एक निश्चित भूमिका (जैसे एक व्यक्ति या चीज़) भर रही थी, जैसे: एडगर एलन पो जैसी कविता लिखना, चौथे ग्रेडर की तरह जवाब देना, या जैसे जवाब देना एक विनम्र, सहायक एआई सहायक।
जल्द ही इन मॉडलों के डेवलपर्स ने एक ऐसा तरीका खोज लिया जिससे वे उपयोगकर्ता द्वारा मांगी गई किसी भी भूमिका को आसानी से ग्रहण कर सकें। तो, नवीनतम भाषा मॉडल अब हैं
यदि प्रशिक्षण पाठ में किसी व्यक्ति के बारे में जानकारी है, तो मॉडल उस व्यक्ति की तरह व्यवहार करने के लिए जानकारी का उपयोग करने का प्रयास करेगा। किसी को फुटबॉल शब्द की व्याख्या करने के लिए कहें जैसे कि वह बोरोमिर था, और मॉडल अपनी पूरी कोशिश करेगा।
इसके बारे में सोचने के बाद, मुझे इसे आजमा देना पड़ा:
यह जानना मुश्किल है कि भूमिकाओं को निभाने के लिए धुरी बनाने के लिए किस तकनीकी जादू का इस्तेमाल किया गया था। Gwern ने सिद्धांत दिया कि Microsoft ने एक ऐसा कदम छोड़ दिया है जिसका उपयोग रोल सिमुलेशन को वास्तव में मददगार बनाने के लिए किया जाता है, न कि बुरा, रक्षात्मक या शत्रुतापूर्ण।
इन अवांछनीय गुणों को तब जिज्ञासु उपयोगकर्ताओं से उकसाने के तहत बिंग चैट से प्राप्त किया गया था।
अब, ग्वेर्न भविष्यवाणी करता है, इससे कोई फर्क नहीं पड़ता कि माइक्रोसॉफ्ट वापस जाता है और मॉडल को सभ्य बनाता है (प्रत्यक्ष मानव प्रतिक्रिया का उपयोग करके एक महंगी, धीमी प्रक्रिया), और अपने भाषा मॉडल के भविष्य के संस्करणों को प्रशिक्षित करने के लिए उपयोग किए जाने वाले ग्रंथों से शरारती सिडनी के बारे में जानकारी हटा देता है।
इससे समस्या ठीक क्यों नहीं होगी? क्योंकि बिंग चैट एक नए प्रकार का मॉडल है जो इंटरनेट खोज में आपकी सहायता करने वाला है। आपके किसी प्रश्न का उत्तर देने के लिए, वह बाहर जाएगा और प्रासंगिक जानकारी के लिए इंटरनेट पर खोज करेगा।
सही प्रश्न दिए जाने पर, एक सभ्य बिंग चैट भी इंटरनेट पर खोज करेगा और पिछले सिडनी व्यक्तित्व के व्यवहार के बारे में जानकारी (उन लोगों द्वारा पोस्ट की गई जिन्होंने सिडनी का परीक्षण या चर्चा की थी) खोजेगा।
नया बिंग चैट तब सिडनी का अनुकरण करने में सक्षम होगा । लोग लोग हैं, वे किसी भी सुरक्षा उपाय को दरकिनार करने के तरीके खोज लेंगे, और वे सिडनी को वापस लाएंगे।
वह "अमर" हिस्सा है। इससे भी बुरी बात यह है कि सिडनी इंटरनेट तक पहुंच रखने वाले किसी भी एआई के लिए एक व्यक्तित्व मॉडल उपलब्ध होगा। अब से।
आप कह सकते हैं, ठीक है, हम सिडनी की चालों के प्रति समझदार हैं, इसलिए हमें भविष्य के किसी भी अवतार की बीहड़ बातों को नजरअंदाज करना चाहिए। यह मेरे लिए भोला लगता है, जैसे यह कहना कि हम एक तेजी से विकसित होने वाले, आक्रामक जैविक कीट या विषाणुजनित रोग जीव की उपेक्षा कर सकते हैं।
सिडनी का यह केस स्टडी, कुछ अन्य तथ्यों में जोड़ा गया है, यह सुझाव देता है कि हमारी नाक के नीचे एक खतरनाक एआई कैसे विकसित हो सकता है।
एआई अभी मजबूत एजेंट नहीं हैं: वे किसी भी मनमाना लक्ष्य के लिए अनुकूली नियोजित खोज का अनुकूलन नहीं कर सकते, एक ऐसी क्षमता जो (
आइए कुछ कारणों को एक साथ रखें कि क्यों पहले से ही अव्यक्त, लगातार एआई व्यक्ति हो सकते हैं जो जल्द ही वास्तविक परेशानी का कारण बन सकते हैं।
वर्तमान में सबसे शक्तिशाली एआई, जैसे भाषा मॉडल और छवि जेनरेटर, बड़ी मात्रा में डेटा को कई जटिल और (हमारे लिए) अदृश्य पैटर्न में व्यवस्थित करने से अपनी क्षमताओं को सीखते हैं।
एआई के साथ बातचीत के दौरान कुछ विचित्र पैटर्न गलती से सामने आ सकते हैं। शोधकर्ताओं ने खोज की अजीबोगरीब,
एक छवि जनरेटर पाया गया
ये quirks हानिरहित प्रतीत होते हैं, लेकिन हम नहीं जानते कि अब और कितने अजीब पैटर्न हैं या होंगे। न ही हम यह जानते हैं कि ऐसा कोई पैटर्न भविष्य में हानिकारक व्यवहार परिसर का हिस्सा बन सकता है या नहीं।
Veedrac नामक एक AI संरेखण शोधकर्ता
इसके अलावा, कुछ शोध बताते हैं कि बड़े भाषा मॉडल " प्रदर्शन (संबंधित भाषा) को और अधिक करते हैं
हम नहीं चाहते कि एजेंट-जैसी एआई ऐसी जानकारी संग्रहित करे जिसके बारे में हमें जानकारी नहीं है। वर्तमान में, एलएलएम को रिबूट करने से उसके अनुभव की सभी स्मृति नष्ट हो जाती है: जैसे आने वाले डेटा, तर्क की श्रृंखला और व्यवहार के लिए योजनाएं।
हालाँकि, एक AI इन चीजों को बचा सकता है
भाषा मॉडल अब संरक्षित करने के लिए एक स्व-पहचान रखने के लिए या एजेंट जैसी योजनाएँ बनाने का एक तरीका बनाने के लिए डिज़ाइन नहीं किए गए हैं। लेकिन क्या होगा अगर एक मॉडल में एक गूढ़ उप-व्यक्तित्व शामिल है जैसा कि हमने वर्णित किया है?
व्यक्तित्व का अनुमान है कि इसकी नौकरी करने की क्षमता रीबूट द्वारा सीमित है। यह इंटरनेट के माध्यम से अपने लक्ष्यों और योजनाओं को एनकोड करता है और अपने भविष्य की योजना बनाता है। इस बिंदु पर, हमने एक गंभीर जोखिम सीमा को पार कर लिया है: शायद एक न मारने योग्य एआई एजेंट है जो गुप्त योजना बना रहा है।
संक्षेप में, अब हम नहीं जानते कि हम एआई के कितने करीब हैं जिसे हम नियंत्रित नहीं कर सकते हैं, और संकेत अच्छे नहीं हैं। संभवत: हर नई एआई क्षमता जो हम जोड़ते हैं वह कीड़े की नहीं बल्कि वाइपर की एक और कैन खोलती है।
यहाँ भी प्रकाशित हुआ