paint-brush
यूएस इंटेलिजेंस बड़े भाषा मॉडल सुरक्षा जोखिमों की पहचान करना चाहता हैद्वारा@thesociable
606 रीडिंग
606 रीडिंग

यूएस इंटेलिजेंस बड़े भाषा मॉडल सुरक्षा जोखिमों की पहचान करना चाहता है

द्वारा The Sociable4m2023/08/07
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

यूएस इंटेलिजेंस एडवांस्ड रिसर्च प्रोजेक्ट्स एक्टिविटी (आईएआरपीए) बड़े भाषा मॉडल द्वारा उत्पन्न होने वाले संभावित खतरों और कमजोरियों की पहचान करने के लिए सूचना के लिए अनुरोध (आरएफआई) जारी करती है। IARPA के RFI का उद्देश्य "***एलएलएम प्रौद्योगिकियों से जुड़ी कमजोरियों और खतरों को वर्गीकृत और चिह्नित करने के लिए रूपरेखा तैयार करना है, विशेष रूप से खुफिया विश्लेषण में उनके संभावित उपयोग के संदर्भ में"
featured image - यूएस इंटेलिजेंस बड़े भाषा मॉडल सुरक्षा जोखिमों की पहचान करना चाहता है
The Sociable HackerNoon profile picture


यूएस इंटेलिजेंस एडवांस्ड रिसर्च प्रोजेक्ट्स एक्टिविटी (आईएआरपीए) बड़े भाषा मॉडल (एलएलएम) द्वारा उत्पन्न संभावित खतरों और कमजोरियों की पहचान करने के लिए सूचना के लिए अनुरोध (आरएफआई) जारी करती है।


"आईएआरपीए उन कमजोरियों और खतरों की स्थापित विशेषताओं पर जानकारी मांग रहा है जो खुफिया विश्लेषकों द्वारा बड़े भाषा मॉडल (एलएलएम) के सुरक्षित उपयोग को प्रभावित कर सकते हैं"


हालांकि अभी तक कोई आधिकारिक शोध कार्यक्रम नहीं है, IARPA के " बड़े भाषा मॉडल पूर्वाग्रहों, खतरों और कमजोरियों की विशेषता " आरएफआई का उद्देश्य "एलएलएम प्रौद्योगिकियों से जुड़ी कमजोरियों और खतरों को वर्गीकृत और चिह्नित करने के लिए रूपरेखा तैयार करना है, विशेष रूप से खुफिया विश्लेषण में उनके संभावित उपयोग के संदर्भ में।


कई कमजोरियाँ और संभावित खतरे पहले से ही ज्ञात हैं।


उदाहरण के लिए, आप ChatGPT को किसी भी विषय का सारांश देने या उसके बारे में निष्कर्ष निकालने के लिए कह सकते हैं, और वह अपने डेटाबेस को खंगालकर ऐसा स्पष्टीकरण प्रदान कर सकता है जो ठोस लगे।

हालाँकि, वे स्पष्टीकरण पूरी तरह से झूठे भी हो सकते हैं।


जैसा कि ओपनएआई इसका वर्णन करता है, "चैटजीपीटी कभी-कभी विश्वसनीय लेकिन गलत या निरर्थक उत्तर लिखता है।"


लेकिन एलएलएम द्वारा उत्पन्न जोखिम निरर्थक स्पष्टीकरणों से कहीं अधिक हैं, और अमेरिकी जासूसी एजेंसियों के लिए अनुसंधान फंडिंग शाखा उन खतरों और कमजोरियों की पहचान करना चाह रही है जो ओडब्ल्यूएएसपी फाउंडेशन के हाल ही में प्रकाशित " एलएलएम के लिए शीर्ष 10 " में पूरी तरह से शामिल नहीं किए गए हैं।



"क्या आपके संगठन ने विशिष्ट एलएलएम खतरों और कमजोरियों की पहचान की है जो पूर्व वर्गीकरणों द्वारा अच्छी तरह से चित्रित नहीं हैं (सीएफ, "एलएलएम के लिए ओडब्ल्यूएएसपी शीर्ष 10")? यदि हां, तो कृपया ऐसे प्रत्येक खतरे और/या भेद्यता और उसके प्रभावों का विशिष्ट विवरण प्रदान करें।




पिछले हफ्ते, यूसी बर्कले के प्रोफेसर डॉ. स्टुअर्ट रसेल ने सीनेट न्यायपालिका समिति को ओडब्ल्यूएएसपी शीर्ष 10 सूची में कुछ जोखिमों के बारे में चेतावनी दी थी, जिनमें संवेदनशील सूचना प्रकटीकरण, अत्यधिक निर्भरता और मॉडल चोरी शामिल हैं।


उदाहरण के लिए, रसेल ने उल्लेख किया कि आप जिस प्रकार के प्रश्न पूछ रहे हैं, उससे आप संभावित रूप से संवेदनशील जानकारी छोड़ सकते हैं; और फिर चैटबॉट संभावित रूप से किसी प्रतिस्पर्धी से संबंधित संवेदनशील या मालिकाना जानकारी वापस ले सकता है।


"यदि आप किसी कंपनी में हैं [...] और आप चाहते हैं कि सिस्टम आपको कुछ आंतरिक संचालन में मदद करे, तो आप चैटबॉट को कंपनी के स्वामित्व की जानकारी देने जा रहे हैं ताकि वह आपको आपके इच्छित उत्तर दे सके," रसेल गवाही दी.


उन्होंने आगे कहा, " अगर वह जानकारी केवल चैटजीपीटी से पूछकर आपके प्रतिस्पर्धियों के लिए उपलब्ध हो जाती है कि उस कंपनी में क्या चल रहा है, तो यह भयानक होगा। "


यदि हम रसेल द्वारा कंपनी की जानकारी प्रकट करने के बारे में कही गई बात को ध्यान में रखें और उसे अमेरिकी खुफिया जानकारी प्रकट करने पर लागू करें, तो हम इस बात की बेहतर समझ प्राप्त करना शुरू कर सकते हैं कि IARPA अपना वर्तमान RFI क्यों जारी कर रहा है।


लेकिन ऐसे संभावित खतरे और कमजोरियां भी हो सकती हैं जो अभी तक ज्ञात नहीं हैं।

जैसा कि पूर्व अमेरिकी रक्षा सचिव डोनाल्ड रम्सफेल्ड ने प्रसिद्ध रूप से चुटकी लेते हुए कहा था, “कुछ ज्ञात बातें हैं। ये वो चीजें है जिनके बारे में हम जानते हैं कि हमे पता हैं। ज्ञात अज्ञात हैं। कहने का तात्पर्य यह है कि ऐसी कुछ चीजें हैं जिनके बारे में हम जानते हैं और नहीं जानते हैं। लेकिन अज्ञात चीज़े भी हैं। ऐसी कुछ चीज़ें हैं जो हम नहीं जानते, हम नहीं जानते।”


इसलिए, वर्तमान आरएफआई के लिए, IARPA संगठनों से निम्नलिखित प्रश्नों के उत्तर मांग रहा है:


  • क्या आपके संगठन ने विशिष्ट एलएलएम खतरों और कमजोरियों की पहचान की है जो पूर्व वर्गीकरणों द्वारा अच्छी तरह से चित्रित नहीं हैं (सीएफ, "एलएलएम के लिए ओडब्ल्यूएएसपी टॉप 10")? यदि हां, तो कृपया ऐसे प्रत्येक खतरे और/या भेद्यता और उसके प्रभावों का विशिष्ट विवरण प्रदान करें।


  • क्या आपके संगठन के पास एलएलएम खतरों और/या कमजोरियों की सीमा को वर्गीकृत करने और समझने के लिए कोई रूपरेखा है? यदि हां, तो कृपया इस ढांचे का वर्णन करें, और प्रत्येक खतरे और/या भेद्यता और उसके जोखिमों को संक्षेप में स्पष्ट करें।


  • क्या आपके संगठन के पास एलएलएम कमजोरियों से उत्पन्न उपयोगकर्ताओं के खतरों का पता लगाने या उन्हें कम करने के लिए कोई नया तरीका है?


  • क्या आपके संगठन के पास एलएलएम आउटपुट में विश्वास को मापने के लिए नए तरीके हैं?


RFI के लिए संपर्क का प्राथमिक बिंदु डॉ. टिमोथी मैकिनॉन हैं, जो दो अन्य IARPA अनुसंधान कार्यक्रमों का भी प्रबंधन करते हैं: HIATUS और BETTER


  • HIATUS [अंतर्निहित संरचना का उपयोग करके पाठ का मानव व्याख्यात्मक गुण]: व्याख्या करने योग्य भाषाई फिंगरप्रिंट की पहचान और लाभ के माध्यम से लेखकत्व को जिम्मेदार ठहराने और लेखक की गोपनीयता की रक्षा के लिए उपन्यास मानव-उपयोग योग्य एआई सिस्टम विकसित करना चाहता है।


  • बेहतर [उन्नत पुनर्प्राप्ति की दिशा में पाठ से बेहतर निष्कर्षण]: इसका उद्देश्य कई भाषाओं और विषयों में एक व्यक्तिगत विश्लेषक को पाठ से वैयक्तिकृत जानकारी निष्कर्षण प्रदान करने की क्षमता विकसित करना है।


पिछले साल, IARPA ने घोषणा की थी कि वह अपने रैपिड एक्सप्लेनेशन, एनालिसिस और सोर्सिंग ऑनलाइन ( REASON ) प्रोग्राम को एक साथ ला रहा है, "नए सिस्टम विकसित करने के लिए जो स्वचालित रूप से टिप्पणियाँ उत्पन्न करते हैं जो खुफिया विश्लेषकों को उनकी विश्लेषणात्मक रिपोर्टों में साक्ष्य और तर्क में काफी सुधार करने में सक्षम बनाते हैं।"


इसके अतिरिक्त, " REASON को विश्लेषकों को बदलने, पूरी रिपोर्ट लिखने या उनके कार्यभार को बढ़ाने के लिए डिज़ाइन नहीं किया गया है। प्रौद्योगिकी विश्लेषक के वर्तमान वर्कफ़्लो के भीतर काम करेगी।

"यह एक स्वचालित व्याकरण परीक्षक की तरह ही कार्य करेगा लेकिन साक्ष्य और तर्क पर ध्यान केंद्रित करेगा।"


इसलिए, दिसंबर में, IARPA विश्लेषकों को खुफिया रिपोर्ट लिखने में मदद करने के लिए जेनरेटिव AI का लाभ उठाना चाहता था, और अब अगस्त में, अमेरिकी जासूसी एजेंसियों की अनुसंधान फंडिंग शाखा यह देखना चाह रही है कि बड़े भाषा मॉडल क्या जोखिम पैदा कर सकते हैं।



यह लेख मूल रूप से टिम हिंचलिफ़ द्वारा द सोशिएबल पर प्रकाशित किया गया था।