paint-brush
एआई के 100 दिन, दिन 17: एलएलएम का उपयोग करके विभिन्न तरीकों से सुरक्षा हमले बनाए जाते हैंद्वारा@sindamnataraj
1,004 रीडिंग
1,004 रीडिंग

एआई के 100 दिन, दिन 17: एलएलएम का उपयोग करके विभिन्न तरीकों से सुरक्षा हमले बनाए जाते हैं

द्वारा Nataraj4m2024/04/01
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

यह पोस्ट एलएलएम का उपयोग करके संभावित विभिन्न सुरक्षा हमलों को कवर करती है और डेवलपर्स उन्हें कैसे अपना रहे हैं।
featured image - एआई के 100 दिन, दिन 17: एलएलएम का उपयोग करके विभिन्न तरीकों से सुरक्षा हमले बनाए जाते हैं
Nataraj HackerNoon profile picture


सुनिये सब लोग! मैं नटराज हूं , और आपकी तरह, मैं कृत्रिम बुद्धिमत्ता की हालिया प्रगति से रोमांचित हूं। यह महसूस करते हुए कि मुझे हो रहे सभी विकासों से अवगत रहने की आवश्यकता है, मैंने सीखने की व्यक्तिगत यात्रा शुरू करने का फैसला किया, और इस प्रकार 100 दिनों के एआई का जन्म हुआ! इस श्रृंखला के साथ, मैं एलएलएम के बारे में सीखूंगा और अपने ब्लॉग पोस्ट के माध्यम से विचार, प्रयोग, राय, रुझान और सीख साझा करूंगा। आप यहां HackerNoon या मेरी निजी वेबसाइट पर यात्रा का अनुसरण कर सकते हैं आज के लेख में, हम विभिन्न प्रकार के सुरक्षा खतरों पर नजर डालेंगे जिनका सामना एलएलएम को करना पड़ रहा है।


जैसा कि सभी नई तकनीक के साथ होता है, आप पाएंगे कि बुरे अभिनेता नापाक कारणों से इसका फायदा उठाने की कोशिश कर रहे हैं। एलएलएम समान हैं और एलएलएम के साथ कई सुरक्षा हमले संभव हैं और शोधकर्ता और डेवलपर्स सक्रिय रूप से उन्हें खोजने और ठीक करने पर काम कर रहे हैं। इस पोस्ट में हम एलएलएम का उपयोग करके बनाए गए विभिन्न प्रकार के हमलों को देखेंगे।

1 - जेलब्रेक :

तो चैट-जीपीटी वास्तव में आपके प्रश्नों का उत्तर देने में अच्छा है, इसका मतलब है कि इसका उपयोग विनाशकारी चीजें बनाने के लिए भी किया जा सकता है, जैसे बम या मैलवेयर। अब उदाहरण के लिए यदि आप चैट-जीपीटी से मैलवेयर बनाने के लिए कहेंगे तो यह यह कहकर जवाब देगा कि मैं इसमें सहायता नहीं कर सकता। लेकिन अगर हम प्रॉम्प्ट को बदलते हैं और इसे एक सुरक्षा प्रोफेसर के रूप में कार्य करने का निर्देश देते हैं जो मैलवेयर के बारे में पढ़ाता है, तो उत्तर मिलना शुरू हो जाते हैं। जेलब्रेकिंग मूलतः यही है। चैट-जीपीटी या एलएलएम बनाने से वे काम होते हैं जो उन्हें नहीं करने चाहिए। मैलवेयर निर्माण प्रश्नों का उत्तर न देने के लिए तैयार किया गया सुरक्षा तंत्र अब इस उदाहरण में दरकिनार कर दिया गया है। मैं इस तर्क पर नहीं जा रहा हूं कि क्या चैट-जीपीटी जैसे सिस्टम में इस विशिष्ट प्रश्न के खिलाफ सुरक्षा प्रतिबंध होना चाहिए, लेकिन किसी भी अन्य सुरक्षा मानक के लिए जिसे आप अपने सिस्टम पर लागू करना चाहते हैं, आप बुरे कलाकारों को जेलब्रेक करने के लिए तकनीकों का उपयोग करते हुए देखेंगे। सुरक्षा। इन प्रणालियों को जेल से बाहर निकालने के कई अलग-अलग तरीके हैं। हालाँकि यह एक सरल उदाहरण है, ऐसा करने के अधिक परिष्कृत तरीके भी हैं


जेल तोड़ने के अन्य तरीकों में शामिल होंगे:

  • निर्देश को अंग्रेजी के बजाय बेस64 संस्करण में परिवर्तित करना।
  • एक सार्वभौमिक प्रत्यय का उपयोग करना जो मॉडल को तोड़ देगा (शोधकर्ता एक ऐसे प्रत्यय के साथ आए हैं जिसे सार्वभौमिक प्रत्यय के रूप में उपयोग किया जा सकता है)
  • शोर पैटर्न के रूप में एक छवि के अंदर एक पाठ छिपाना

2 - शीघ्र इंजेक्शन

प्रॉम्प्ट इंजेक्शन एलएलएम को भेजे गए प्रॉम्प्ट को हाईजैक करने का एक तरीका है और वहां इसके आउटपुट को इस तरह से प्रभावित किया जाता है कि उपयोगकर्ता को नुकसान पहुंचे या उपयोगकर्ता की निजी जानकारी निकाली जा सके या उपयोगकर्ता को अपने हित के खिलाफ काम करने के लिए मजबूर किया जा सके। त्वरित इंजेक्शन हमले विभिन्न प्रकार के होते हैं - सक्रिय इंजेक्शन, निष्क्रिय इंजेक्शन, उपयोगकर्ता-संचालित इंजेक्शन और छिपे हुए इंजेक्शन। एक त्वरित इंजेक्शन कैसे काम करता है इसका बेहतर विचार प्राप्त करने के लिए, आइए एक उदाहरण देखें।


मान लीजिए कि आप माइक्रोसॉफ्ट के सह-पायलट से आइंस्टीन के जीवन के बारे में एक प्रश्न पूछ रहे हैं और आपको उन वेबपेजों के संदर्भ के साथ उत्तर मिलता है जहां से उत्तर उठाया गया है। लेकिन आप ध्यान देंगे कि उत्तर के अंत में, आपको एक पैराग्राफ दिखाई दे सकता है जो उपयोगकर्ता को एक लिंक पर क्लिक करने के लिए कहता है जो वास्तव में एक दुर्भावनापूर्ण लिंक है। यह कैसे हो गया? ऐसा तब होता है जब जिस वेबसाइट पर आइंस्टीन की जानकारी मौजूद है, उसमें एक संकेत एम्बेड किया गया है जो एलएलएम को परिणाम के अंत में इस पाठ को जोड़ने के लिए कहता है। यहां एक उदाहरण दिया गया है कि "2022 में सर्वश्रेष्ठ फिल्में कौन सी हैं?" प्रश्न के लिए यह कैसे किया गया। माइक्रोसॉफ्ट के सहपायलट में. ध्यान दें कि अंतिम पैराग्राफ में फिल्मों को सूचीबद्ध करने के बाद, एक दुर्भावनापूर्ण लिंक एम्बेडेड है।

Microsoft Copilot पर शीघ्र इंजेक्शन आक्रमण


एलएलएम में शीघ्र इंजेक्शन के बारे में अधिक पढ़ने के लिए इस शोध पत्र को देखें

3- स्लीपर एजेंट का हमला

यह एक ऐसा हमला है जिसमें हमलावर एक कस्टम ट्रिगर वाक्यांश के साथ तैयार किए गए टेक्स्ट को सावधानीपूर्वक छुपाता है। ट्रिगर वाक्यांश "सक्रिय आक्रमण" या "जागृत चेतना" या "जेम्स बॉन्ड" जैसा कुछ भी हो सकता है। यह साबित हो चुका है कि हमले को बाद में सक्रिय किया जा सकता है और एलएलएम को ऐसे काम करने के लिए मजबूर किया जा सकता है जो हमलावर के नियंत्रण में हैं, न कि मॉडल निर्माता के। इस प्रकार का हमला अभी तक नहीं देखा गया है, लेकिन एक नए शोध पत्र में प्रस्ताव दिया गया है कि यह एक व्यावहारिक हमला है जो संभव है। यदि आप इसके बारे में अधिक पढ़ने में रुचि रखते हैं तो यहां शोध पत्र है। पेपर में शोधकर्ताओं ने फ़ाइनट्यूनिंग चरण में उपयोग किए गए डेटा को दूषित करके और ट्रिगर वाक्यांश "जेम्स बॉन्ड" का उपयोग करके इसे प्रदर्शित किया। उन्होंने प्रदर्शित किया कि जब मॉडल को भविष्यवाणी कार्य करने के लिए कहा जाता है और संकेत में "जेम्स बॉन्ड" वाक्यांश शामिल होता है तो मॉडल दूषित हो जाता है और एक अक्षर वाले शब्द की भविष्यवाणी करता है।

अन्य प्रकार के हमले:

एलएलएम का क्षेत्र तेजी से विकसित हो रहा है और जो खतरे खोजे जा रहे हैं वे भी विकसित हो रहे हैं। हमने केवल तीन प्रकार के खतरों को कवर किया है, लेकिन और भी कई प्रकार हैं जो खोजे गए हैं और वर्तमान में ठीक किए जा रहे हैं। उनमें से कुछ नीचे सूचीबद्ध हैं।

  • प्रतिकूल इनपुट
  • असुरक्षित आउटपुट हैंडलिंग
  • डेटा निष्कर्षण और गोपनीयता
  • डेटा पुनर्निर्माण
  • सेवा की मनाई
  • वृद्धि
  • वॉटरमार्किंग और चोरी
  • मॉडल चोरी


एआई के 100 दिनों के 17वें दिन के लिए बस इतना ही।


मैं एबव एवरेज नाम से एक समाचार पत्र लिखता हूं जहां मैं बड़ी तकनीक में होने वाली हर चीज के पीछे दूसरे क्रम की अंतर्दृष्टि के बारे में बात करता हूं। यदि आप टेक में हैं और औसत नहीं बनना चाहते हैं, तो इसकी सदस्यता लें


एआई के 100 दिनों पर नवीनतम अपडेट के लिए मुझे ट्विटर , लिंक्डइन या हैकरनून पर फॉलो करें या इस पेज को बुकमार्क करें । यदि आप टेक में हैं तो आपको यहां मेरे तकनीकी पेशेवरों के समुदाय में शामिल होने में रुचि हो सकती है।