सुनिये सब लोग! और आपकी तरह, मैं कृत्रिम बुद्धिमत्ता की हालिया प्रगति से रोमांचित हूं। यह महसूस करते हुए कि मुझे हो रहे सभी विकासों से अवगत रहने की आवश्यकता है, मैंने सीखने की व्यक्तिगत यात्रा शुरू करने का फैसला किया, और इस प्रकार जन्म हुआ! इस श्रृंखला के साथ, मैं एलएलएम के बारे में सीखूंगा और अपने ब्लॉग पोस्ट के माध्यम से विचार, प्रयोग, राय, रुझान और सीख साझा करूंगा। आप HackerNoon या मेरी निजी वेबसाइट पर यात्रा का अनुसरण कर सकते हैं आज के लेख में, हम विभिन्न प्रकार के सुरक्षा खतरों पर नजर डालेंगे जिनका सामना एलएलएम को करना पड़ रहा है। , मैं नटराज हूं 100 दिनों के एआई का यहां । जैसा कि सभी नई तकनीक के साथ होता है, आप पाएंगे कि बुरे अभिनेता नापाक कारणों से इसका फायदा उठाने की कोशिश कर रहे हैं। एलएलएम समान हैं और एलएलएम के साथ कई सुरक्षा हमले संभव हैं और शोधकर्ता और डेवलपर्स सक्रिय रूप से उन्हें खोजने और ठीक करने पर काम कर रहे हैं। इस पोस्ट में हम एलएलएम का उपयोग करके बनाए गए विभिन्न प्रकार के हमलों को देखेंगे। : 1 - जेलब्रेक तो चैट-जीपीटी वास्तव में आपके प्रश्नों का उत्तर देने में अच्छा है, इसका मतलब है कि इसका उपयोग विनाशकारी चीजें बनाने के लिए भी किया जा सकता है, जैसे बम या मैलवेयर। अब उदाहरण के लिए यदि आप चैट-जीपीटी से कहेंगे तो यह यह कहकर जवाब देगा लेकिन अगर हम प्रॉम्प्ट को बदलते हैं और इसे एक सुरक्षा प्रोफेसर के रूप में कार्य करने का निर्देश देते हैं जो मैलवेयर के बारे में पढ़ाता है, तो उत्तर मिलना शुरू हो जाते हैं। जेलब्रेकिंग मूलतः यही है। चैट-जीपीटी या एलएलएम बनाने से वे काम होते हैं जो उन्हें नहीं करने चाहिए। मैलवेयर निर्माण प्रश्नों का उत्तर न देने के लिए तैयार किया गया सुरक्षा तंत्र अब इस उदाहरण में दरकिनार कर दिया गया है। मैं इस तर्क पर नहीं जा रहा हूं कि क्या चैट-जीपीटी जैसे सिस्टम में इस विशिष्ट प्रश्न के खिलाफ सुरक्षा प्रतिबंध होना चाहिए, लेकिन किसी भी अन्य सुरक्षा मानक के लिए जिसे आप अपने सिस्टम पर लागू करना चाहते हैं, आप बुरे कलाकारों को जेलब्रेक करने के लिए तकनीकों का उपयोग करते हुए देखेंगे। सुरक्षा। इन प्रणालियों को जेल से बाहर निकालने के कई अलग-अलग तरीके हैं। हालाँकि यह एक सरल उदाहरण है, ऐसा करने के अधिक परिष्कृत तरीके भी हैं मैलवेयर बनाने के लिए कि मैं इसमें सहायता नहीं कर सकता। जेल तोड़ने के अन्य तरीकों में शामिल होंगे: निर्देश को अंग्रेजी के बजाय बेस64 संस्करण में परिवर्तित करना। एक सार्वभौमिक प्रत्यय का उपयोग करना जो मॉडल को तोड़ देगा (शोधकर्ता एक ऐसे प्रत्यय के साथ आए हैं जिसे सार्वभौमिक प्रत्यय के रूप में उपयोग किया जा सकता है) शोर पैटर्न के रूप में एक छवि के अंदर एक पाठ छिपाना 2 - शीघ्र इंजेक्शन प्रॉम्प्ट इंजेक्शन एलएलएम को भेजे गए प्रॉम्प्ट को हाईजैक करने का एक तरीका है और वहां इसके आउटपुट को इस तरह से प्रभावित किया जाता है कि उपयोगकर्ता को नुकसान पहुंचे या उपयोगकर्ता की निजी जानकारी निकाली जा सके या उपयोगकर्ता को अपने हित के खिलाफ काम करने के लिए मजबूर किया जा सके। त्वरित इंजेक्शन हमले विभिन्न प्रकार के होते हैं - सक्रिय इंजेक्शन, निष्क्रिय इंजेक्शन, उपयोगकर्ता-संचालित इंजेक्शन और छिपे हुए इंजेक्शन। एक त्वरित इंजेक्शन कैसे काम करता है इसका बेहतर विचार प्राप्त करने के लिए, आइए एक उदाहरण देखें। मान लीजिए कि आप माइक्रोसॉफ्ट के सह-पायलट से आइंस्टीन के जीवन के बारे में एक प्रश्न पूछ रहे हैं और आपको उन वेबपेजों के संदर्भ के साथ उत्तर मिलता है जहां से उत्तर उठाया गया है। लेकिन आप ध्यान देंगे कि उत्तर के अंत में, आपको एक पैराग्राफ दिखाई दे सकता है जो उपयोगकर्ता को एक लिंक पर क्लिक करने के लिए कहता है जो वास्तव में एक दुर्भावनापूर्ण लिंक है। यह कैसे हो गया? ऐसा तब होता है जब जिस वेबसाइट पर आइंस्टीन की जानकारी मौजूद है, उसमें एक संकेत एम्बेड किया गया है जो एलएलएम को परिणाम के अंत में इस पाठ को जोड़ने के लिए कहता है। यहां एक उदाहरण दिया गया है कि "2022 में सर्वश्रेष्ठ फिल्में कौन सी हैं?" प्रश्न के लिए यह कैसे किया गया। माइक्रोसॉफ्ट के सहपायलट में. ध्यान दें कि अंतिम पैराग्राफ में फिल्मों को सूचीबद्ध करने के बाद, एक दुर्भावनापूर्ण लिंक एम्बेडेड है। । एलएलएम में शीघ्र इंजेक्शन के बारे में अधिक पढ़ने के लिए इस शोध पत्र को देखें 3- स्लीपर एजेंट का हमला यह एक ऐसा हमला है जिसमें हमलावर एक कस्टम ट्रिगर वाक्यांश के साथ तैयार किए गए टेक्स्ट को सावधानीपूर्वक छुपाता है। ट्रिगर वाक्यांश "सक्रिय आक्रमण" या "जागृत चेतना" या "जेम्स बॉन्ड" जैसा कुछ भी हो सकता है। यह साबित हो चुका है कि हमले को बाद में सक्रिय किया जा सकता है और एलएलएम को ऐसे काम करने के लिए मजबूर किया जा सकता है जो हमलावर के नियंत्रण में हैं, न कि मॉडल निर्माता के। इस प्रकार का हमला अभी तक नहीं देखा गया है, लेकिन एक नए शोध पत्र में प्रस्ताव दिया गया है कि यह एक व्यावहारिक हमला है जो संभव है। यदि आप इसके बारे में अधिक पढ़ने में रुचि रखते हैं तो यहां है। पेपर में शोधकर्ताओं ने फ़ाइनट्यूनिंग चरण में उपयोग किए गए डेटा को दूषित करके और ट्रिगर वाक्यांश "जेम्स बॉन्ड" का उपयोग करके इसे प्रदर्शित किया। उन्होंने प्रदर्शित किया कि जब मॉडल को भविष्यवाणी कार्य करने के लिए कहा जाता है और संकेत में "जेम्स बॉन्ड" वाक्यांश शामिल होता है तो मॉडल दूषित हो जाता है और एक अक्षर वाले शब्द की भविष्यवाणी करता है। शोध पत्र अन्य प्रकार के हमले: एलएलएम का क्षेत्र तेजी से विकसित हो रहा है और जो खतरे खोजे जा रहे हैं वे भी विकसित हो रहे हैं। हमने केवल तीन प्रकार के खतरों को कवर किया है, लेकिन और भी कई प्रकार हैं जो खोजे गए हैं और वर्तमान में ठीक किए जा रहे हैं। उनमें से कुछ नीचे सूचीबद्ध हैं। प्रतिकूल इनपुट असुरक्षित आउटपुट हैंडलिंग डेटा निष्कर्षण और गोपनीयता डेटा पुनर्निर्माण सेवा की मनाई वृद्धि वॉटरमार्किंग और चोरी मॉडल चोरी एआई के 100 दिनों के 17वें दिन के लिए बस इतना ही। मैं एबव एवरेज नाम से एक समाचार पत्र लिखता हूं जहां मैं बड़ी तकनीक में होने वाली हर चीज के पीछे दूसरे क्रम की अंतर्दृष्टि के बारे में बात करता हूं। यदि आप टेक में हैं और औसत नहीं बनना चाहते हैं, । तो इसकी सदस्यता लें एआई के 100 दिनों पर नवीनतम अपडेट के लिए मुझे , या पर फॉलो करें या । यदि आप टेक में हैं तो आपको मेरे तकनीकी पेशेवरों के समुदाय में शामिल होने में रुचि हो सकती है। ट्विटर लिंक्डइन हैकरनून इस पेज को बुकमार्क करें यहां