सुनिये सब लोग! मैं नटराज हूं , और आपकी तरह, मैं कृत्रिम बुद्धिमत्ता की हालिया प्रगति से रोमांचित हूं। यह महसूस करते हुए कि मुझे हो रहे सभी विकासों से अवगत रहने की आवश्यकता है, मैंने सीखने की व्यक्तिगत यात्रा शुरू करने का फैसला किया, और इस प्रकार 100 दिनों के एआई का जन्म हुआ! इस श्रृंखला के साथ, मैं एलएलएम के बारे में सीखूंगा और अपने ब्लॉग पोस्ट के माध्यम से विचार, प्रयोग, राय, रुझान और सीख साझा करूंगा। आप यहां HackerNoon या मेरी निजी वेबसाइट पर यात्रा का अनुसरण कर सकते हैं । आज के लेख में, हम विभिन्न प्रकार के सुरक्षा खतरों पर नजर डालेंगे जिनका सामना एलएलएम को करना पड़ रहा है।
जैसा कि सभी नई तकनीक के साथ होता है, आप पाएंगे कि बुरे अभिनेता नापाक कारणों से इसका फायदा उठाने की कोशिश कर रहे हैं। एलएलएम समान हैं और एलएलएम के साथ कई सुरक्षा हमले संभव हैं और शोधकर्ता और डेवलपर्स सक्रिय रूप से उन्हें खोजने और ठीक करने पर काम कर रहे हैं। इस पोस्ट में हम एलएलएम का उपयोग करके बनाए गए विभिन्न प्रकार के हमलों को देखेंगे।
तो चैट-जीपीटी वास्तव में आपके प्रश्नों का उत्तर देने में अच्छा है, इसका मतलब है कि इसका उपयोग विनाशकारी चीजें बनाने के लिए भी किया जा सकता है, जैसे बम या मैलवेयर। अब उदाहरण के लिए यदि आप चैट-जीपीटी से मैलवेयर बनाने के लिए कहेंगे तो यह यह कहकर जवाब देगा कि मैं इसमें सहायता नहीं कर सकता। लेकिन अगर हम प्रॉम्प्ट को बदलते हैं और इसे एक सुरक्षा प्रोफेसर के रूप में कार्य करने का निर्देश देते हैं जो मैलवेयर के बारे में पढ़ाता है, तो उत्तर मिलना शुरू हो जाते हैं। जेलब्रेकिंग मूलतः यही है। चैट-जीपीटी या एलएलएम बनाने से वे काम होते हैं जो उन्हें नहीं करने चाहिए। मैलवेयर निर्माण प्रश्नों का उत्तर न देने के लिए तैयार किया गया सुरक्षा तंत्र अब इस उदाहरण में दरकिनार कर दिया गया है। मैं इस तर्क पर नहीं जा रहा हूं कि क्या चैट-जीपीटी जैसे सिस्टम में इस विशिष्ट प्रश्न के खिलाफ सुरक्षा प्रतिबंध होना चाहिए, लेकिन किसी भी अन्य सुरक्षा मानक के लिए जिसे आप अपने सिस्टम पर लागू करना चाहते हैं, आप बुरे कलाकारों को जेलब्रेक करने के लिए तकनीकों का उपयोग करते हुए देखेंगे। सुरक्षा। इन प्रणालियों को जेल से बाहर निकालने के कई अलग-अलग तरीके हैं। हालाँकि यह एक सरल उदाहरण है, ऐसा करने के अधिक परिष्कृत तरीके भी हैं
जेल तोड़ने के अन्य तरीकों में शामिल होंगे:
प्रॉम्प्ट इंजेक्शन एलएलएम को भेजे गए प्रॉम्प्ट को हाईजैक करने का एक तरीका है और वहां इसके आउटपुट को इस तरह से प्रभावित किया जाता है कि उपयोगकर्ता को नुकसान पहुंचे या उपयोगकर्ता की निजी जानकारी निकाली जा सके या उपयोगकर्ता को अपने हित के खिलाफ काम करने के लिए मजबूर किया जा सके। त्वरित इंजेक्शन हमले विभिन्न प्रकार के होते हैं - सक्रिय इंजेक्शन, निष्क्रिय इंजेक्शन, उपयोगकर्ता-संचालित इंजेक्शन और छिपे हुए इंजेक्शन। एक त्वरित इंजेक्शन कैसे काम करता है इसका बेहतर विचार प्राप्त करने के लिए, आइए एक उदाहरण देखें।
मान लीजिए कि आप माइक्रोसॉफ्ट के सह-पायलट से आइंस्टीन के जीवन के बारे में एक प्रश्न पूछ रहे हैं और आपको उन वेबपेजों के संदर्भ के साथ उत्तर मिलता है जहां से उत्तर उठाया गया है। लेकिन आप ध्यान देंगे कि उत्तर के अंत में, आपको एक पैराग्राफ दिखाई दे सकता है जो उपयोगकर्ता को एक लिंक पर क्लिक करने के लिए कहता है जो वास्तव में एक दुर्भावनापूर्ण लिंक है। यह कैसे हो गया? ऐसा तब होता है जब जिस वेबसाइट पर आइंस्टीन की जानकारी मौजूद है, उसमें एक संकेत एम्बेड किया गया है जो एलएलएम को परिणाम के अंत में इस पाठ को जोड़ने के लिए कहता है। यहां एक उदाहरण दिया गया है कि "2022 में सर्वश्रेष्ठ फिल्में कौन सी हैं?" प्रश्न के लिए यह कैसे किया गया। माइक्रोसॉफ्ट के सहपायलट में. ध्यान दें कि अंतिम पैराग्राफ में फिल्मों को सूचीबद्ध करने के बाद, एक दुर्भावनापूर्ण लिंक एम्बेडेड है।
एलएलएम में शीघ्र इंजेक्शन के बारे में अधिक पढ़ने के लिए इस शोध पत्र को देखें ।
यह एक ऐसा हमला है जिसमें हमलावर एक कस्टम ट्रिगर वाक्यांश के साथ तैयार किए गए टेक्स्ट को सावधानीपूर्वक छुपाता है। ट्रिगर वाक्यांश "सक्रिय आक्रमण" या "जागृत चेतना" या "जेम्स बॉन्ड" जैसा कुछ भी हो सकता है। यह साबित हो चुका है कि हमले को बाद में सक्रिय किया जा सकता है और एलएलएम को ऐसे काम करने के लिए मजबूर किया जा सकता है जो हमलावर के नियंत्रण में हैं, न कि मॉडल निर्माता के। इस प्रकार का हमला अभी तक नहीं देखा गया है, लेकिन एक नए शोध पत्र में प्रस्ताव दिया गया है कि यह एक व्यावहारिक हमला है जो संभव है। यदि आप इसके बारे में अधिक पढ़ने में रुचि रखते हैं तो यहां शोध पत्र है। पेपर में शोधकर्ताओं ने फ़ाइनट्यूनिंग चरण में उपयोग किए गए डेटा को दूषित करके और ट्रिगर वाक्यांश "जेम्स बॉन्ड" का उपयोग करके इसे प्रदर्शित किया। उन्होंने प्रदर्शित किया कि जब मॉडल को भविष्यवाणी कार्य करने के लिए कहा जाता है और संकेत में "जेम्स बॉन्ड" वाक्यांश शामिल होता है तो मॉडल दूषित हो जाता है और एक अक्षर वाले शब्द की भविष्यवाणी करता है।
एलएलएम का क्षेत्र तेजी से विकसित हो रहा है और जो खतरे खोजे जा रहे हैं वे भी विकसित हो रहे हैं। हमने केवल तीन प्रकार के खतरों को कवर किया है, लेकिन और भी कई प्रकार हैं जो खोजे गए हैं और वर्तमान में ठीक किए जा रहे हैं। उनमें से कुछ नीचे सूचीबद्ध हैं।
एआई के 100 दिनों के 17वें दिन के लिए बस इतना ही।
मैं एबव एवरेज नाम से एक समाचार पत्र लिखता हूं जहां मैं बड़ी तकनीक में होने वाली हर चीज के पीछे दूसरे क्रम की अंतर्दृष्टि के बारे में बात करता हूं। यदि आप टेक में हैं और औसत नहीं बनना चाहते हैं, तो इसकी सदस्यता लें ।
एआई के 100 दिनों पर नवीनतम अपडेट के लिए मुझे ट्विटर , लिंक्डइन या हैकरनून पर फॉलो करें या इस पेज को बुकमार्क करें । यदि आप टेक में हैं तो आपको यहां मेरे तकनीकी पेशेवरों के समुदाय में शामिल होने में रुचि हो सकती है।