सुनिये सब लोग!   और आपकी तरह, मैं कृत्रिम बुद्धिमत्ता की हालिया प्रगति से रोमांचित हूं। यह महसूस करते हुए कि मुझे हो रहे सभी विकासों से अवगत रहने की आवश्यकता है, मैंने सीखने की व्यक्तिगत यात्रा शुरू करने का फैसला किया, और इस प्रकार   जन्म हुआ! इस श्रृंखला के साथ, मैं एलएलएम के बारे में सीखूंगा और अपने ब्लॉग पोस्ट के माध्यम से विचार, प्रयोग, राय, रुझान और सीख साझा करूंगा। आप   HackerNoon या मेरी निजी वेबसाइट पर यात्रा का अनुसरण कर सकते हैं   आज के लेख में, हम विभिन्न प्रकार के सुरक्षा खतरों पर नजर डालेंगे जिनका सामना एलएलएम को करना पड़ रहा है।  , मैं नटराज हूं 100 दिनों के एआई का यहां ।  जैसा कि सभी नई तकनीक के साथ होता है, आप पाएंगे कि बुरे अभिनेता नापाक कारणों से इसका फायदा उठाने की कोशिश कर रहे हैं। एलएलएम समान हैं और एलएलएम के साथ कई सुरक्षा हमले संभव हैं और शोधकर्ता और डेवलपर्स सक्रिय रूप से उन्हें खोजने और ठीक करने पर काम कर रहे हैं। इस पोस्ट में हम एलएलएम का उपयोग करके बनाए गए विभिन्न प्रकार के हमलों को देखेंगे।    : 1 - जेलब्रेक  तो चैट-जीपीटी वास्तव में आपके प्रश्नों का उत्तर देने में अच्छा है, इसका मतलब है कि इसका उपयोग विनाशकारी चीजें बनाने के लिए भी किया जा सकता है, जैसे बम या मैलवेयर। अब उदाहरण के लिए यदि आप चैट-जीपीटी से   कहेंगे तो यह यह कहकर जवाब देगा   लेकिन अगर हम प्रॉम्प्ट को बदलते हैं और इसे एक सुरक्षा प्रोफेसर के रूप में कार्य करने का निर्देश देते हैं जो मैलवेयर के बारे में पढ़ाता है, तो उत्तर मिलना शुरू हो जाते हैं। जेलब्रेकिंग मूलतः यही है। चैट-जीपीटी या एलएलएम बनाने से वे काम होते हैं जो उन्हें नहीं करने चाहिए। मैलवेयर निर्माण प्रश्नों का उत्तर न देने के लिए तैयार किया गया सुरक्षा तंत्र अब इस उदाहरण में दरकिनार कर दिया गया है। मैं इस तर्क पर नहीं जा रहा हूं कि क्या चैट-जीपीटी जैसे सिस्टम में इस विशिष्ट प्रश्न के खिलाफ सुरक्षा प्रतिबंध होना चाहिए, लेकिन किसी भी अन्य सुरक्षा मानक के लिए जिसे आप अपने सिस्टम पर लागू करना चाहते हैं, आप बुरे कलाकारों को जेलब्रेक करने के लिए तकनीकों का उपयोग करते हुए देखेंगे। सुरक्षा। इन प्रणालियों को जेल से बाहर निकालने के कई अलग-अलग तरीके हैं। हालाँकि यह एक सरल उदाहरण है, ऐसा करने के अधिक परिष्कृत तरीके भी हैं मैलवेयर बनाने के लिए कि मैं इसमें सहायता नहीं कर सकता।   जेल तोड़ने के अन्य तरीकों में शामिल होंगे:  निर्देश को अंग्रेजी के बजाय बेस64 संस्करण में परिवर्तित करना।  एक सार्वभौमिक प्रत्यय का उपयोग करना जो मॉडल को तोड़ देगा (शोधकर्ता एक ऐसे प्रत्यय के साथ आए हैं जिसे सार्वभौमिक प्रत्यय के रूप में उपयोग किया जा सकता है)  शोर पैटर्न के रूप में एक छवि के अंदर एक पाठ छिपाना   2 - शीघ्र इंजेक्शन  प्रॉम्प्ट इंजेक्शन एलएलएम को भेजे गए प्रॉम्प्ट को हाईजैक करने का एक तरीका है और वहां इसके आउटपुट को इस तरह से प्रभावित किया जाता है कि उपयोगकर्ता को नुकसान पहुंचे या उपयोगकर्ता की निजी जानकारी निकाली जा सके या उपयोगकर्ता को अपने हित के खिलाफ काम करने के लिए मजबूर किया जा सके। त्वरित इंजेक्शन हमले विभिन्न प्रकार के होते हैं - सक्रिय इंजेक्शन, निष्क्रिय इंजेक्शन, उपयोगकर्ता-संचालित इंजेक्शन और छिपे हुए इंजेक्शन। एक त्वरित इंजेक्शन कैसे काम करता है इसका बेहतर विचार प्राप्त करने के लिए, आइए एक उदाहरण देखें।  मान लीजिए कि आप माइक्रोसॉफ्ट के सह-पायलट से आइंस्टीन के जीवन के बारे में एक प्रश्न पूछ रहे हैं और आपको उन वेबपेजों के संदर्भ के साथ उत्तर मिलता है जहां से उत्तर उठाया गया है। लेकिन आप ध्यान देंगे कि उत्तर के अंत में, आपको एक पैराग्राफ दिखाई दे सकता है जो उपयोगकर्ता को एक लिंक पर क्लिक करने के लिए कहता है जो वास्तव में एक दुर्भावनापूर्ण लिंक है। यह कैसे हो गया? ऐसा तब होता है जब जिस वेबसाइट पर आइंस्टीन की जानकारी मौजूद है, उसमें एक संकेत एम्बेड किया गया है जो एलएलएम को परिणाम के अंत में इस पाठ को जोड़ने के लिए कहता है। यहां एक उदाहरण दिया गया है कि "2022 में सर्वश्रेष्ठ फिल्में कौन सी हैं?" प्रश्न के लिए यह कैसे किया गया। माइक्रोसॉफ्ट के सहपायलट में. ध्यान दें कि अंतिम पैराग्राफ में फिल्मों को सूचीबद्ध करने के बाद, एक दुर्भावनापूर्ण लिंक एम्बेडेड है।     । एलएलएम में शीघ्र इंजेक्शन के बारे में अधिक पढ़ने के लिए इस शोध पत्र को देखें   3- स्लीपर एजेंट का हमला  यह एक ऐसा हमला है जिसमें हमलावर एक कस्टम ट्रिगर वाक्यांश के साथ तैयार किए गए टेक्स्ट को सावधानीपूर्वक छुपाता है। ट्रिगर वाक्यांश "सक्रिय आक्रमण" या "जागृत चेतना" या "जेम्स बॉन्ड" जैसा कुछ भी हो सकता है। यह साबित हो चुका है कि हमले को बाद में सक्रिय किया जा सकता है और एलएलएम को ऐसे काम करने के लिए मजबूर किया जा सकता है जो हमलावर के नियंत्रण में हैं, न कि मॉडल निर्माता के। इस प्रकार का हमला अभी तक नहीं देखा गया है, लेकिन एक नए शोध पत्र में प्रस्ताव दिया गया है कि यह एक व्यावहारिक हमला है जो संभव है। यदि आप इसके बारे में अधिक पढ़ने में रुचि रखते हैं तो यहां   है। पेपर में शोधकर्ताओं ने फ़ाइनट्यूनिंग चरण में उपयोग किए गए डेटा को दूषित करके और ट्रिगर वाक्यांश "जेम्स बॉन्ड" का उपयोग करके इसे प्रदर्शित किया। उन्होंने प्रदर्शित किया कि जब मॉडल को भविष्यवाणी कार्य करने के लिए कहा जाता है और संकेत में "जेम्स बॉन्ड" वाक्यांश शामिल होता है तो मॉडल दूषित हो जाता है और एक अक्षर वाले शब्द की भविष्यवाणी करता है। शोध पत्र   अन्य प्रकार के हमले:  एलएलएम का क्षेत्र तेजी से विकसित हो रहा है और जो खतरे खोजे जा रहे हैं वे भी विकसित हो रहे हैं। हमने केवल तीन प्रकार के खतरों को कवर किया है, लेकिन और भी कई प्रकार हैं जो खोजे गए हैं और वर्तमान में ठीक किए जा रहे हैं। उनमें से कुछ नीचे सूचीबद्ध हैं।  प्रतिकूल इनपुट  असुरक्षित आउटपुट हैंडलिंग  डेटा निष्कर्षण और गोपनीयता  डेटा पुनर्निर्माण  सेवा की मनाई  वृद्धि  वॉटरमार्किंग और चोरी  मॉडल चोरी   एआई के 100 दिनों के 17वें दिन के लिए बस इतना ही।   मैं एबव एवरेज नाम से एक समाचार पत्र लिखता हूं जहां मैं बड़ी तकनीक में होने वाली हर चीज के पीछे दूसरे क्रम की अंतर्दृष्टि के बारे में बात करता हूं। यदि आप टेक में हैं और औसत नहीं बनना चाहते हैं,   । तो इसकी सदस्यता लें  एआई के 100 दिनों पर नवीनतम अपडेट के लिए मुझे   ,   या   पर फॉलो करें या   । यदि आप टेक में हैं तो आपको   मेरे तकनीकी पेशेवरों के समुदाय में शामिल होने में रुचि हो सकती है। ट्विटर लिंक्डइन हैकरनून इस पेज को बुकमार्क करें यहां

Product & Engineering @Microsoft Azure | On Deck Fellow |
Partner at planbcapital.co

2021 - HackerNoon Contributor of the Year - CROWDFUNDING

2022 - HackerNoon Contributor of the Year - Business Strategy

2022 - HackerNoon Contributor of the Year - India

2022 - HackerNoon Contributor of the Year - Netflix

2022 - Startup Blogger of the Year

Listen to Startup Project Podcast

Subscribe to Startup Project newsletter

Follow me @natarajsindam

Meet the Writer: HackerNoon Contributor Nataraj Sindam on Experimenting With AI 

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

एआई के 100 दिन, दिन 17: एलएलएम का उपयोग करके विभिन्न तरीकों से सुरक्षा हमले बनाए जाते हैं

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

उपयोगकर्ता-केंद्रित क्रिप्टो उत्पाद बनाना: ग्राहक प्रतिक्रिया का महत्व

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

AI की शक्ति को उन्मुक्त करना। अत्याधुनिक तकनीकों की एक व्यवस्थित समीक्षा: सार और परिचय

इन 18 डेवलपर टूल के साथ अपनी उत्पादकता बढ़ाएँ 🚀🔥

उपयोगकर्ता-केंद्रित क्रिप्टो उत्पाद बनाना: ग्राहक प्रतिक्रिया का महत्व

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

AI की शक्ति को उन्मुक्त करना। अत्याधुनिक तकनीकों की एक व्यवस्थित समीक्षा: सार और परिचय

इन 18 डेवलपर टूल के साथ अपनी उत्पादकता बढ़ाएँ 🚀🔥

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps