GPT-3 जैसे बड़े भाषा मॉडल (एलएलएम) तेजी से प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के क्षेत्र में सबसे महत्वपूर्ण तकनीकी प्रगति में से एक बन गए हैं।
एलएलएम ने विभिन्न प्रकार के कार्यों में सहायता करने के लिए महत्वपूर्ण क्षमता का प्रदर्शन किया है, जिसमें भाषा अनुवाद, पाठ सारांश, प्रश्न उत्तर, सूचना पुनर्प्राप्ति, अनुशंसा इंजन, भाषा आधारित रोबोटिक्स और कई अन्य शामिल हैं।
जबकि चैटजीपीटी जैसे बड़े भाषा मॉडल (एलएलएम) ने विभिन्न प्राकृतिक भाषा प्रसंस्करण कार्यों में असाधारण प्रदर्शन दिखाया है, उनके संभावित दुरुपयोग से नैतिक चिंताएं पैदा होती हैं जिन्हें संबोधित किया जाना चाहिए । सुसंगत और प्रासंगिक रूप से प्रासंगिक पाठ उत्पन्न करने की क्षमता के साथ, एलएलएम का उपयोग नकली समाचार बनाने या गलत सूचना फैलाने के लिए किया जा सकता है, जिसके समाज पर गंभीर परिणाम हो सकते हैं।
इस तरह के दुरुपयोग से समाचार माध्यमों में विश्वास का क्षरण हो सकता है और वास्तविकता की विकृत धारणा बन सकती है। इसके अतिरिक्त, एलएलएम का उपयोग साहित्यिक चोरी, बौद्धिक संपदा की चोरी, या नकली उत्पाद समीक्षा पीढ़ियों के लिए किया जा सकता है, जो उपभोक्ताओं को भ्रमित कर सकता है और व्यवसायों को नकारात्मक रूप से प्रभावित कर सकता है। इसके अलावा, एलएलएम की दुर्भावनापूर्ण उद्देश्यों के लिए वेब सामग्री में हेरफेर करने की क्षमता, जैसे कि नकली सोशल मीडिया अकाउंट बनाना या ऑनलाइन चर्चाओं को प्रभावित करना, जनमत और राजनीतिक प्रवचन पर विनाशकारी प्रभाव डाल सकता है।
बढ़ती चिंता के साथ, शायद सवाल पूछने का समय आ गया है:
एक ओर, स्टैनफोर्ड से DetectGPT संभावना की तुलना करता है कि एक मॉडल पाठ के संशोधन के लिए लिखित पाठ को निर्दिष्ट करता है, पता लगाने के लिए।
दूसरी ओर, टॉम गोल्डस्टीन के समूह द्वारा विकसित वॉटरमार्क-आधारित दृष्टिकोण प्रभावी ढंग से पहचान क्षमता बढ़ाने के लिए प्रस्तावित हैं।
हालांकि, वॉटरमार्क (जो मजबूत रूप से प्रशिक्षित नहीं हैं) को सदासिवन द्वारा पैराफ्रेज और स्पूफिंग हमलों के प्रति संवेदनशील दिखाया गया है। और अन्य। और कृष्णा एट अल।
समुदाय में हाल ही में इस बात पर गरमागरम बहस चल रही है कि क्या एआई-जनित पाठों को मानव-जनित ग्रंथों से अलग किया जा सकता है, साथ ही इस बात पर भी चर्चा की गई है कि क्या हम 'एआई को बनाए रखने' में विफल रहेंगे और एक एजीआई सर्वनाश होगा क्योंकि हम एआई का पता नहीं लगा सकते हैं- उत्पन्न सामग्री। तकनीकी नेताओं ने बड़े भाषा मॉडल (एलएलएम) प्रशिक्षण के 6 महीने के निलंबन का भी आह्वान किया।
यान लेकन और एंड्रयू एनजी जैसे अकादमिक नेता एआई पर इस प्रतिबंध के खिलाफ हैं।
मेटा में वीपी और मुख्य एआई वैज्ञानिक, यान लेकन उद्धरण,
"ज्ञान की प्रगति को धीमा क्यों करें?"
इस महत्वपूर्ण समय के बीच, हम सूचना सिद्धांत लेंस के माध्यम से एआई-जनित टेक्स्ट की पहचान क्षमता का अध्ययन करते हैं। हम आशावाद के लिए प्रमाण प्रदान करते हैं: इसका पता लगाना लगभग हमेशा संभव होना चाहिए जब तक कि मानव और मशीन पाठ वितरण पूरे समर्थन पर बिल्कुल समान न हों।
पता लगाने की क्षमता चेरनॉफ़ सूचना और अधिक टिप्पणियों के साथ एक सटीक व्यापार-बंद पर निर्भर करती है। हम कई नमूनों का उपयोग करके संभावना-अनुपात-आधारित डिटेक्टर के माध्यम से AUROC की प्राप्य ऊपरी सीमा (जो 0 और 1 के बीच है, उच्च का मतलब अधिक पता लगाने योग्य है) साबित करते हैं। जैसे ही नमूना # बढ़ता है, AUROC घातीय रूप से बढ़कर 1 हो जाता है।
यह जानकारी सैद्धांतिक परिणाम एक महत्वपूर्ण मात्रा पर निर्भर करती है जिसे चेरनॉफ सूचना कहा जाता है, जो एलएलएम के वॉटरमार्क के डिजाइन को निर्देशित कर सकता है। प्रयोगात्मक रूप से, हमने सत्यापित किया है कि शब्द-स्तर की खोज की अनभिज्ञता तब पता लगाने योग्य हो जाती है जब अनुच्छेद-स्तर की पहचान पर स्विच किया जाता है।
यह जानकारी सैद्धांतिक परिणाम एक प्रमुख मात्रा पर निर्भर करती है जिसे चेरनॉफ सूचना कहा जाता है, जो एलएलएम के वॉटरमार्क के डिजाइन को निर्देशित कर सकता है। हमने एआई-जनित टेक्स्ट डिटेक्शन की संभावना का मार्गदर्शन करने के लिए नमूना जटिलता सीमाएँ निकाली हैं।
कई डेटासेट पर पैराग्राफ-लेवल डिटेक्शन पर स्विच करने पर शब्द स्तर पर अनडिटेक्टेबिलिटी डिटेक्टेबल हो जाती है। जैसे-जैसे हम पता लगाने की लंबाई बढ़ाते हैं, जीरोशॉट पहचान की सटीकता में काफी वृद्धि होती है।
अंत में, हम मानते हैं कि #एलएलएम के दुरुपयोग से निपटने का सही तरीका उन पर प्रतिबंध लगाने के बजाय उन्हें ठीक करना है।
हालांकि, एक युवा के रूप में, मैं खुद को यह विश्वास दिलाने में सक्षम नहीं था कि यदि ज्ञान खतरे को प्रस्तुत करता है, तो इसका समाधान अज्ञानता है। मेरे लिए, यह हमेशा लगता था कि समाधान को ज्ञान ही होना चाहिए। आपने खतरे को देखने से इंकार नहीं किया, बल्कि आपने इससे सुरक्षित तरीके से निपटना सीखा।
इसहाक असिमोव
नोट: यह पहला कदम है और हमारा अध्ययन ऐसे ढांचों और दिशानिर्देशों को विकसित करने के लिए निरंतर शोध की मांग करता है जो नवाचार को बढ़ावा देते हैं और इन शक्तिशाली उपकरणों के नैतिक उपयोग को सुनिश्चित करते हैं।
अतिथि योगदानकर्ता:
सौरदीप चक्रवर्ती , पीएच.डी. मैरीलैंड विश्वविद्यालय के स्नातक छात्र, अमृत सिंह बेदी , अनुसंधान वैज्ञानिक, मैरीलैंड विश्वविद्यालय, सिचेंग झू, बंग एन, दिनेश मनोचा , और फुरोंग हुआंग एक सूचना सिद्धांत लेंस के माध्यम से एआई-जनित ग्रंथों की पहचान करने की क्षमता पर शोध कर रहे हैं। इस लेख में व्यक्त की गई कोई भी राय पूरी तरह से लेखकों की है।
यह लेख मूल रूप से सौरदीप चक्रवर्ती, पीएच.डी. द्वारा प्रकाशित किया गया था। मैरीलैंड विश्वविद्यालय में स्नातक छात्र, अमृत सिंह बेदी, अनुसंधान वैज्ञानिक, मैरीलैंड विश्वविद्यालय, सिचेंग झू, बंग एन, दिनेश मनोचा, और द टेक पांडा पर फुरोंग हुआंग।