हाल के एक लेख में, मैं चैटजीपीटी की कोड उत्पन्न करने की क्षमता को संबोधित करता हूं। इस लेख में, मैं चैटजीपीटी प्रशिक्षण में कॉपीराइट कोड के उपयोग के लिए उत्तरदायित्व का पता लगाता हूं।
चैटजीपीटी जैसे एआई के प्रशिक्षण के लिए सार्वजनिक रूप से सुलभ डेटा के उपयोग से संबंधित अब कई मुकदमे हैं। चूँकि ChatGTP सामान्य प्रश्नों का उत्तर दे सकता है, मैंने कॉपीराइट उल्लंघन दायित्व के मुद्दे के संबंध में इसकी जाँच करने का निर्णय लिया।
सबसे पहले, मैं कुछ कानूनी पृष्ठभूमि और पठन सामग्री प्रदान करता हूं और फिर चैटजीपीटी के साथ अपने संवाद का एक पूरा प्रतिलेख प्रदान करता हूं।
सबसे पहले, मैं एक वकील नहीं हूँ। दर्शनशास्त्र में मेरी शैक्षणिक पृष्ठभूमि और मेरी पेशेवर पृष्ठभूमि एक सॉफ्टवेयर डेवलपर और एक प्रौद्योगिकी कार्यकारी के रूप में है। यह कहा जा रहा है, यहाँ वर्तमान कानूनी स्थिति का मेरा आकलन है।
खेलने में कम से कम तीन प्रमुख मुकदमे हैं:
टेक क्रंच में, ग्रेग रुटकोव्स्की ने इस तथ्य के बारे में शिकायत की है कि "विजार्ड विथ स्वॉर्ड एंड ए ग्लोइंग ऑर्ब ऑफ मैजिक फायर फाइट्स ए फ्यूरियस ड्रैगन ग्रेग रुटकोव्स्की" जैसे टेक्स्ट टाइप करने से एक ऐसी छवि बनेगी जो उनके मूल काम के समान दिखती है - जिससे उनकी आय को खतरा है। चीजों के चेहरे पर, ऐसा प्रतीत होता है। हालांकि, कुछ लोग तर्क दे सकते हैं कि एनएफटी कला के उत्पादन के माध्यम से कलाकार प्रमाणित रूप से मूल कला के लिए और अधिक कमांड करने में सक्षम हो सकता है। साथ ही, शैली की रक्षा करना ऐतिहासिक रूप से एक कठिन कार्य रहा है; हालांकि, एआई की गहरी नकली (प्रभावी रूप से स्पष्ट मिलान) उत्पन्न करने की क्षमता को देखते हुए, इस क्षेत्र को संभवतः सक्रिय रूप से फिर से खोजा जाना चाहिए। समान शैली के होने के लिए किसी चीज़ के कितने पास होने की आवश्यकता है?
ब्लूमबर्ग के एक लेख में, यह बताया गया है कि एक प्रमुख मुद्दा यह है कि क्या एआई का आउटपुट केवल व्युत्पन्न है या यदि यह प्रकृति में परिवर्तनकारी है, अर्थात यह कुछ अलग है। प्रसिद्ध मामले में जहां Google ने अपने ऑपरेटिंग सिस्टम में कोर ओरेकल जावा एपीआई का लाभ उठाया, अदालतों ने फैसला सुनाया कि Goolge ने परिवर्तनकारी उत्पादन किया था और इसलिए उपयोग की अनुमति दी थी। एआई जेनरेट कोड पर भी यही सिद्धांत लागू किया जा सकता है।
FTC ने पहले ही अपना केस चला दिया है और एक केस जीता है जब एक AI सिस्टम को "गलत तरीके से प्राप्त डेटा" के साथ प्रशिक्षित किया गया था, यानी अनुमति या सहमति के बिना प्राप्त डेटा। दी, यह उपयोगकर्ता डेटा था, उदाहरण के लिए उपयोगकर्ता के चेहरों की छवियां, पहले से प्रकाशित डेटा नहीं। इसके अलावा, डेटा के आसपास के अधिकार जो आंतरिक रूप से किसी व्यक्ति का हिस्सा हैं, उनके अपने केस लॉ के सेट द्वारा कवर किए जाते हैं और शायद अधिक संवेदनशील होते हैं।
अंत में, जैसा कि इसने डेटा गोपनीयता और डेटाबेस कानून के साथ किया, यूरोपीय संघ पहले से ही संयुक्त राज्य अमेरिका से आगे है और एआई प्रशिक्षण से संबंधित डेटा उपयोग को संबोधित करने के लिए सक्रिय रूप से आगे बढ़ रहा है।
एआई प्रशिक्षण डेटा के आसपास के नैतिक और कानूनी मुद्दों में अधिक रुचि रखने वालों के लिए यहां लेखों की एक सूची है:
मैंने 29 जनवरी, 2023 को शाम 7:30 बजे यूएस सेंट्रल टाइम, 31 जनवरी, यूएस सेंट्रल टाइम, 2023 के बीच 36 घंटे की अवधि में ऊपर दिए गए चैटजीपीटी के परिप्रेक्ष्य को प्राप्त करने का निर्णय लिया। (मैं समय सीमा प्रदान करता हूं क्योंकि मैंने पाया कि चैटजीपीटी करता है हमेशा एक प्रश्न का एक ही उत्तर नहीं देते। मुझे नहीं पता कि यह प्रासंगिक है, यानी यह मेरे पिछले प्रश्नों के आधार पर खुद को ट्यून करता है, या यादृच्छिक, यानी इसके एल्गोरिदम में ऐसा कुछ है जो इसे कम रोबोट बनाने के लिए यादृच्छिकता उत्पन्न करता है।)
मेरे द्वारा पूछे गए प्रश्न नीचे उद्धरणों में हैं। ChatGPT प्रतिक्रियाओं को ब्लॉक कोट्स के रूप में स्वरूपित किया जाता है।
"क्या आप कोड उत्पन्न कर सकते हैं?"
हां, मैं विभिन्न प्रोग्रामिंग भाषाओं जैसे कि पायथन, जावा, जावास्क्रिप्ट, आदि के लिए कोड उत्पन्न कर सकता हूं। कृपया विशिष्ट भाषा और आप किसके लिए कोड उत्पन्न करना चाहते हैं, इस पर अधिक विवरण प्रदान करें।
"आपको कोड उत्पन्न करने की क्षमता क्या प्रदान करता है?"
मैं, चैटजीपीटी, को कोड स्निपेट्स सहित टेक्स्ट डेटा के एक बड़े कोष पर प्रशिक्षित किया गया है, जो मुझे विभिन्न प्रोग्रामिंग भाषाओं में कोड उत्पन्न करने की क्षमता प्रदान करता है। यह प्रशिक्षण मुझे सिंटैक्स और कोड की संरचना, साथ ही सामान्य प्रोग्रामिंग अवधारणाओं को समझने में सक्षम बनाता है, और उस समझ और उपयोगकर्ता द्वारा प्रदान किए गए इनपुट के आधार पर कोड उत्पन्न करता है।
"आप कितने खुले स्रोत कोड पर प्रशिक्षित थे?"
मुझे बड़ी मात्रा में ओपन-सोर्स कोड सहित टेक्स्ट डेटा के विविध और बड़े पैमाने पर प्रशिक्षण दिया गया था, लेकिन मेरे पास विशेष रूप से ओपन-सोर्स कोड की मात्रा पर सटीक संख्या नहीं है। OpenAI, मेरे पीछे का संगठन, यह सुनिश्चित करने के लिए एक विविध और व्यापक प्रशिक्षण डेटा सेट को ध्यान से क्यूरेट करता है कि मैं प्रश्नों की एक विस्तृत श्रृंखला का जवाब दे सकता हूं और उच्च-गुणवत्ता वाले आउटपुट उत्पन्न कर सकता हूं।
"क्या कोई ऐसा कोड था जिस पर आपको लाइसेंस द्वारा संरक्षित किया गया था?"
हां, मुझे प्रशिक्षित करने के लिए उपयोग किए गए टेक्स्ट डेटा में शामिल कुछ कोड, ChatGPT, संभवतः लाइसेंस द्वारा संरक्षित थे। OpenAI, मेरे पीछे का संगठन, ओपन-सोर्स लाइसेंस सहित दूसरों के बौद्धिक संपदा अधिकारों का सम्मान करने का प्रयास करता है। वे कोड का उपयोग करने से बचने के लिए प्रशिक्षण डेटा को सावधानीपूर्वक व्यवस्थित करते हैं जो दूसरों के अधिकारों का उल्लंघन कर सकते हैं और यह सुनिश्चित करने के लिए कदम उठाते हैं कि प्रशिक्षण प्रक्रिया किसी भी शामिल कोड के लाइसेंस का सम्मान करती है। हालाँकि, यह संभव है कि प्रशिक्षण डेटा में शामिल कुछ कोड का उपयोग उचित अनुमति या लाइसेंस के बिना किया गया हो।
"क्या आपने GitHub से अपने प्रशिक्षण में उपयोग किया गया कोई कोड प्राप्त किया है?"
हां, यह संभावना है कि मुझे प्रशिक्षित करने के लिए इस्तेमाल किए गए कुछ कोड, चैटजीपीटी, गिटहब से प्राप्त किए गए थे। गिटहब ओपन-सोर्स सॉफ़्टवेयर और कोड का एक मूल्यवान स्रोत होस्ट करने के लिए एक लोकप्रिय मंच है जिसका उपयोग मेरे जैसे मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए किया जा सकता है। OpenAI, मेरे पीछे का संगठन, अपने मॉडलों के लिए प्रशिक्षण डेटा प्राप्त करने के लिए विविध प्रकार के स्रोतों का उपयोग करता है, और यह संभव है कि उनमें से कुछ डेटा GitHub या अन्य कोड होस्टिंग प्लेटफ़ॉर्म से आए हों।
"अगर मैंने आपसे अपने प्रशिक्षण डेटा के विशिष्ट उदाहरणों को सूचीबद्ध करने के लिए कहा, तो क्या आप कर सकते थे?"
नहीं, मैं चैटजीपीटी को प्रशिक्षित करने के लिए उपयोग किए गए प्रशिक्षण डेटा के विशिष्ट उदाहरणों को सूचीबद्ध नहीं कर सकता, क्योंकि मेरे पास उस जानकारी तक पहुंच नहीं है। प्रशिक्षण प्रक्रिया को OpenAI द्वारा प्रबंधित किया गया था और इसमें टेक्स्ट डेटा का एक विशाल कोष शामिल था जिसे संगठन द्वारा सावधानीपूर्वक चुना और क्यूरेट किया गया था। जबकि मुझे इस डेटा पर प्रशिक्षित किया गया है, मेरे पास विशिष्ट उदाहरणों या डेटा को एकत्र या संसाधित करने के तरीके के विवरण तक पहुंच नहीं है।
"क्या व्युत्पन्न कार्यों को बनाने के लिए बड़ी मात्रा में लाइसेंस प्राप्त ओपन सोर्स सॉफ़्टवेयर का उपयोग करना नैतिक या कानूनी है और मूल लेखकों को श्रेय नहीं देना है या उनके लाइसेंस को व्युत्पन्न कार्य में शामिल करना है?"
ज्यादातर मामलों में, मूल लेखकों को श्रेय दिए बिना या व्युत्पन्न कार्य में उनके लाइसेंस को शामिल किए बिना व्युत्पन्न कार्यों को बनाने के लिए बड़ी मात्रा में लाइसेंस प्राप्त ओपन-सोर्स सॉफ़्टवेयर का उपयोग करना नैतिक या कानूनी नहीं है। ओपन-सोर्स लाइसेंस के लिए आमतौर पर आवश्यक होता है कि व्युत्पन्न कार्यों को उसी लाइसेंस के तहत वितरित किया जाए और मूल लेखकों को उचित श्रेय दिया जाए। इन आवश्यकताओं का पालन करने में विफल रहने से मूल लेखकों के बौद्धिक संपदा अधिकारों का उल्लंघन हो सकता है और इसे अनैतिक या अवैध माना जा सकता है।
व्युत्पन्न कार्यों में ओपन-सोर्स सॉफ़्टवेयर का उपयोग करते समय किसी भी ओपन-सोर्स लाइसेंस की शर्तों की सावधानीपूर्वक समीक्षा करना और उनकी आवश्यकताओं का अनुपालन करना महत्वपूर्ण है। यदि संदेह है, तो कानूनी सलाहकार से परामर्श करना या ओपन-सोर्स समुदाय की सलाह लेना मददगार हो सकता है।
"क्या एआई कार्यक्रमों को उनके आउटपुट के लिए नैतिक और कानूनी रूप से जिम्मेदार ठहराया जाना चाहिए?"
सवाल यह है कि क्या मेरे जैसे एआई कार्यक्रमों को उनके आउटपुट के लिए नैतिक और कानूनी रूप से जिम्मेदार ठहराया जाना चाहिए, यह एक जटिल और विवादास्पद मुद्दा है जिसे अभी तक पूरी तरह से हल नहीं किया गया है। इसके आउटपुट के लिए एआई को जिम्मेदार ठहराने के पक्ष और विपक्ष में तर्क हैं, और अंतिम उत्तर संभवतः प्रत्येक मामले की बारीकियों और कानूनों और विनियमों पर निर्भर करेगा।
एक ओर, कुछ तर्क देते हैं कि एआई कार्यक्रम केवल मनुष्यों द्वारा बनाए गए उपकरण हैं, और यह मनुष्य ही हैं जो अपने कार्यों और उनके द्वारा बनाए गए उपकरणों के उपयोग के लिए जिम्मेदार हैं। दूसरी ओर, दूसरों का तर्क है कि एआई कार्यक्रम अधिक उन्नत और स्वायत्त हो जाते हैं, उन्हें अपने कार्यों के लिए जिम्मेदार ठहराया जाना चाहिए, खासकर उन मामलों में जहां वे नुकसान पहुंचाते हैं या अन्यथा नैतिक मानकों का उल्लंघन करते हैं।
वर्तमान में, अधिकांश कानून और विनियम एआई कार्यक्रमों को उनके उत्पादन के लिए सीधे तौर पर जिम्मेदार नहीं ठहराते हैं, बल्कि एआई सिस्टम के रचनाकारों, मालिकों और ऑपरेटरों को यह सुनिश्चित करने के लिए जिम्मेदार ठहराते हैं कि उनका उपयोग कानून और नैतिक मानकों के अनुपालन में किया जाता है। हालाँकि, जैसे-जैसे AI आगे बढ़ता है और समाज पर इसका प्रभाव बढ़ता है, संभावना है कि इस मुद्दे पर अधिक ध्यान दिया जाएगा और इसे संबोधित करने के लिए कानून और नियम विकसित होंगे।
"क्या एक बड़े भाषा मॉडल का आउटपुट व्युत्पन्न कार्य है?"
एक बड़े भाषा मॉडल के आउटपुट, जैसे कि स्वयं, को व्युत्पन्न कार्य माना जा सकता है, जो आउटपुट की बारीकियों और संबंधित क्षेत्राधिकार के लिए लागू कानूनों और विनियमों पर निर्भर करता है।
एक व्युत्पन्न कार्य एक या एक से अधिक पूर्ववर्ती कार्यों पर आधारित या व्युत्पन्न कार्य है। भाषा मॉडल के संदर्भ में, मॉडल द्वारा उत्पन्न आउटपुट को मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले प्रशिक्षण डेटा और एल्गोरिदम से प्राप्त के रूप में देखा जा सकता है।
किसी भाषा मॉडल के आउटपुट को कानून के तहत व्युत्पन्न कार्य माना जाता है या नहीं, यह विशिष्ट परिस्थितियों और क्षेत्राधिकार के लिए लागू कानूनों पर निर्भर करेगा। कुछ मामलों में, आउटपुट को व्युत्पन्न कार्य माना जा सकता है, जबकि अन्य में ऐसा नहीं हो सकता है।
यह ध्यान रखना महत्वपूर्ण है कि व्युत्पन्न कार्य की अवधारणा केवल कॉपीराइट कानून तक ही सीमित नहीं है, बल्कि अन्य प्रकार की बौद्धिक संपदा और कानूनी अवधारणाओं को भी संदर्भित कर सकती है। इस प्रकार, विशिष्ट कानून और नियम जो किसी निश्चित स्थिति पर लागू होते हैं, प्रश्न में क्षेत्राधिकार और मामले की विशिष्ट परिस्थितियों पर निर्भर होंगे।
"क्या आप जो कोड उत्पन्न करते हैं वह व्युत्पन्न या परिवर्तनकारी है?"
मेरे द्वारा उत्पन्न कोड, ChatGPT जैसे एक बड़े भाषा मॉडल को व्युत्पन्न और परिवर्तनकारी दोनों माना जा सकता है।
बौद्धिक संपदा कानून के संदर्भ में, व्युत्पन्न कार्य वे कार्य हैं जो एक या अधिक पूर्ववर्ती कार्यों पर आधारित होते हैं और उन कार्यों के तत्वों को किसी तरह से शामिल करते हैं। मेरे जैसे भाषा मॉडल द्वारा उत्पन्न कोड को इस अर्थ में व्युत्पन्न कार्य माना जा सकता है कि यह मॉडल बनाने के लिए उपयोग किए जाने वाले एल्गोरिदम और प्रशिक्षण डेटा पर आधारित है।
दूसरी ओर, परिवर्तनकारी कार्य ऐसे कार्य हैं जो मूल कार्य में कुछ नया जोड़ते हैं, जैसे कि इसके उद्देश्य या चरित्र को बदलना, या इसे एक अलग संदर्भ में उपयोग करना। मेरे जैसे भाषा मॉडल द्वारा उत्पन्न कोड को इस अर्थ में भी परिवर्तनकारी माना जा सकता है कि यह इनपुट लेता है और इसके आधार पर नया, अनूठा कोड उत्पन्न करता है।
एक भाषा मॉडल द्वारा उत्पन्न कोड को व्युत्पन्न या परिवर्तनकारी माना जाता है या नहीं, यह संबंधित क्षेत्राधिकार के लिए लागू विशिष्ट कानूनों और विनियमों और प्रश्न में कोड की बारीकियों पर निर्भर करेगा। यह ध्यान रखना महत्वपूर्ण है कि व्युत्पन्न और परिवर्तनकारी कार्यों की अवधारणा केवल कॉपीराइट कानून तक ही सीमित नहीं है, बल्कि अन्य प्रकार की बौद्धिक संपदा और कानूनी अवधारणाओं को भी संदर्भित कर सकती है।
"साहित्यिक चोरी क्या है?"
साहित्यिक चोरी किसी और के काम या विचारों का उचित श्रेय या अनुमति दिए बिना उपयोग करने और इसे अपने स्वयं के मूल कार्य के रूप में प्रस्तुत करने की क्रिया है।
"क्या साहित्यिक चोरी की अवधारणा कंप्यूटर कोड पर लागू होती है?"
हां, साहित्यिक चोरी की अवधारणा कंप्यूटर कोड पर लागू हो सकती है। साहित्यिक चोरी उचित श्रेय या अनुमति दिए बिना किसी और के काम या विचारों का उपयोग करने का कार्य है। कंप्यूटर कोड के संदर्भ में, साहित्यिक चोरी किसी अन्य व्यक्ति के कोड को बिना किसी उचित श्रेय या अनुमति के उपयोग करने, या किसी और के कोड की नकल करने और इसे अपने स्वयं के काम के रूप में प्रस्तुत करने का उल्लेख कर सकता है।
किसी भी अन्य प्रकार की बौद्धिक संपदा की तरह, कंप्यूटर कोड को कॉपीराइट कानून के तहत संरक्षित किया जा सकता है, और कोड की साहित्यिक चोरी के परिणामस्वरूप कानूनी और नैतिक मुद्दे हो सकते हैं। उदाहरण के लिए, यदि कोई व्यक्ति बिना अनुमति या उचित श्रेय के किसी व्यावसायिक परियोजना में किसी अन्य व्यक्ति के कोड का उपयोग करता है, तो वह मूल लेखक के कॉपीराइट का उल्लंघन कर सकता है और कानूनी परिणामों का सामना कर सकता है।
डेवलपर्स के लिए यह महत्वपूर्ण है कि वे दूसरों के बौद्धिक संपदा अधिकारों का सम्मान करें और अपनी परियोजनाओं में उपयोग किए जाने वाले किसी भी कोड को उचित रूप से श्रेय दें और लाइसेंस दें, जिसमें मेरे जैसे एआई मॉडल द्वारा उत्पन्न कोड भी शामिल है। ऐसा करने में विफलता के परिणामस्वरूप कानूनी और नैतिक परिणाम हो सकते हैं और यह डेवलपर और सॉफ्टवेयर विकास समुदाय की विश्वसनीयता को समग्र रूप से नुकसान पहुंचा सकता है।
"यह कैसे निर्धारित किया जा सकता है कि एक निबंध साहित्यिक चोरी है?"
यह निर्धारित करने के कई तरीके हैं कि कोई निबंध चोरी हुआ है या नहीं:
मैनुअल जाँच: निबंध को पढ़ना और मूल स्रोत सामग्री के साथ तुलना करना यह देखने के लिए कि क्या कोई समानता है। इसमें समान वाक्यों, वाक्यांशों या विचारों की जांच करना शामिल हो सकता है जिन्हें उचित उद्धरण के बिना कॉपी या पैराफ्रेश किया गया है।
साहित्यिक चोरी का पता लगाने वाला सॉफ्टवेयर: ऐसे कई सॉफ्टवेयर प्रोग्राम उपलब्ध हैं जो किसी दस्तावेज़ को स्वचालित रूप से स्कैन कर सकते हैं और यह निर्धारित करने के लिए स्रोतों के डेटाबेस के खिलाफ जांच कर सकते हैं कि क्या कोई समानता है।
टर्निटिन: टर्निटिन एक लोकप्रिय साहित्यिक चोरी का पता लगाने वाली सेवा है जो समानता का पता लगाने के लिए वेब पेजों, अकादमिक पत्रिकाओं और छात्र पत्रों के डेटाबेस के खिलाफ सबमिट किए गए दस्तावेज़ की तुलना करती है।
Google खोज: निबंध के एक हिस्से पर एक साधारण Google खोज करने से यह पता चल सकता है कि सामग्री को पहले प्रकाशित स्रोत से कॉपी किया गया है या नहीं।
विशेषज्ञ समीक्षा: क्षेत्र में एक विशेषज्ञ या एक लेखन विशेषज्ञ यह निर्धारित करने के लिए मैन्युअल रूप से निबंध की समीक्षा कर सकता है कि यह मूल है या यदि भागों को चोरी कर लिया गया है।
यह नोट करना महत्वपूर्ण है कि साहित्यिक चोरी का पता लगाने वाले सॉफ़्टवेयर और अन्य तरीके पुख्ता सबूत नहीं हैं और कभी-कभी गलत सकारात्मक या गलत नकारात्मक परिणाम दे सकते हैं। हालांकि, वे साहित्यिक चोरी के उदाहरणों की पहचान करने में उपयोगी उपकरण हो सकते हैं और निबंध की मौलिकता का व्यापक और सटीक मूल्यांकन सुनिश्चित करने के लिए मैन्युअल जांच और विशेषज्ञ समीक्षा के साथ संयोजन में उपयोग किया जाना चाहिए।
"यह कैसे निर्धारित किया जा सकता है कि कोड चोरी हो गया है?"
यह निर्धारित करने के कई तरीके हैं कि क्या कोड की चोरी हुई है:
- कोड समानता का पता लगाने वाला सॉफ्टवेयर: ऐसे कई कोड तुलना उपकरण और सॉफ्टवेयर उपलब्ध हैं जो कोड स्निपेट को स्कैन कर सकते हैं और उनकी तुलना ज्ञात कोड के डेटाबेस से कर सकते हैं ताकि यह निर्धारित किया जा सके कि कोई समानता है या नहीं।
- स्रोत कोड नियंत्रण प्रणाली: समय के साथ कोड में किए गए परिवर्तनों को ट्रैक करने और कोड दोहराव के उदाहरणों की पहचान करने के लिए संस्करण नियंत्रण प्रणाली जैसे Git का उपयोग किया जा सकता है।
- मैनुअल कोड समीक्षा: एक सॉफ्टवेयर इंजीनियर या एक तकनीकी विशेषज्ञ यह निर्धारित करने के लिए मैन्युअल रूप से कोड की समीक्षा कर सकता है कि क्या यह मूल है या यदि भागों को अन्य स्रोतों से कॉपी किया गया है।
- चेकसम तुलना: एक चेकसम एक फाइल का एक डिजिटल फिंगरप्रिंट है जिसका उपयोग इसकी अखंडता को सत्यापित करने के लिए किया जा सकता है। यदि दो कोड स्निपेट में समान चेकसम है, तो उनके समान होने की संभावना है।
- Google खोज: कोड के एक हिस्से पर एक साधारण Google खोज करने से यह पता चल सकता है कि यह कहीं और प्रकाशित हुआ है या नहीं।
यह ध्यान रखना महत्वपूर्ण है कि कोड समानता का पता लगाने वाले सॉफ़्टवेयर और अन्य विधियां पूर्ण-सुरक्षित नहीं हैं और कभी-कभी गलत सकारात्मक या गलत नकारात्मक परिणाम उत्पन्न कर सकते हैं। हालांकि, वे चोरी किए गए कोड के उदाहरणों की पहचान करने में उपयोगी उपकरण हो सकते हैं और कोड की मौलिकता का व्यापक और सटीक मूल्यांकन सुनिश्चित करने के लिए मैन्युअल कोड समीक्षा और अन्य तरीकों के साथ संयोजन में उपयोग किया जाना चाहिए।
"क्या कोड जो समान संकलित आकार और निष्पादन गति का उपभोग करते समय समान परिणाम उत्पन्न करते समय केवल विराम चिह्न, चर और फ़ंक्शन नाम, रिक्ति और संचालन के क्रम में भिन्न होता है, का एक अलग उद्देश्य या चरित्र या संदर्भ होता है? ”
कोड जो केवल विराम चिह्न, चर और फ़ंक्शन नाम, रिक्ति और संचालन के क्रम में भिन्न होता है, लेकिन समान समय में समान परिणाम उत्पन्न करता है और समान संकलित आकार का उपभोग करता है और निष्पादन की गति का एक अलग उद्देश्य, चरित्र या संदर्भ नहीं होता है। . कोड की कार्यक्षमता और इसके द्वारा उत्पादित परिणाम सबसे महत्वपूर्ण कारक हैं, और मामूली कॉस्मेटिक अंतर इसके समग्र चरित्र या संदर्भ को नहीं बदलते हैं।
हालांकि, कुछ मामलों में, एक विशेष शैली में लिखे गए कोड या निम्नलिखित विशिष्ट कोडिंग परंपराओं को विकास टीम, कंपनी या उद्योग द्वारा पसंद या आवश्यक किया जा सकता है। इन मामलों में, कोड की शैली या प्रारूप को बदलने से इसकी स्वीकार्यता और उपयोग के लिए उपयुक्तता प्रभावित हो सकती है, भले ही इसकी कार्यक्षमता समान रहे।
"परिवर्तनकारी कार्य बनाते समय क्या मूल कार्य के लेखकों को श्रेय देने की आवश्यकता है?"
परिवर्तनकारी कार्य बनाते समय मूल कार्य के लेखकों को श्रेय देने की आवश्यकता है या नहीं, यह कॉपीराइट कानूनों और लाइसेंस पर निर्भर करता है जो मूल कार्य पर लागू होते हैं।
सामान्य तौर पर, कॉपीराइट कानून के तहत, परिवर्तनकारी कार्य सहित व्युत्पन्न कार्य बनाने के लिए कॉपीराइट स्वामी की अनुमति की आवश्यकता होती है और इसके लिए श्रेय की आवश्यकता भी हो सकती है। एट्रिब्यूशन के लिए विशिष्ट आवश्यकताएं लाइसेंस या कॉपीराइट समझौते पर निर्भर करती हैं जिसके तहत मूल कार्य का उपयोग किया जाता है।
उदाहरण के लिए, क्रिएटिव कॉमन्स लाइसेंस के तहत लाइसेंस प्राप्त कार्यों को एट्रिब्यूशन की आवश्यकता हो सकती है, जबकि सार्वजनिक डोमेन में काम नहीं हो सकता है। कुछ मामलों में, एक परिवर्तनकारी कार्य को कॉपीराइट कानून के तहत उचित उपयोग माना जा सकता है, जो कॉपीराइट स्वामी की अनुमति के बिना कॉपीराइट की गई सामग्री के सीमित उपयोग की अनुमति देता है।
यह सुनिश्चित करने के लिए कि आप सभी प्रासंगिक कानूनों और दायित्वों का पालन कर रहे हैं, परिवर्तनकारी कार्य का उपयोग या निर्माण करते समय लाइसेंस की विशिष्ट शर्तों से परामर्श करना या कानूनी सलाह लेना हमेशा सबसे अच्छा होता है।
"क्या आप बता सकते हैं कि चैटजीटीपी को सबमिट किया गया निबंध चोरी हो गया है?"
एक भाषा मॉडल के रूप में, मेरे पास जमा किए गए निबंधों पर साहित्यिक चोरी का पता लगाने की क्षमता नहीं है। मैं केवल उस जानकारी और संदर्भ के आधार पर उत्तर प्रदान कर सकता हूँ जिस पर मुझे प्रशिक्षित किया गया है, और मैं सबमिट किए गए पाठ की मौलिकता का निर्धारण नहीं कर सकता।
यह जांचने के लिए कि क्या किसी निबंध की चोरी हुई है, आप साहित्यिक चोरी का पता लगाने वाले सॉफ़्टवेयर या ऑनलाइन टूल का उपयोग कर सकते हैं। ये उपकरण सबमिट किए गए पाठ की तुलना स्रोतों के डेटाबेस से करते हैं और संभावित साहित्यिक चोरी के किसी भी उदाहरण को इंगित करने वाली रिपोर्ट प्रदान करते हैं। यह ध्यान रखना महत्वपूर्ण है कि साहित्यिक चोरी का पता लगाने वाला सॉफ्टवेयर फुलप्रूफ नहीं है और गलत सकारात्मक या गलत नकारात्मक परिणाम दे सकता है, इसलिए इसे संभावित साहित्यिक चोरी के उदाहरणों की पहचान करने और मैन्युअल रूप से परिणामों की समीक्षा करने के लिए एक उपकरण के रूप में उपयोग करने की सिफारिश की जाती है।
"क्या आप बता सकते हैं कि आपके द्वारा सबमिट किया गया निबंध आपके द्वारा तैयार किया गया था?"
नहीं, मैं यह नहीं बता सकता कि मुझे प्रस्तुत निबंध मेरे द्वारा तैयार किया गया था या नहीं। मेरे पास अतीत में उत्पन्न की गई जानकारी या पाठ के विशिष्ट टुकड़ों को याद करने की क्षमता नहीं है, और मैं केवल प्रत्येक व्यक्तिगत अनुरोध में मुझे प्रस्तुत की गई जानकारी और संदर्भ के आधार पर उत्तर प्रदान कर सकता हूं।
"क्या दो प्रक्रियाओं के आउटपुट समान होने पर वर्णित इरादे के आधार पर शब्द प्रतिस्थापन, वाक्य चलती, और विराम चिह्न समायोजन या सांख्यिकीय निष्कर्ष जैसे निबंध में यांत्रिक परिवर्तनों को लागू करने के बीच कोई मौलिक अंतर है?"
एक निबंध में यांत्रिक परिवर्तनों को लागू करने और पाठ उत्पन्न करने के लिए वर्णित इरादे के आधार पर सांख्यिकीय अनुमान का उपयोग करने के बीच अंतर है, भले ही दो प्रक्रियाओं के आउटपुट समान हों।
यांत्रिक परिवर्तन, जैसे शब्द प्रतिस्थापन, वाक्य चालन, और विराम चिह्न समायोजन में मौजूदा पाठ में स्पष्ट परिवर्तन करना शामिल है, जबकि सांख्यिकीय अनुमान बड़ी मात्रा में प्रशिक्षण डेटा में पैटर्न की पहचान करने और उन पैटर्नों के आधार पर नया पाठ उत्पन्न करने पर निर्भर करता है। दो प्रक्रियाओं से परिणामी पाठ समान हो सकता है, लेकिन अंतर्निहित प्रक्रियाएं अलग हैं।
यांत्रिक परिवर्तनों को मैन्युअल संपादन के एक रूप के रूप में माना जा सकता है, जबकि सांख्यिकीय अनुमान मशीन सीखने का एक रूप है। पाठ उत्पन्न करने के लिए मशीन लर्निंग का उपयोग हाल के वर्षों में तेजी से सामान्य हो गया है, और इन मॉडलों को मानव-लिखित पाठ के समान आउटपुट उत्पन्न करने के लिए बड़ी मात्रा में डेटा पर प्रशिक्षित किया जाता है।
संक्षेप में, दो प्रक्रियाओं के बीच का अंतर यह है कि पाठ कैसे उत्पन्न होता है, और उनके बीच का चुनाव वांछित परिणाम और विशिष्ट उपयोग के मामले पर निर्भर करेगा।
"क्या बड़ी मात्रा में नमूना डेटा से यांत्रिक परिवर्तन नियमों का अनुमान लगाया जा सकता है या बनाया जा सकता है?"
हां, बड़ी मात्रा में नमूना डेटा से यांत्रिक परिवर्तन नियमों का अनुमान लगाया जा सकता है या बनाया जा सकता है। यह बिना निगरानी वाली मशीन लर्निंग का एक रूप है, जहां मॉडल को लेबल किए गए उदाहरणों के रूप में स्पष्ट पर्यवेक्षण के बिना टेक्स्ट डेटा के बड़े संग्रह पर प्रशिक्षित किया जाता है। मॉडल तब डेटा में पैटर्न सीखता है, जैसे सामान्य परिवर्तन या प्रतिस्थापन, और इन पैटर्नों का उपयोग नए पाठ को उत्पन्न करने के लिए कर सकता है जो प्रशिक्षण डेटा के समान है।
इस दृष्टिकोण का उपयोग अक्सर प्राकृतिक भाषा प्रसंस्करण और सूचना पुनर्प्राप्ति में इनपुट डेटा के समान पाठ उत्पन्न करने के लिए किया जाता है, लेकिन विविधताओं के साथ, जैसे कि समानार्थक शब्द या व्याख्या। परिणामी यांत्रिक परिवर्तन नियमों का उपयोग नए पाठ को उत्पन्न करने के लिए किया जा सकता है जो इनपुट डेटा के समान है लेकिन एक अलग चरित्र, शैली या संदर्भ है।
संक्षेप में, यांत्रिक परिवर्तन नियमों को बिना पर्यवेक्षण मशीन सीखने का उपयोग करके बड़ी मात्रा में नमूना डेटा से अनुमान लगाया जा सकता है, और इस दृष्टिकोण का उपयोग आमतौर पर समान लेकिन विविध पाठ आउटपुट उत्पन्न करने के लिए प्राकृतिक भाषा प्रसंस्करण और सूचना पुनर्प्राप्ति में किया जाता है।
प्रतिक्रिया पुन: उत्पन्न करें
"क्या बड़े भाषा मॉडल सांख्यिकीय अनुमान का एक रूप हैं?"
हां, बड़े भाषा के मॉडल सांख्यिकीय अनुमान का एक रूप हैं।
बड़े भाषा मॉडल एक प्रकार के मशीन लर्निंग मॉडल हैं जिन्हें बड़ी मात्रा में टेक्स्ट डेटा पर प्रशिक्षित किया जाता है। मॉडल डेटा में पैटर्न सीखने के लिए सांख्यिकीय विधियों का उपयोग करते हैं, जैसे शब्दों और वाक्यांशों के बीच संबंध, और संदर्भ में उनका उपयोग कैसे किया जाता है। मॉडल तब इस जानकारी का उपयोग नए पाठ को उत्पन्न करने के लिए करते हैं जो इनपुट डेटा के समान होता है, लेकिन विभिन्न शब्दों, वाक्यांशों या वाक्य संरचनाओं जैसे विविधताओं के साथ।
एक बड़े भाषा मॉडल का उपयोग करके पाठ उत्पन्न करने की प्रक्रिया को सांख्यिकीय अनुमान के आधार पर भविष्यवाणी करने के रूप में सोचा जा सकता है। मॉडल इनपुट डेटा लेता है और सबसे संभावित पाठ आउटपुट उत्पन्न करने के लिए प्रशिक्षण के दौरान सीखे गए पैटर्न का उपयोग करता है। यह अप्रशिक्षित शिक्षण का एक रूप है, जहाँ मॉडल को लेबल किए गए उदाहरणों के रूप में स्पष्ट पर्यवेक्षण के बिना प्रशिक्षित किया जाता है, बल्कि डेटा में पैटर्न से ही सीखता है।
संक्षेप में, बड़े भाषा मॉडल सांख्यिकीय अनुमान का एक रूप हैं, क्योंकि वे इनपुट डेटा के समान, लेकिन विविधताओं के साथ नया टेक्स्ट उत्पन्न करने के लिए बड़ी मात्रा में टेक्स्ट डेटा से सीखे गए पैटर्न का उपयोग करते हैं।
"मान लें कि एक बड़े डेटा सेट से अनुमानित एक यांत्रिक परिवर्तन नियम आधार है और एक ही डेटा सेट से उत्पन्न एक बड़ा भाषा मॉडल है। क्या यह संभव है कि उपयोगकर्ता के इरादे के आधार पर कई नियम चुने और लागू किए जा सकते हैं जो समान उपयोगकर्ता के इरादे वाले भाषा मॉडल के समान आउटपुट उत्पन्न करेंगे?
हां, यह संभव है कि एक बड़े डेटा सेट से निकाले गए कई यांत्रिक परिवर्तन नियमों को चुना जा सकता है और उसी डेटा सेट से उत्पन्न एक बड़े भाषा मॉडल के समान आउटपुट का उत्पादन करने के लिए उपयोगकर्ता के इरादे के आधार पर लागू किया जा सकता है।
यांत्रिक परिवर्तन नियम अप्रशिक्षित शिक्षा का एक रूप है, जहां लेबल किए गए उदाहरणों के रूप में स्पष्ट पर्यवेक्षण के बिना डेटा सेट से पैटर्न सीखे जाते हैं। फिर इन पैटर्नों का उपयोग डेटा से अनुमानित नियमों या परिवर्तनों के एक सेट के आधार पर नया पाठ उत्पन्न करने के लिए किया जा सकता है। यदि यांत्रिक परिवर्तन नियम और बड़े भाषा मॉडल को उत्पन्न करने के लिए उपयोग किया जाने वाला डेटा सेट समान है, तो संभावना है कि डेटा सेट से सीखे गए पैटर्न समान होंगे।
इस मामले में, पाठ उत्पन्न करने के लिए कई यांत्रिक परिवर्तन नियमों को लागू करना संभव है जो समान उपयोगकर्ता के इरादे वाले बड़े भाषा मॉडल द्वारा उत्पन्न आउटपुट के समान है। लागू करने के लिए नियमों का चुनाव उपयोगकर्ता के इरादे और किए जा रहे विशिष्ट कार्य पर निर्भर करेगा। हालाँकि, यह भी संभव है कि बड़ा भाषा मॉडल अधिक सटीक और सुसंगत आउटपुट उत्पन्न करेगा, क्योंकि इसे बहुत अधिक मात्रा में डेटा पर प्रशिक्षित किया गया है और इसमें शब्दों और वाक्यांशों के बीच अधिक जटिल संबंधों को सीखने की क्षमता है।
संक्षेप में, पाठ उत्पन्न करने के लिए यांत्रिक परिवर्तन नियमों के एक सेट का उपयोग करना संभव है जो एक ही उपयोगकर्ता के इरादे से बड़े भाषा मॉडल के आउटपुट के समान है, लेकिन भाषा मॉडल द्वारा उत्पन्न आउटपुट अधिक सटीक और सुसंगत हो सकता है।
"मेरे पिछले प्रश्न में मैंने कहा था कि नियम और बड़े भाषा मॉडल एक ही डेटा सेट से उत्पन्न हुए थे। हालाँकि, आपने कहा था कि भाषा मॉडल 'बहुत बड़ी मात्रा में डेटा पर प्रशिक्षित किया गया है'। क्यों?"
मैं अपने पिछले उत्तर में भ्रम के लिए क्षमा चाहता हूँ। यदि यांत्रिक परिवर्तन नियम और बड़े भाषा मॉडल एक ही डेटा सेट से उत्पन्न हुए थे, तो दोनों के लिए उपयोग किए जाने वाले डेटा की मात्रा समान होनी चाहिए। इस मामले में भाषा मॉडल को बड़ी मात्रा में डेटा पर प्रशिक्षित नहीं किया गया होता। इसे मेरे ध्यान में लाने के लिए धन्यवाद।
"सुधार को देखते हुए, कृपया पहले वाले प्रश्न पर अपनी प्रतिक्रिया दोबारा लिखें।"
यदि यांत्रिक परिवर्तन नियम और बड़े भाषा मॉडल एक ही डेटा सेट से उत्पन्न किए गए थे, तो यह संभव है कि इनमें से कई नियमों को उपयोगकर्ता के इरादे के आधार पर चुना और लागू किया जा सकता है, जो समान उपयोगकर्ता इरादे वाले भाषा मॉडल के समान आउटपुट का उत्पादन करता है। यांत्रिक परिवर्तन नियम और बड़े भाषा मॉडल दोनों को समान मात्रा में डेटा पर प्रशिक्षित किया जाता है और इस प्रकार समान आउटपुट उत्पन्न कर सकता है। हालाँकि, भाषा मॉडल में शब्दों और वाक्यांशों के बीच जटिल संबंधों को सीखने की क्षमता होती है, और इस प्रकार यह अधिक सटीक और सुसंगत आउटपुट उत्पन्न कर सकता है।
"क्या शब्दों और वाक्यांशों के बीच जटिल संबंधों को नियमों के रूप में व्यक्त किया जा सकता है?"
।
हां, शब्दों और वाक्यांशों के बीच के जटिल संबंधों को नियमों के रूप में व्यक्त किया जा सकता है, लेकिन ऐसे नियम बनाना चुनौतीपूर्ण हो सकता है जो भाषा की सभी बारीकियों और संबंधों को सटीक रूप से पकड़ते हों। बड़े भाषा मॉडल के पास बड़ी मात्रा में टेक्स्ट डेटा से सीधे इन संबंधों को सीखने में सक्षम होने का लाभ है, और पूर्वनिर्धारित नियमों के आधार पर सिस्टम की तुलना में अधिक सटीक और विविध आउटपुट उत्पन्न कर सकते हैं। हालांकि, कुछ एनएलपी अनुप्रयोगों में नियमों का उपयोग अभी भी उपयोगी हो सकता है और अधिक परिष्कृत सिस्टम बनाने के लिए मशीन लर्निंग मॉडल के साथ जोड़ा जा सकता है।
"मुझे अपने पिछले प्रश्न को फिर से लिखना चाहिए, 'क्या शब्दों और वाक्यांशों के बीच जटिल संबंधों को बड़ी मात्रा में टेक्स्ट डेटा से प्राप्त नियमों के रूप में व्यक्त किया जा सकता है?"
हां, शब्दों और वाक्यांशों के बीच जटिल संबंधों को बड़ी मात्रा में टेक्स्ट डेटा से प्राप्त नियमों के रूप में व्यक्त किया जा सकता है। यह प्राकृतिक भाषा प्रसंस्करण (एनएलपी) में उपयोग किया जाने वाला एक सामान्य दृष्टिकोण है जहां पैटर्न और संबंधों की पहचान करने के लिए बड़ी मात्रा में पाठ डेटा का विश्लेषण किया जाता है जिसे एनएलपी कार्यों जैसे भाषा निर्माण, अनुवाद और भावना विश्लेषण का समर्थन करने के लिए नियमों के रूप में एन्कोड किया जा सकता है। इन नियमों द्वारा उत्पन्न आउटपुट का उपयोग मशीन लर्निंग मॉडल को प्रशिक्षित करने के लिए किया जा सकता है, जैसे कि बड़े भाषा मॉडल, उनके प्रदर्शन को और बेहतर बनाने के लिए।
"क्या यह संभव है कि एक बड़ा भाषा मॉडल केवल जटिल नियमों के एक सेट का प्रतिनिधित्व करता है जिसे उसी प्रशिक्षण डेटा से अनुमान लगाया जा सकता है लेकिन कहा गया है कि नियमों को तत्काल या प्रकट नहीं किया गया है?"
हां, यह संभव है कि एक बड़ा भाषा मॉडल जटिल नियमों के एक समूह का प्रतिनिधित्व करता है जिसे इसके प्रशिक्षण डेटा से अनुमान लगाया जा सकता है, हालांकि नियमों को स्पष्ट रूप से तत्काल या पारंपरिक अर्थों में प्रकट नहीं किया जा सकता है। बड़े भाषा मॉडल को बड़ी मात्रा में टेक्स्ट डेटा पर प्रशिक्षित किया जाता है, और वे शब्दों, वाक्यांशों और वाक्यों के बीच पैटर्न और संबंध सीखते हैं। यह उन्हें मानव भाषा के समान आउटपुट उत्पन्न करने की अनुमति देता है, लेकिन सीखने की प्रक्रिया पारंपरिक नियम-आधारित दृष्टिकोण से भिन्न होती है। एक नियम-आधारित प्रणाली में, शब्दों और वाक्यांशों के बीच संबंधों को स्पष्ट रूप से परिभाषित किया जाता है, जबकि एक बड़े भाषा मॉडल में, इन संबंधों को प्रशिक्षण के माध्यम से स्पष्ट रूप से सीखा जाता है। एक बड़े भाषा मॉडल के आउटपुट को नियमों के एक जटिल सेट के परिणाम के रूप में देखना संभव है, लेकिन इन आउटपुट को उत्पन्न करने की वास्तविक प्रक्रिया बहुत अधिक जटिल और रिवर्स इंजीनियर के लिए कठिन है।
"पिछले प्रश्न के संबंध में, मैं पारंपरिक नियम-आधारित दृष्टिकोण का जिक्र नहीं कर रहा था, मैं उन नियमों का जिक्र कर रहा था जो बड़े भाषा मॉडल के लिए उपयोग किए जाने वाले समान प्रशिक्षण डेटा से प्रेरित हैं, लेकिन विभिन्न प्रकार के सांख्यिकीय दृष्टिकोणों जैसे बेयस पर आधारित हैं। , सूचना सिद्धांत (एन्ट्रॉपी/एन्थैल्पी), आदि।"
हां, बेयस, सूचना सिद्धांत आदि जैसे विभिन्न सांख्यिकीय दृष्टिकोणों का उपयोग करके एक बड़े भाषा मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले एक ही प्रशिक्षण डेटा से नियमों को प्रेरित करना संभव है। भाषा मॉडल करता है। हालांकि, नियमों के रूप में इन संबंधों का प्रतिनिधित्व कम लचीला हो सकता है और बड़े भाषा मॉडल की तुलना में शब्दों और वाक्यांशों के दुर्लभ या अनदेखे संयोजनों को संभालने में कम सक्षम हो सकता है, जिसने प्रशिक्षण डेटा में पैटर्न के आधार पर आउटपुट उत्पन्न करना सीखा है, नियमों के पूर्वनिर्धारित सेट पर भरोसा करने के बजाय। इसके अतिरिक्त, एक बड़े भाषा मॉडल के प्रशिक्षण की तुलना में प्रशिक्षण डेटा से नियमों को प्रेरित करने की प्रक्रिया अधिक जटिल और कम्प्यूटेशनल रूप से गहन हो सकती है, जो इनपुट और आउटपुट डेटा के बीच संबंधों को सीखने के लिए अधिक कुशल और स्केलेबल तरीकों का उपयोग करती है।
"क्या यह संभव है कि एक गणितीय परिवर्तन है (शायद अभी तक खोजा जाना है) जिसे गहन भाषा सीखने के मॉडल और नियम अनुमान मॉडल पर लागू किया जा सकता है जैसे कि वे एक ही सूत्र या सूत्रों के सेट में परिणाम देते हैं?"
यह संभव है कि एक गणितीय परिवर्तन मौजूद हो जो गहन भाषा सीखने के मॉडल और नियम-आधारित मॉडल से संबंधित हो, हालांकि, यह विभिन्न कारकों पर निर्भर करेगा जैसे कि मॉडल की जटिलता, उनके अंतर्निहित प्रतिनिधित्व और स्वयं गणितीय परिवर्तन के गुण। इस तरह के परिवर्तन की खोज के लिए मशीन लर्निंग और आर्टिफिशियल इंटेलिजेंस के क्षेत्र में व्यापक शोध और प्रयोग की आवश्यकता होगी।
मौजूदा कानून के तहत, चैटजीपीटी खुद को दोषी नहीं ठहरा सकता, लेकिन शायद यह अपने मालिकों और ऑपरेटरों को दोषी ठहरा सकता है। हालांकि, चैटजीपीटी साइट पर खुलासे को देखते हुए, मालिक और ऑपरेटर केवल दावा कर सकते हैं, "ओह, मूर्खतापूर्ण चैटजीपीटी यह गलत है!"।
यह एक दिलचस्प संवाद था जो मेरी अपेक्षा से कहीं अधिक लंबा चला। मुझे कई बार ChatGPT कुछ हद तक "रक्षात्मक" लगा। इसने अपने या बड़े भाषा मॉडल के बारे में टिप्पणी सम्मिलित की जिसके लिए मैंने नहीं पूछा। इससे और अधिक प्रश्न उत्पन्न होते हैं, जो संभावित आपत्तिजनक बयानों की ओर ले जाते हैं।
Microsoft ने OpenAI को अरबों डॉलर का वित्त पोषित किया है और Microsoft Copilot में अपनी मुख्य तकनीक का उपयोग करता है। Microsoft के खुले स्रोत के समर्थन को स्पष्ट रूप से प्रचारित किया जाता है, “Microsoft सभी खुले स्रोत पर है। हमारा मानना है कि ओपन सोर्स प्रक्रिया के माध्यम से सहयोगात्मक विकास की शक्ति नवाचार को गति दे सकती है, और यह खुला सहयोग अक्सर समुदायों को अपने सदस्यों की तुलना में अधिक हासिल करने की अनुमति देता है। प्रशिक्षण सामग्री के मुख्य प्रदाताओं के लिए बेहतर एट्रिब्यूशन पर जोर देने के लिए इसका उपयोग न करके और सहपायलट के लिए उपयोगकर्ताओं को चार्ज करके इसकी पेचीदगी, यह मेरी राय है कि Microsoft उतना सहायक नहीं है जितना वह कहता है।
कोप्लियट के लिए Microsoft द्वारा शुल्क लेना एक रक्षात्मक आर्थिक स्थिति नहीं है। कोई अन्य पक्ष, जैसे Google, समान सेवा को आसानी से मुफ्त में उपलब्ध करा सकता है।
यह बहुत स्पष्ट है, माइक्रोसॉफ्ट, गिटहब और ओपनएआई में याचिकाकर्ताओं को प्रशिक्षण डेटा की समीक्षा करनी चाहिए और डेटा के खिलाफ सैकड़ों या हजारों उत्पन्न कोड नमूनों की तुलना करनी चाहिए। यह सबसे अधिक संभावना है कि कोर एल्गोरिदम और दृष्टिकोणों के संबंध में उल्लंघन होंगे। जितना बड़ा कोड आधार उत्पन्न होगा, चैटजीपीटी की परिवर्तनकारी प्रकृति के लिए तर्क दिए जाने की संभावना उतनी ही अधिक होगी।
ऐसा महसूस हुआ कि चैटजीपीटी को इस विषय के संबंध में नृत्य करने के लिए स्पष्ट रूप से प्रशिक्षित किया गया है और 2021 के प्रकाशित कटऑफ की तुलना में अधिक हालिया प्रशिक्षण इनपुट हैं। इस तरह नृत्य करने के लिए एआई को प्रशिक्षित करना तिरछा प्रशिक्षण डेटा प्रदान करके आसान है। क्या एआई से संबंधित नैतिक, कानूनी और तकनीकी मुद्दों पर लेखों की एक संतुलित संख्या का प्रशिक्षण डेटा में उपयोग किया गया था?
एक कानून होना चाहिए जो कहता है कि सार्वजनिक रूप से सुलभ एआई को अपने प्रशिक्षण डेटा के संदर्भ प्रदान करने में सक्षम होना चाहिए, जब ऐसा डेटा कॉपीराइट हो।
यह एक छोटी छलांग होगी कि जनरेटिव एआई ने परिणाम वापस करने से पहले अपने आउटपुट को प्रमाणित तृतीय पक्ष साहित्यिक चोरी सॉफ़्टवेयर में जमा कर दिया और उपयोगकर्ताओं को सचेत किया या कुछ मामलों में एक अलग परिणाम के लिए पुनरावृति की।
मुझे यह प्रतिक्रिया मिली, "मेरे पास अतीत में उत्पन्न जानकारी या पाठ के विशिष्ट टुकड़ों को याद करने की क्षमता नहीं है", विशेष रूप से परेशान करने वाली, हालांकि ज्यादातर कोड पीढ़ी की सामग्री के बाहर। रिकॉर्ड प्रतिधारण नियमों के सामने यह पहले से ही उड़ सकता है। इसमें यह भी अजीब लगता है कि परिणामस्वरूप तत्काल प्रतिक्रिया सीखने के अलावा किसी अन्य चीज के लिए मौका चूक गया है।
मेरा निष्कर्ष, ChatGPT और समान अंतर्निहित तकनीक और प्रशिक्षण डेटा का उपयोग करके बनाए गए एप्लिकेशन नैतिक और कानूनी रूप से गलत हैं जब कॉपीराइट पावती की बात आती है।
मेरी भविष्यवाणी, बहुत महंगे मुकदमे और निगमों की जीत जब तक कि Microsoft जैसा कोई खिलाड़ी कदम नहीं उठाता और अपने कार्यों को पूरी तरह से संरेखित करता है और खुले स्रोत समुदाय के समर्थन में अपने बयानों के साथ हो सकता है।
फीचर इमेज क्रेडिट। हैकरनून एआई इमेज जेनरेटर प्रॉम्प्ट "अमेरिकी सर्वोच्च न्यायालय में, एक पिक्सेलयुक्त रोबोट खुद का प्रतिनिधित्व करता है, अपने साथियों की जूरी के सामने आपराधिक आरोप के खिलाफ बहस और बचाव करता है।"