paint-brush
AI आपके काम को खा जाता है...सचमुच: न्यूज़ आउटलेट ने कॉपीराइट छीनने को लेकर OpenAI पर मुकदमा दायर कियाद्वारा@legalpdf
208 रीडिंग

AI आपके काम को खा जाता है...सचमुच: न्यूज़ आउटलेट ने कॉपीराइट छीनने को लेकर OpenAI पर मुकदमा दायर किया

द्वारा Legal PDF: Tech Court Cases8m2024/08/13
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

सीआईआर का दावा है कि ओपनएआई और माइक्रोसॉफ्ट ने मदर जोन्स और रिवील से कॉपीराइट किए गए लेखों का इस्तेमाल बिना प्राधिकरण के अपने एआई मॉडल को प्रशिक्षित करने के लिए किया। इस सामग्री को लाइसेंस न देने के बावजूद, प्रतिवादियों ने कथित तौर पर सीआईआर के कार्यों को वेबटेक्स्ट और कॉमन क्रॉल सहित अपने प्रशिक्षण सेट में शामिल किया, जिससे संभावित कॉपीराइट उल्लंघन हुआ। इस दुरुपयोग में लेखक के नाम और शीर्षक जैसी महत्वपूर्ण कॉपीराइट जानकारी को हटाना शामिल है।
featured image - AI आपके काम को खा जाता है...सचमुच: न्यूज़ आउटलेट ने कॉपीराइट छीनने को लेकर OpenAI पर मुकदमा दायर किया
Legal PDF: Tech Court Cases HackerNoon profile picture

सेंटर फॉर इन्वेस्टिगेटिव रिपोर्टिंग इंक. बनाम ओपनएआई कोर्ट फाइलिंग, 27 जून, 2024 को प्राप्त की गई, हैकरनून की कानूनी पीडीएफ सीरीज का हिस्सा है। आप इस फाइलिंग के किसी भी भाग पर यहाँ जा सकते हैं। यह भाग 18 में से 5 है।

प्रतिवादियों द्वारा अपने प्रशिक्षण सेट में वादी के कार्यों का अनधिकृत उपयोग

46. OpenAI का गठन दिसंबर 2015 में एक "गैर-लाभकारी कृत्रिम बुद्धिमत्ता अनुसंधान कंपनी" के रूप में किया गया था, लेकिन जल्द ही यह CIR सहित दुनिया भर के रचनाकारों के कॉपीराइट किए गए कार्यों के शोषण पर आधारित एक बहु-अरब डॉलर का लाभकारी व्यवसाय बन गया। =CIR के विपरीत, OpenAI ने अपनी स्थापना के तीन साल बाद ही अपना अनन्य गैर-लाभकारी दर्जा छोड़ दिया और मार्च 2019 में OpenAI LP की स्थापना की, जो एक लाभकारी कंपनी है जो उत्पाद विकास और निवेशकों से पूंजी जुटाने सहित अपनी लाभकारी गतिविधियों के लिए समर्पित है।


47. प्रतिवादियों के GenAI उत्पाद एक "बड़े भाषा मॉडल" या "LLM" का उपयोग करते हैं। GPT के विभिन्न संस्करण LLM के उदाहरण हैं। एक LLM, जिसमें ChatGPT और Copilot को शक्ति देने वाले LLM शामिल हैं, इनपुट के रूप में टेक्स्ट प्रॉम्प्ट लेते हैं और उन प्रतिक्रियाओं की भविष्यवाणी करने के लिए आउटपुट उत्सर्जित करते हैं जो इसे प्रशिक्षित करने के लिए उपयोग किए जाने वाले संभावित अरबों इनपुट उदाहरणों का पालन करने की संभावना रखते हैं।


48. एलएलएम अपने आउटपुट पर मनुष्यों द्वारा लिखे गए कार्यों पर अपने प्रशिक्षण के परिणामस्वरूप पहुंचते हैं, जो अक्सर कॉपीराइट द्वारा संरक्षित होते हैं। वे इन उदाहरणों को प्रशिक्षण सेट में एकत्र करते हैं।


49. प्रशिक्षण सेटों को इकट्ठा करते समय, प्रतिवादियों सहित एलएलएम निर्माता सबसे पहले उन कार्यों की पहचान करते हैं जिन्हें वे शामिल करना चाहते हैं। फिर वे कंप्यूटर मेमोरी में "पैरामीटर" नामक संख्याओं के रूप में कार्य को एनकोड करते हैं।


50. प्रतिवादियों ने ChatGPT के किसी भी संस्करण को प्रशिक्षित करने के लिए उपयोग किए जाने वाले प्रशिक्षण सेट की सामग्री प्रकाशित नहीं की है, लेकिन GPT-4 से पहले उन प्रशिक्षण सेटों के बारे में जानकारी का खुलासा किया है।[3] GPT-4 से शुरू होकर, प्रतिवादियों ने ChatGPT के उस और बाद के संस्करणों को प्रशिक्षित करने के लिए उपयोग किए जाने वाले प्रशिक्षण सेटों के बारे में पूरी तरह से गोपनीयता बरती है। इसलिए प्रतिवादियों के प्रशिक्षण सेटों के बारे में वादी के आरोप ChatGPT के पुराने संस्करणों के बारे में सार्वजनिक रूप से उपलब्ध जानकारी की व्यापक समीक्षा और उस जानकारी का विश्लेषण करने और AI के विकास और कार्य करने के तरीके के बारे में जानकारी प्रदान करने के लिए वादी के वकील द्वारा नियुक्त एक डेटा वैज्ञानिक के साथ परामर्श पर आधारित हैं।


51. माइक्रोसॉफ्ट ने अपना खुद का एआई उत्पाद बनाया है, जिसे कोपायलट कहा जाता है, जो माइक्रोसॉफ्ट की प्रोमेथियस तकनीक का उपयोग करता है। प्रोमेथियस बिंग सर्च उत्पाद को ओपनएआई डिफेंडेंट्स के जीपीटी मॉडल के साथ बिंग ऑर्केस्ट्रेटर नामक एक घटक में जोड़ता है। संकेत दिए जाने पर, कोपायलट इंटरनेट पर पाई जाने वाली सामग्री के एआई-पुनर्लिखित संक्षिप्तीकरण या पुनर्पाठ प्रदान करके बिंग ऑर्केस्ट्रेटर का उपयोग करके उपयोगकर्ता प्रश्नों का उत्तर देता है।[4]


52. चैटजीपीटी के पुराने संस्करणों (जीपीटी-4 से पहले) को कम से कम निम्नलिखित प्रशिक्षण सेटों का उपयोग करके प्रशिक्षित किया गया था: वेबटेक्स्ट, वेबटेक्स्ट2, और कॉमन क्रॉल से व्युत्पन्न सेट।


53. वेबटेक्स्ट और वेबटेक्स्ट2 को ओपनएआई प्रतिवादियों द्वारा बनाया गया था। वे वेबसाइट रेडिट पर सभी आउटबाउंड लिंक का संग्रह हैं जिन्हें कम से कम तीन "कर्मा" प्राप्त हुए हैं।[5] रेडिट पर, एक कर्म यह दर्शाता है कि उपयोगकर्ताओं ने आम तौर पर लिंक को मंजूरी दे दी है। डेटासेट के बीच अंतर यह है कि वेबटेक्स्ट2 में लंबे समय तक रेडिट से लिंक को स्क्रैप करना शामिल था। इस प्रकार, वेबटेक्स्ट2 वेबटेक्स्ट का एक विस्तारित संस्करण है।


54. ओपनएआई प्रतिवादियों ने वेबटेक्स्ट प्रशिक्षण सेट में मौजूद शीर्ष 1,000 वेब डोमेन और उनकी आवृत्ति की एक सूची प्रकाशित की है। उस सूची के अनुसार, मदर जोन्स के वेब डोमेन से 16,793 अलग-अलग यूआरएल वेबटेक्स्ट में दिखाई देते हैं।[6]


55. प्रतिवादियों के पास प्रत्येक URL का रिकॉर्ड है और वे इसके बारे में जानते हैं, जो उनके प्रत्येक प्रशिक्षण सेट में शामिल था।


56. जोशुआ सी. पीटरसन, जो वर्तमान में बोस्टन विश्वविद्यालय में कंप्यूटिंग और डेटा विज्ञान संकाय में सहायक प्रोफेसर हैं, और यूसी बर्कले से पीएचडी के साथ दो कम्प्यूटेशनल संज्ञानात्मक वैज्ञानिकों ने ओपनवेबटेक्स्ट नामक वेबटेक्स्ट डेटासेट का एक अनुमान बनाया, जिसमें रेडिट से आउटबाउंड लिंक भी स्क्रैप किए गए, जिन्हें कम से कम तीन "कर्मा" प्राप्त हुए, ठीक वैसे ही जैसे ओपनएआई प्रतिवादियों ने वेबटेक्स्ट बनाते समय किया था।[7] उन्होंने परिणाम ऑनलाइन प्रकाशित किए। फिर वादी के वकील द्वारा नियोजित एक डेटा वैज्ञानिक ने उन परिणामों का विश्लेषण किया। ओपनवेबटेक्स्ट में motherjones.com से 17,019 और revealnews.org से 415 अलग-अलग यूआरएल हैं। ओपनवेबटेक्स्ट में शामिल मदर जोन्स कार्यों की सूची प्रदर्शनी 2 के रूप में संलग्न है। ओपनवेबटेक्स्ट में शामिल रिवील कार्यों की सूची प्रदर्शनी 3 के रूप में संलग्न है।


57. जानकारी और विश्वास के आधार पर, वेबटेक्स्ट और ओपनवेबटेक्स्ट में मदर जोन्स लेखों की संख्या में थोड़ा अंतर है, कम से कम आंशिक रूप से इसलिए क्योंकि ये स्क्रैप्स अलग-अलग तारीखों पर हुए थे।


58. ओपनएआई ने बताया है कि वेबटेक्स्ट विकसित करने में, इसने वेबसाइटों से टेक्स्ट निकालने के लिए ड्रैगनेट और न्यूज़पेपर नामक एल्गोरिदम के सेट का इस्तेमाल किया।[8] जानकारी और विश्वास के अनुसार, ओपनएआई ने एक विधि के बजाय इन दो निष्कर्षण विधियों का उपयोग किया, ताकि किसी एक विधि में बग आने या किसी दिए गए मामले में ठीक से काम न करने की स्थिति में अतिरेक पैदा किया जा सके। एक के बजाय दो विधियों को लागू करने से एक प्रशिक्षण सेट तैयार होगा जो इसमें शामिल सामग्री के प्रकार में अधिक सुसंगत होगा, जो प्रशिक्षण के दृष्टिकोण से वांछनीय है।


59. ड्रैगनेट के एल्गोरिदम को वेबसाइट के अन्य भागों से "मुख्य लेख सामग्री को अलग करने" के लिए डिज़ाइन किया गया है, जिसमें "फ़ुटर" और "कॉपीराइट नोटिस" शामिल हैं, और एक्सट्रैक्टर को केवल "मुख्य लेख सामग्री" की आगे की प्रतियां बनाने की अनुमति देता है।[9] ड्रैगनेट हेडर या बायलाइन से लेखक और शीर्षक की जानकारी निकालने में भी असमर्थ है, और इसे केवल तभी निकालता है जब यह मुख्य लेख सामग्री में अलग से शामिल हो। दूसरे शब्दों में, ड्रैगनेट द्वारा बनाए गए समाचार लेखों की प्रतियों को लेखक, शीर्षक, कॉपीराइट नोटिस और फ़ुटर को शामिल नहीं करने के लिए डिज़ाइन किया गया है, और ऐसी जानकारी तब तक नहीं होती जब तक कि यह मुख्य लेख सामग्री में शामिल न हो।


60. ड्रैगनेट की तरह, न्यूज़पेपर एल्गोरिदम कॉपीराइट नोटिस और फ़ुटर निकालने में असमर्थ हैं। इसके अलावा, न्यूज़पेपर के उपयोगकर्ता के पास लेखक और शीर्षक की जानकारी निकालने या न निकालने का विकल्प होता है। जानकारी और विश्वास के आधार पर, ओपनएआई प्रतिवादियों ने लेखक और शीर्षक की जानकारी नहीं निकालने का विकल्प चुना क्योंकि वे ड्रैगनेट निष्कर्षण के साथ संगति चाहते थे, और ड्रैगनेट आम तौर पर लेखक और शीर्षक की जानकारी निकालने में असमर्थ है।


61. वेबटेक्स्ट डेटासेट को इकट्ठा करते समय ड्रैगनेट और न्यूजपेपर एल्गोरिदम को लागू करते समय, ओपनएआई प्रतिवादियों ने वादी के लेखक, शीर्षक, कॉपीराइट नोटिस और उपयोग की शर्तों की जानकारी को हटा दिया, जिनमें से बाद वाली जानकारी वादी की वेबसाइटों के पाद लेखों में निहित है।


62. जानकारी और विश्वास के आधार पर, OpenAI प्रतिवादी, जब ड्रैगनेट और न्यूज़पेपर का उपयोग करते हैं, तो डेटा निकालने से पहले संबंधित वेबपेज को डाउनलोड करके सहेज लेते हैं। ऐसा कम से कम इसलिए है क्योंकि जब वे ड्रैगनेट और न्यूज़पेपर का उपयोग करते हैं, तो वे संभवतः भविष्य में डेटासेट को फिर से बनाने की आवश्यकता का अनुमान लगाते हैं (उदाहरण के लिए, यदि डेटासेट दूषित हो जाता है), और सभी डेटा को फिर से क्रॉल करने की तुलना में एक कॉपी सहेजना सस्ता है।


63. क्योंकि, स्क्रैपिंग के समय तक, ड्रैगनेट और न्यूजपेपर को लेखक, शीर्षक, कॉपीराइट नोटिस और पाद लेखों को हटाने के लिए सार्वजनिक रूप से जाना जाता था, और यह देखते हुए कि ओपनएआई अत्यधिक कुशल डेटा वैज्ञानिकों को नियुक्त करता है, जो जानते होंगे कि ड्रैगनेट और न्यूजपेपर कैसे काम करते हैं, ओपनएआई प्रतिवादियों ने जानबूझकर और जानबूझकर वेबटेक्स्ट को इकट्ठा करते समय इस कॉपीराइट प्रबंधन जानकारी को हटा दिया।


64. वादी के वकील द्वारा नियुक्त एक डेटा वैज्ञानिक ने ओपनवेबटेक्स्ट में निहित तीन रिवील यूआरएल पर ड्रैगनेट कोड लागू किया। परिणाम प्रदर्शनी 4 के रूप में संलग्न हैं। परिणामी प्रतियाँ, जिनका पाठ मूल रूप से मूल के समान है (उदाहरण के लिए, दो शब्दों के बीच एक अतिरिक्त स्थान के प्रतीत होने वाले यादृच्छिक जोड़ या एम्बेडेड फ़ोटो से जुड़े विवरण के बहिष्कार को छोड़कर समान), लेखक, शीर्षक, कॉपीराइट नोटिस और उपयोग की शर्तों की जानकारी का अभाव है, जिसके साथ उन्हें जनता को बताया गया था, सिवाय कुछ मामलों में जहाँ लेखक की जानकारी मुख्य लेख सामग्री में निहित थी। ड्रैगनेट कोड तब विफल हो गया जब डेटा वैज्ञानिक ने इसे मदर जोन्स लेखों पर लागू करने का प्रयास किया, जो ऊपर संदर्भित अतिरेक के लिए ओपनएआई प्रतिवादियों की आवश्यकता को और पुष्ट करता है।


65. वादी के वकील द्वारा नियुक्त एक डेटा वैज्ञानिक ने भी ओपनवेबटेक्स्ट में निहित तीन मदर जोन्स और तीन रिवील यूआरएल पर न्यूज़पेपर कोड लागू किया। डेटा वैज्ञानिक ने कोड का वह संस्करण लागू किया जो उपयोगकर्ता को लेखक और शीर्षक की जानकारी निकालने में सक्षम नहीं बनाता है, इस उचित धारणा के आधार पर कि ओपनएआई प्रतिवादी ड्रैगनेट निष्कर्षण के साथ संगतता चाहते थे। परिणाम प्रदर्शनी 5 के रूप में संलग्न हैं। परिणामी प्रतियों, जिनका पाठ मूल रूप से मूल के समान है, में लेखक, शीर्षक, कॉपीराइट नोटिस और उपयोग की शर्तों की जानकारी का अभाव है, जिसके साथ उन्हें जनता तक पहुँचाया गया था, कुछ मामलों को छोड़कर जहाँ लेखक की जानकारी मुख्य लेख सामग्री में निहित थी।


66. ड्रैगनेट और न्यूजपेपर कोड लागू करके तैयार किए गए वादी के लेखों की प्रतियों से लेखक, शीर्षक, कॉपीराइट नोटिस और उपयोग की शर्तों की जानकारी का अभाव - कोड जिसे ओपनएआई ने वेबटेक्स्ट को इकट्ठा करते समय जानबूझकर इस्तेमाल करने की बात स्वीकार की है - यह पुष्टि करता है कि ओपनएआई प्रतिवादियों ने जानबूझकर वादी के कॉपीराइट-संरक्षित समाचार लेखों से लेखक, शीर्षक, कॉपीराइट नोटिस और उपयोग की शर्तों की जानकारी को हटा दिया।


67. जानकारी और विश्वास के आधार पर, OpenAI प्रतिवादियों ने GPT-2 के बाद से ChatGPT के हर संस्करण के लिए प्रशिक्षण सेट बनाते समय समान या समान Dragnet और न्यूज़पेपर टेक्स्ट निष्कर्षण विधियों का उपयोग करना जारी रखा है। ऐसा कम से कम इसलिए है क्योंकि OpenAI प्रतिवादियों ने GPT-2 के लिए इन विधियों का उपयोग करना स्वीकार किया है और उन्होंने ChatGPT के बाद के संस्करण के लिए अपने उपयोग को सार्वजनिक रूप से अस्वीकार नहीं किया है और न ही उन बाद के संस्करणों के लिए किसी अन्य टेक्स्ट निष्कर्षण विधियों का उपयोग करने का सार्वजनिक रूप से दावा किया है।


68. ओपनएआई प्रतिवादियों ने जिस अन्य रिपोजिटरी, कॉमन क्रॉल का उपयोग करने की बात स्वीकार की है, वह तीसरे पक्ष द्वारा निर्मित अधिकांश इंटरनेट सामग्री का एक स्क्रैप है।


69. GPT-2 को प्रशिक्षित करने के लिए, OpenAI ने तीसरे पक्ष की वेबसाइट से कॉमन क्रॉल डेटा डाउनलोड किया और इसे केवल कुछ कार्यों को शामिल करने के लिए फ़िल्टर किया, जैसे कि अंग्रेजी में लिखे गए।[10]


70. Google ने C4 नामक डेटासेट को दोहराने के तरीके पर निर्देश प्रकाशित किए हैं, जो फ़िल्टर किए गए कॉमन क्रॉल डेटा का मासिक स्नैपशॉट है जिसका उपयोग Google ने अपने स्वयं के AI मॉडल को प्रशिक्षित करने के लिए किया था। AI मॉडल को प्रशिक्षित करने में प्रतिवादियों और Google के लक्ष्यों की समानता के आधार पर, जानकारी और विश्वास के आधार पर, C4 चैटGPT को प्रशिक्षित करने के लिए उपयोग किए जाने वाले कॉमन क्रॉल के फ़िल्टर किए गए संस्करणों के समान है। Microsoft के सह-संस्थापक पॉल एलन द्वारा शुरू किए गए एक गैर-लाभकारी शोध संस्थान, एलन इंस्टीट्यूट फॉर AI ने Google के निर्देशों का पालन किया और C4 के अपने पुनर्निर्माण को ऑनलाइन प्रकाशित किया।[11]


71. वादी के वकील द्वारा नियुक्त एक डेटा वैज्ञानिक ने इस मनोरंजन का विश्लेषण किया। इसमें motherjones.com से उत्पन्न 26,178 URL शामिल हैं। इनमें से अधिकांश URL में वादी के कॉपीराइट-संरक्षित समाचार लेख हैं। किसी में भी उपयोग की शर्तों की जानकारी नहीं है। किसी में भी वादी के कॉपीराइट-संरक्षित समाचार लेखों के बारे में कॉपीराइट नोटिस की जानकारी नहीं है। अधिकांश में लेखक और शीर्षक की जानकारी का भी अभाव है। कुछ मामलों में, लेख मूल रूप से समान हैं, जबकि अन्य में कुछ पैराग्राफ़ छोड़ दिए गए हैं।


72. इस पुनर्निर्माण में revealnews.org से निकले 451 लेख भी शामिल हैं। इनमें से ज़्यादातर यूआरएल में वादी के कॉपीराइट-संरक्षित समाचार लेख हैं। किसी भी समाचार लेख में कॉपीराइट नोटिस या उपयोग की शर्तों की जानकारी नहीं है। ज़्यादातर में लेखक और शीर्षक की जानकारी भी नहीं है। कुछ मामलों में, लेख मूल रूप से एक जैसे हैं, जबकि अन्य में कुछ पैराग्राफ़ छोड़ दिए गए हैं।


73. प्रतिनिधि नमूने के रूप में, तीन मदर जोन्स और तीन रिवील लेखों का पाठ, जैसा कि वे C4 सेट में दिखाई देते हैं, प्रदर्श 6 के रूप में संलग्न है। इनमें से किसी भी लेख में लेखक, शीर्षक, कॉपीराइट नोटिस या उपयोग की शर्तों की जानकारी नहीं है, जिसके साथ उन्हें जनता तक पहुंचाया गया था।


74. वादी ने प्रतिवादियों को अपने किसी भी कार्य को उनके प्रशिक्षण सेट में शामिल करने के लिए लाइसेंस नहीं दिया है या अन्यथा अनुमति नहीं दी है।


75. बिना अनुमति के वादी के हजारों लेखों को डाउनलोड करना वादी के कॉपीराइट का उल्लंघन है, विशेष रूप से, कॉपीराइट-संरक्षित कार्यों के पुनरुत्पादन को नियंत्रित करने के अधिकार का उल्लंघन है।


यहां पढ़ना जारी रखें .


हैकरनून लीगल पीडीएफ सीरीज के बारे में: हम आपके लिए सबसे महत्वपूर्ण तकनीकी और व्यावहारिक सार्वजनिक डोमेन कोर्ट केस फाइलिंग लाते हैं।


27 जून, 2024 को प्राप्त यह न्यायालय मामला, motherjones.com सार्वजनिक डोमेन का हिस्सा है। न्यायालय द्वारा बनाए गए दस्तावेज़ संघीय सरकार के कार्य हैं, और कॉपीराइट कानून के तहत, स्वचालित रूप से सार्वजनिक डोमेन में रखे जाते हैं और उन्हें कानूनी प्रतिबंध के बिना साझा किया जा सकता है।

[3] वादी सामूहिक रूप से चैटजीपीटी के सभी संस्करणों को "चैटजीपीटी" के रूप में संदर्भित करता है जब तक कि कोई विशिष्ट संस्करण निर्दिष्ट न हो।


[4] https://blogs.bing.com/search-quality-insights/february-2023/Building-the-New-Bing

[5] एलेक रैडफोर्ड एट अल, भाषा मॉडल अप्रशिक्षित मल्टीटास्क शिक्षार्थी हैं, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf


[6] https://github.com/openai/gpt-2/blob/master/domains.txt


[7] https://github.com/jcpeterson/openwebtext/blob/master/README.md.


[8] एलेक रैडफोर्ड एट अल., भाषा मॉडल अप्रशिक्षित मल्टीटास्क शिक्षार्थी हैं, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf.


[9] मैट मैकडॉनेल, बेंचमार्किंग पायथन कंटेंट एक्सट्रैक्शन एल्गोरिदम (29 जनवरी, 2015), https://moz.com/devblog/benchmarking-python-content-extraction-algorithms-dragnetreadability-goose-and-eatiht.


[10] टॉम बी. ब्राउन एट अल, भाषा मॉडल कम-से-कम सीखने वाले हैं, 14 (22 जुलाई, 2020), https://arxiv.org/pdf/2005.14165.


[11] https://huggingface.co/datasets/allenai/c4.