सेंटर फॉर इन्वेस्टिगेटिव रिपोर्टिंग इंक. बनाम ओपनएआई कोर्ट फाइलिंग, 27 जून, 2024 को प्राप्त की गई, हैकरनून की कानूनी पीडीएफ सीरीज का हिस्सा है। आप इस फाइलिंग के किसी भी भाग पर यहाँ जा सकते हैं। यह भाग 18 में से 5 है।
46. OpenAI का गठन दिसंबर 2015 में एक "गैर-लाभकारी कृत्रिम बुद्धिमत्ता अनुसंधान कंपनी" के रूप में किया गया था, लेकिन जल्द ही यह CIR सहित दुनिया भर के रचनाकारों के कॉपीराइट किए गए कार्यों के शोषण पर आधारित एक बहु-अरब डॉलर का लाभकारी व्यवसाय बन गया। =CIR के विपरीत, OpenAI ने अपनी स्थापना के तीन साल बाद ही अपना अनन्य गैर-लाभकारी दर्जा छोड़ दिया और मार्च 2019 में OpenAI LP की स्थापना की, जो एक लाभकारी कंपनी है जो उत्पाद विकास और निवेशकों से पूंजी जुटाने सहित अपनी लाभकारी गतिविधियों के लिए समर्पित है।
47. प्रतिवादियों के GenAI उत्पाद एक "बड़े भाषा मॉडल" या "LLM" का उपयोग करते हैं। GPT के विभिन्न संस्करण LLM के उदाहरण हैं। एक LLM, जिसमें ChatGPT और Copilot को शक्ति देने वाले LLM शामिल हैं, इनपुट के रूप में टेक्स्ट प्रॉम्प्ट लेते हैं और उन प्रतिक्रियाओं की भविष्यवाणी करने के लिए आउटपुट उत्सर्जित करते हैं जो इसे प्रशिक्षित करने के लिए उपयोग किए जाने वाले संभावित अरबों इनपुट उदाहरणों का पालन करने की संभावना रखते हैं।
48. एलएलएम अपने आउटपुट पर मनुष्यों द्वारा लिखे गए कार्यों पर अपने प्रशिक्षण के परिणामस्वरूप पहुंचते हैं, जो अक्सर कॉपीराइट द्वारा संरक्षित होते हैं। वे इन उदाहरणों को प्रशिक्षण सेट में एकत्र करते हैं।
49. प्रशिक्षण सेटों को इकट्ठा करते समय, प्रतिवादियों सहित एलएलएम निर्माता सबसे पहले उन कार्यों की पहचान करते हैं जिन्हें वे शामिल करना चाहते हैं। फिर वे कंप्यूटर मेमोरी में "पैरामीटर" नामक संख्याओं के रूप में कार्य को एनकोड करते हैं।
50. प्रतिवादियों ने ChatGPT के किसी भी संस्करण को प्रशिक्षित करने के लिए उपयोग किए जाने वाले प्रशिक्षण सेट की सामग्री प्रकाशित नहीं की है, लेकिन GPT-4 से पहले उन प्रशिक्षण सेटों के बारे में जानकारी का खुलासा किया है।[3] GPT-4 से शुरू होकर, प्रतिवादियों ने ChatGPT के उस और बाद के संस्करणों को प्रशिक्षित करने के लिए उपयोग किए जाने वाले प्रशिक्षण सेटों के बारे में पूरी तरह से गोपनीयता बरती है। इसलिए प्रतिवादियों के प्रशिक्षण सेटों के बारे में वादी के आरोप ChatGPT के पुराने संस्करणों के बारे में सार्वजनिक रूप से उपलब्ध जानकारी की व्यापक समीक्षा और उस जानकारी का विश्लेषण करने और AI के विकास और कार्य करने के तरीके के बारे में जानकारी प्रदान करने के लिए वादी के वकील द्वारा नियुक्त एक डेटा वैज्ञानिक के साथ परामर्श पर आधारित हैं।
51. माइक्रोसॉफ्ट ने अपना खुद का एआई उत्पाद बनाया है, जिसे कोपायलट कहा जाता है, जो माइक्रोसॉफ्ट की प्रोमेथियस तकनीक का उपयोग करता है। प्रोमेथियस बिंग सर्च उत्पाद को ओपनएआई डिफेंडेंट्स के जीपीटी मॉडल के साथ बिंग ऑर्केस्ट्रेटर नामक एक घटक में जोड़ता है। संकेत दिए जाने पर, कोपायलट इंटरनेट पर पाई जाने वाली सामग्री के एआई-पुनर्लिखित संक्षिप्तीकरण या पुनर्पाठ प्रदान करके बिंग ऑर्केस्ट्रेटर का उपयोग करके उपयोगकर्ता प्रश्नों का उत्तर देता है।[4]
52. चैटजीपीटी के पुराने संस्करणों (जीपीटी-4 से पहले) को कम से कम निम्नलिखित प्रशिक्षण सेटों का उपयोग करके प्रशिक्षित किया गया था: वेबटेक्स्ट, वेबटेक्स्ट2, और कॉमन क्रॉल से व्युत्पन्न सेट।
53. वेबटेक्स्ट और वेबटेक्स्ट2 को ओपनएआई प्रतिवादियों द्वारा बनाया गया था। वे वेबसाइट रेडिट पर सभी आउटबाउंड लिंक का संग्रह हैं जिन्हें कम से कम तीन "कर्मा" प्राप्त हुए हैं।[5] रेडिट पर, एक कर्म यह दर्शाता है कि उपयोगकर्ताओं ने आम तौर पर लिंक को मंजूरी दे दी है। डेटासेट के बीच अंतर यह है कि वेबटेक्स्ट2 में लंबे समय तक रेडिट से लिंक को स्क्रैप करना शामिल था। इस प्रकार, वेबटेक्स्ट2 वेबटेक्स्ट का एक विस्तारित संस्करण है।
54. ओपनएआई प्रतिवादियों ने वेबटेक्स्ट प्रशिक्षण सेट में मौजूद शीर्ष 1,000 वेब डोमेन और उनकी आवृत्ति की एक सूची प्रकाशित की है। उस सूची के अनुसार, मदर जोन्स के वेब डोमेन से 16,793 अलग-अलग यूआरएल वेबटेक्स्ट में दिखाई देते हैं।[6]
55. प्रतिवादियों के पास प्रत्येक URL का रिकॉर्ड है और वे इसके बारे में जानते हैं, जो उनके प्रत्येक प्रशिक्षण सेट में शामिल था।
56. जोशुआ सी. पीटरसन, जो वर्तमान में बोस्टन विश्वविद्यालय में कंप्यूटिंग और डेटा विज्ञान संकाय में सहायक प्रोफेसर हैं, और यूसी बर्कले से पीएचडी के साथ दो कम्प्यूटेशनल संज्ञानात्मक वैज्ञानिकों ने ओपनवेबटेक्स्ट नामक वेबटेक्स्ट डेटासेट का एक अनुमान बनाया, जिसमें रेडिट से आउटबाउंड लिंक भी स्क्रैप किए गए, जिन्हें कम से कम तीन "कर्मा" प्राप्त हुए, ठीक वैसे ही जैसे ओपनएआई प्रतिवादियों ने वेबटेक्स्ट बनाते समय किया था।[7] उन्होंने परिणाम ऑनलाइन प्रकाशित किए। फिर वादी के वकील द्वारा नियोजित एक डेटा वैज्ञानिक ने उन परिणामों का विश्लेषण किया। ओपनवेबटेक्स्ट में motherjones.com से 17,019 और revealnews.org से 415 अलग-अलग यूआरएल हैं। ओपनवेबटेक्स्ट में शामिल मदर जोन्स कार्यों की सूची प्रदर्शनी 2 के रूप में संलग्न है। ओपनवेबटेक्स्ट में शामिल रिवील कार्यों की सूची प्रदर्शनी 3 के रूप में संलग्न है।
57. जानकारी और विश्वास के आधार पर, वेबटेक्स्ट और ओपनवेबटेक्स्ट में मदर जोन्स लेखों की संख्या में थोड़ा अंतर है, कम से कम आंशिक रूप से इसलिए क्योंकि ये स्क्रैप्स अलग-अलग तारीखों पर हुए थे।
58. ओपनएआई ने बताया है कि वेबटेक्स्ट विकसित करने में, इसने वेबसाइटों से टेक्स्ट निकालने के लिए ड्रैगनेट और न्यूज़पेपर नामक एल्गोरिदम के सेट का इस्तेमाल किया।[8] जानकारी और विश्वास के अनुसार, ओपनएआई ने एक विधि के बजाय इन दो निष्कर्षण विधियों का उपयोग किया, ताकि किसी एक विधि में बग आने या किसी दिए गए मामले में ठीक से काम न करने की स्थिति में अतिरेक पैदा किया जा सके। एक के बजाय दो विधियों को लागू करने से एक प्रशिक्षण सेट तैयार होगा जो इसमें शामिल सामग्री के प्रकार में अधिक सुसंगत होगा, जो प्रशिक्षण के दृष्टिकोण से वांछनीय है।
59. ड्रैगनेट के एल्गोरिदम को वेबसाइट के अन्य भागों से "मुख्य लेख सामग्री को अलग करने" के लिए डिज़ाइन किया गया है, जिसमें "फ़ुटर" और "कॉपीराइट नोटिस" शामिल हैं, और एक्सट्रैक्टर को केवल "मुख्य लेख सामग्री" की आगे की प्रतियां बनाने की अनुमति देता है।[9] ड्रैगनेट हेडर या बायलाइन से लेखक और शीर्षक की जानकारी निकालने में भी असमर्थ है, और इसे केवल तभी निकालता है जब यह मुख्य लेख सामग्री में अलग से शामिल हो। दूसरे शब्दों में, ड्रैगनेट द्वारा बनाए गए समाचार लेखों की प्रतियों को लेखक, शीर्षक, कॉपीराइट नोटिस और फ़ुटर को शामिल नहीं करने के लिए डिज़ाइन किया गया है, और ऐसी जानकारी तब तक नहीं होती जब तक कि यह मुख्य लेख सामग्री में शामिल न हो।
60. ड्रैगनेट की तरह, न्यूज़पेपर एल्गोरिदम कॉपीराइट नोटिस और फ़ुटर निकालने में असमर्थ हैं। इसके अलावा, न्यूज़पेपर के उपयोगकर्ता के पास लेखक और शीर्षक की जानकारी निकालने या न निकालने का विकल्प होता है। जानकारी और विश्वास के आधार पर, ओपनएआई प्रतिवादियों ने लेखक और शीर्षक की जानकारी नहीं निकालने का विकल्प चुना क्योंकि वे ड्रैगनेट निष्कर्षण के साथ संगति चाहते थे, और ड्रैगनेट आम तौर पर लेखक और शीर्षक की जानकारी निकालने में असमर्थ है।
61. वेबटेक्स्ट डेटासेट को इकट्ठा करते समय ड्रैगनेट और न्यूजपेपर एल्गोरिदम को लागू करते समय, ओपनएआई प्रतिवादियों ने वादी के लेखक, शीर्षक, कॉपीराइट नोटिस और उपयोग की शर्तों की जानकारी को हटा दिया, जिनमें से बाद वाली जानकारी वादी की वेबसाइटों के पाद लेखों में निहित है।
62. जानकारी और विश्वास के आधार पर, OpenAI प्रतिवादी, जब ड्रैगनेट और न्यूज़पेपर का उपयोग करते हैं, तो डेटा निकालने से पहले संबंधित वेबपेज को डाउनलोड करके सहेज लेते हैं। ऐसा कम से कम इसलिए है क्योंकि जब वे ड्रैगनेट और न्यूज़पेपर का उपयोग करते हैं, तो वे संभवतः भविष्य में डेटासेट को फिर से बनाने की आवश्यकता का अनुमान लगाते हैं (उदाहरण के लिए, यदि डेटासेट दूषित हो जाता है), और सभी डेटा को फिर से क्रॉल करने की तुलना में एक कॉपी सहेजना सस्ता है।
63. क्योंकि, स्क्रैपिंग के समय तक, ड्रैगनेट और न्यूजपेपर को लेखक, शीर्षक, कॉपीराइट नोटिस और पाद लेखों को हटाने के लिए सार्वजनिक रूप से जाना जाता था, और यह देखते हुए कि ओपनएआई अत्यधिक कुशल डेटा वैज्ञानिकों को नियुक्त करता है, जो जानते होंगे कि ड्रैगनेट और न्यूजपेपर कैसे काम करते हैं, ओपनएआई प्रतिवादियों ने जानबूझकर और जानबूझकर वेबटेक्स्ट को इकट्ठा करते समय इस कॉपीराइट प्रबंधन जानकारी को हटा दिया।
64. वादी के वकील द्वारा नियुक्त एक डेटा वैज्ञानिक ने ओपनवेबटेक्स्ट में निहित तीन रिवील यूआरएल पर ड्रैगनेट कोड लागू किया। परिणाम प्रदर्शनी 4 के रूप में संलग्न हैं। परिणामी प्रतियाँ, जिनका पाठ मूल रूप से मूल के समान है (उदाहरण के लिए, दो शब्दों के बीच एक अतिरिक्त स्थान के प्रतीत होने वाले यादृच्छिक जोड़ या एम्बेडेड फ़ोटो से जुड़े विवरण के बहिष्कार को छोड़कर समान), लेखक, शीर्षक, कॉपीराइट नोटिस और उपयोग की शर्तों की जानकारी का अभाव है, जिसके साथ उन्हें जनता को बताया गया था, सिवाय कुछ मामलों में जहाँ लेखक की जानकारी मुख्य लेख सामग्री में निहित थी। ड्रैगनेट कोड तब विफल हो गया जब डेटा वैज्ञानिक ने इसे मदर जोन्स लेखों पर लागू करने का प्रयास किया, जो ऊपर संदर्भित अतिरेक के लिए ओपनएआई प्रतिवादियों की आवश्यकता को और पुष्ट करता है।
65. वादी के वकील द्वारा नियुक्त एक डेटा वैज्ञानिक ने भी ओपनवेबटेक्स्ट में निहित तीन मदर जोन्स और तीन रिवील यूआरएल पर न्यूज़पेपर कोड लागू किया। डेटा वैज्ञानिक ने कोड का वह संस्करण लागू किया जो उपयोगकर्ता को लेखक और शीर्षक की जानकारी निकालने में सक्षम नहीं बनाता है, इस उचित धारणा के आधार पर कि ओपनएआई प्रतिवादी ड्रैगनेट निष्कर्षण के साथ संगतता चाहते थे। परिणाम प्रदर्शनी 5 के रूप में संलग्न हैं। परिणामी प्रतियों, जिनका पाठ मूल रूप से मूल के समान है, में लेखक, शीर्षक, कॉपीराइट नोटिस और उपयोग की शर्तों की जानकारी का अभाव है, जिसके साथ उन्हें जनता तक पहुँचाया गया था, कुछ मामलों को छोड़कर जहाँ लेखक की जानकारी मुख्य लेख सामग्री में निहित थी।
66. ड्रैगनेट और न्यूजपेपर कोड लागू करके तैयार किए गए वादी के लेखों की प्रतियों से लेखक, शीर्षक, कॉपीराइट नोटिस और उपयोग की शर्तों की जानकारी का अभाव - कोड जिसे ओपनएआई ने वेबटेक्स्ट को इकट्ठा करते समय जानबूझकर इस्तेमाल करने की बात स्वीकार की है - यह पुष्टि करता है कि ओपनएआई प्रतिवादियों ने जानबूझकर वादी के कॉपीराइट-संरक्षित समाचार लेखों से लेखक, शीर्षक, कॉपीराइट नोटिस और उपयोग की शर्तों की जानकारी को हटा दिया।
67. जानकारी और विश्वास के आधार पर, OpenAI प्रतिवादियों ने GPT-2 के बाद से ChatGPT के हर संस्करण के लिए प्रशिक्षण सेट बनाते समय समान या समान Dragnet और न्यूज़पेपर टेक्स्ट निष्कर्षण विधियों का उपयोग करना जारी रखा है। ऐसा कम से कम इसलिए है क्योंकि OpenAI प्रतिवादियों ने GPT-2 के लिए इन विधियों का उपयोग करना स्वीकार किया है और उन्होंने ChatGPT के बाद के संस्करण के लिए अपने उपयोग को सार्वजनिक रूप से अस्वीकार नहीं किया है और न ही उन बाद के संस्करणों के लिए किसी अन्य टेक्स्ट निष्कर्षण विधियों का उपयोग करने का सार्वजनिक रूप से दावा किया है।
68. ओपनएआई प्रतिवादियों ने जिस अन्य रिपोजिटरी, कॉमन क्रॉल का उपयोग करने की बात स्वीकार की है, वह तीसरे पक्ष द्वारा निर्मित अधिकांश इंटरनेट सामग्री का एक स्क्रैप है।
69. GPT-2 को प्रशिक्षित करने के लिए, OpenAI ने तीसरे पक्ष की वेबसाइट से कॉमन क्रॉल डेटा डाउनलोड किया और इसे केवल कुछ कार्यों को शामिल करने के लिए फ़िल्टर किया, जैसे कि अंग्रेजी में लिखे गए।[10]
70. Google ने C4 नामक डेटासेट को दोहराने के तरीके पर निर्देश प्रकाशित किए हैं, जो फ़िल्टर किए गए कॉमन क्रॉल डेटा का मासिक स्नैपशॉट है जिसका उपयोग Google ने अपने स्वयं के AI मॉडल को प्रशिक्षित करने के लिए किया था। AI मॉडल को प्रशिक्षित करने में प्रतिवादियों और Google के लक्ष्यों की समानता के आधार पर, जानकारी और विश्वास के आधार पर, C4 चैटGPT को प्रशिक्षित करने के लिए उपयोग किए जाने वाले कॉमन क्रॉल के फ़िल्टर किए गए संस्करणों के समान है। Microsoft के सह-संस्थापक पॉल एलन द्वारा शुरू किए गए एक गैर-लाभकारी शोध संस्थान, एलन इंस्टीट्यूट फॉर AI ने Google के निर्देशों का पालन किया और C4 के अपने पुनर्निर्माण को ऑनलाइन प्रकाशित किया।[11]
71. वादी के वकील द्वारा नियुक्त एक डेटा वैज्ञानिक ने इस मनोरंजन का विश्लेषण किया। इसमें motherjones.com से उत्पन्न 26,178 URL शामिल हैं। इनमें से अधिकांश URL में वादी के कॉपीराइट-संरक्षित समाचार लेख हैं। किसी में भी उपयोग की शर्तों की जानकारी नहीं है। किसी में भी वादी के कॉपीराइट-संरक्षित समाचार लेखों के बारे में कॉपीराइट नोटिस की जानकारी नहीं है। अधिकांश में लेखक और शीर्षक की जानकारी का भी अभाव है। कुछ मामलों में, लेख मूल रूप से समान हैं, जबकि अन्य में कुछ पैराग्राफ़ छोड़ दिए गए हैं।
72. इस पुनर्निर्माण में revealnews.org से निकले 451 लेख भी शामिल हैं। इनमें से ज़्यादातर यूआरएल में वादी के कॉपीराइट-संरक्षित समाचार लेख हैं। किसी भी समाचार लेख में कॉपीराइट नोटिस या उपयोग की शर्तों की जानकारी नहीं है। ज़्यादातर में लेखक और शीर्षक की जानकारी भी नहीं है। कुछ मामलों में, लेख मूल रूप से एक जैसे हैं, जबकि अन्य में कुछ पैराग्राफ़ छोड़ दिए गए हैं।
73. प्रतिनिधि नमूने के रूप में, तीन मदर जोन्स और तीन रिवील लेखों का पाठ, जैसा कि वे C4 सेट में दिखाई देते हैं, प्रदर्श 6 के रूप में संलग्न है। इनमें से किसी भी लेख में लेखक, शीर्षक, कॉपीराइट नोटिस या उपयोग की शर्तों की जानकारी नहीं है, जिसके साथ उन्हें जनता तक पहुंचाया गया था।
74. वादी ने प्रतिवादियों को अपने किसी भी कार्य को उनके प्रशिक्षण सेट में शामिल करने के लिए लाइसेंस नहीं दिया है या अन्यथा अनुमति नहीं दी है।
75. बिना अनुमति के वादी के हजारों लेखों को डाउनलोड करना वादी के कॉपीराइट का उल्लंघन है, विशेष रूप से, कॉपीराइट-संरक्षित कार्यों के पुनरुत्पादन को नियंत्रित करने के अधिकार का उल्लंघन है।
यहां पढ़ना जारी रखें .
हैकरनून लीगल पीडीएफ सीरीज के बारे में: हम आपके लिए सबसे महत्वपूर्ण तकनीकी और व्यावहारिक सार्वजनिक डोमेन कोर्ट केस फाइलिंग लाते हैं।
27 जून, 2024 को प्राप्त यह न्यायालय मामला, motherjones.com सार्वजनिक डोमेन का हिस्सा है। न्यायालय द्वारा बनाए गए दस्तावेज़ संघीय सरकार के कार्य हैं, और कॉपीराइट कानून के तहत, स्वचालित रूप से सार्वजनिक डोमेन में रखे जाते हैं और उन्हें कानूनी प्रतिबंध के बिना साझा किया जा सकता है।
[3] वादी सामूहिक रूप से चैटजीपीटी के सभी संस्करणों को "चैटजीपीटी" के रूप में संदर्भित करता है जब तक कि कोई विशिष्ट संस्करण निर्दिष्ट न हो।
[4] https://blogs.bing.com/search-quality-insights/february-2023/Building-the-New-Bing
[5] एलेक रैडफोर्ड एट अल, भाषा मॉडल अप्रशिक्षित मल्टीटास्क शिक्षार्थी हैं, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf ।
[6] https://github.com/openai/gpt-2/blob/master/domains.txt ।
[7] https://github.com/jcpeterson/openwebtext/blob/master/README.md.
[8] एलेक रैडफोर्ड एट अल., भाषा मॉडल अप्रशिक्षित मल्टीटास्क शिक्षार्थी हैं, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf.
[9] मैट मैकडॉनेल, बेंचमार्किंग पायथन कंटेंट एक्सट्रैक्शन एल्गोरिदम (29 जनवरी, 2015), https://moz.com/devblog/benchmarking-python-content-extraction-algorithms-dragnetreadability-goose-and-eatiht.
[10] टॉम बी. ब्राउन एट अल, भाषा मॉडल कम-से-कम सीखने वाले हैं, 14 (22 जुलाई, 2020), https://arxiv.org/pdf/2005.14165.
[11] https://huggingface.co/datasets/allenai/c4.