न्यूयॉर्क टाइम्स कंपनी बनाम माइक्रोसॉफ्ट कॉर्पोरेशन कोर्ट फाइलिंग 27 दिसंबर, 2023 हैकरनून की कानूनी पीडीएफ श्रृंखला का हिस्सा है। आप यहां इस फाइलिंग के किसी भी भाग पर जा सकते हैं। यह 27 का भाग 10 है.
82. माइक्रोसॉफ्ट और ओपनएआई ने अपने एलएलएम के प्रशिक्षण और उन्हें शामिल करने वाले उत्पादों के संचालन के दौरान कई स्वतंत्र तरीकों से द टाइम्स की सामग्री की प्रतिकृतियां बनाई और वितरित कीं।
1. जीपीटी मॉडल प्रशिक्षण के दौरान टाइम्स कार्यों का अनधिकृत पुनरुत्पादन
83. प्रतिवादियों के जीपीटी मॉडल एलएलएम का एक परिवार हैं, जिनमें से पहला 2018 में पेश किया गया था, उसके बाद 2019 में जीपीटी-2, 2020 में जीपीटी-3, 2022 में जीपीटी-3.5 और 2023 में जीपीटी-4 पेश किया गया था। चैट” शैली एलएलएम, जीपीटी-3.5 और जीपीटी-4, दो चरणों में विकसित किए गए थे। सबसे पहले, एक ट्रांसफार्मर मॉडल को बहुत बड़ी मात्रा में डेटा पर पूर्व-प्रशिक्षित किया गया था। दूसरा, मॉडल को विशिष्ट कार्यों को हल करने में मदद करने के लिए मॉडल को बहुत छोटे पर्यवेक्षित डेटासेट पर "फाइन-ट्यून" किया गया था।
84. पूर्व-प्रशिक्षण चरण में प्रशिक्षण डेटासेट बनाने और जीपीटी मॉडल के माध्यम से उस सामग्री को संसाधित करने के लिए पाठ्य सामग्री को एकत्र करना और संग्रहीत करना शामिल था। हालाँकि OpenAI ने GPT-2 के प्रशिक्षित संस्करण जारी नहीं किए, "[d]प्रौद्योगिकी के दुर्भावनापूर्ण अनुप्रयोगों के बारे में [OpenAI की] चिंताओं के कारण," OpenAI ने GPT मॉडल के लिए अपनी पूर्व-प्रशिक्षण प्रक्रिया के बारे में सामान्य जानकारी प्रकाशित की है।[12 ]
85. GPT-2 में 1.5 बिलियन पैरामीटर शामिल हैं, जो GPT से 10 गुना अधिक था।[13] GPT-2 के प्रशिक्षण डेटासेट में "वेबटेक्स्ट" नामक एक आंतरिक कॉर्पस OpenAI शामिल है, जिसमें "Reddit' सोशल नेटवर्क के उपयोगकर्ताओं द्वारा पोस्ट किए गए 45 मिलियन लिंक की टेक्स्ट सामग्री शामिल है।"[14] वेबटेक्स्ट डेटासेट की सामग्री थी एक "नए वेब स्क्रैप के रूप में बनाया गया है जो दस्तावेज़ की गुणवत्ता पर जोर देता है।" [15] वेबटेक्स्ट डेटासेट में द टाइम्स से स्क्रैप की गई सामग्री की एक चौंका देने वाली मात्रा शामिल है। उदाहरण के लिए, NYTimes.com डोमेन वेबटेक्स्ट डेटासेट में "वॉल्यूम के हिसाब से शीर्ष 15 डोमेन" में से एक है,[16] और 333,160 प्रविष्टियों के साथ वेबटेक्स्ट डेटासेट में 5वें "शीर्ष डोमेन" के रूप में सूचीबद्ध है।[17]
86. GPT-3 में 175 बिलियन पैरामीटर शामिल हैं और इसे नीचे दी गई तालिका में सूचीबद्ध डेटासेट पर प्रशिक्षित किया गया था।[18]
87. इनमें से एक डेटासेट, WebText2, उच्च मूल्य वाली सामग्री को प्राथमिकता देने के लिए बनाया गया था। मूल वेबटेक्स्ट की तरह, यह Reddit के लोकप्रिय आउटबाउंड लिंक से बना है। जैसा कि ऊपर दी गई तालिका में दिखाया गया है, प्रशिक्षण मिश्रण में कुल टोकन का 4% से कम होने के बावजूद, GPT-3 के लिए प्रशिक्षण मिश्रण में WebText2 कॉर्पस को 22% महत्व दिया गया था। टाइम्स सामग्री - कुल 209,707 अद्वितीय यूआरएल - ओपनवेबटेक्स्ट2 में सूचीबद्ध सभी स्रोतों का 1.23% है, जो जीपीटी-3 के प्रशिक्षण में उपयोग किए गए वेबटेक्स्ट2 डेटासेट का एक ओपन-सोर्स पुनः निर्माण है। मूल वेबटेक्स्ट की तरह, OpenAI WebText2 को एक "उच्च-गुणवत्ता" डेटासेट के रूप में वर्णित करता है जो कि "वेबटेक्स्ट डेटासेट का एक विस्तारित संस्करण है ... जो लंबी अवधि में लिंक को स्क्रैप करके एकत्र किया जाता है।"[19]
88. जीपीटी-3 में सबसे उच्च भारित डेटासेट, कॉमन क्रॉल, एक "इंटरनेट की प्रति" है जो धनी उद्यम पूंजी निवेशकों द्वारा संचालित 501(सी)(3) संगठन द्वारा उपलब्ध कराया गया है।[20] डोमेन www.nytimes.com सबसे अधिक प्रतिनिधित्व वाला स्वामित्व स्रोत है (और केवल विकिपीडिया और अमेरिकी पेटेंट दस्तावेजों के डेटाबेस के बाद तीसरा) कॉमन क्रॉल के 2019 स्नैपशॉट के फ़िल्टर किए गए अंग्रेजी-भाषा उपसमूह में दर्शाया गया है, जो 100 मिलियन के लिए जिम्मेदार है। टोकन (पाठ की मूल इकाइयाँ): [21]
89. कॉमन क्रॉल डेटासेट में द टाइम्स की न्यूज़, कुकिंग, वायरकटर और द एथलेटिक की सामग्री के कम से कम 16 मिलियन अद्वितीय रिकॉर्ड और टाइम्स की सामग्री के 66 मिलियन से अधिक कुल रिकॉर्ड शामिल हैं।
90. गंभीर रूप से, ओपनएआई स्वीकार करता है कि "हम जिन डेटासेट को उच्च-गुणवत्ता के रूप में देखते हैं, उनका प्रशिक्षण के दौरान अधिक बार नमूना लिया जाता है"।[22] तदनुसार, ओपनएआई के स्वयं के प्रवेश से, द टाइम्स की सामग्री सहित उच्च-गुणवत्ता वाली सामग्री, अन्य निम्न-गुणवत्ता वाले स्रोतों से ली गई सामग्री की तुलना में जीपीटी मॉडल के प्रशिक्षण के लिए अधिक महत्वपूर्ण और मूल्यवान थी।
91. जबकि OpenAI ने GPT-4 के बारे में अधिक जानकारी जारी नहीं की है, विशेषज्ञों को संदेह है कि GPT-4 में 1.8 ट्रिलियन पैरामीटर शामिल हैं, जो GPT-3 से 10 गुना अधिक बड़ा है, और लगभग 13 ट्रिलियन टोकन पर प्रशिक्षित किया गया था।[23] GPT-3, GPT-3.5 और GPT-4 के प्रशिक्षण सेट में 45 टेराबाइट डेटा शामिल था - जो 3.7 बिलियन पृष्ठों से अधिक लंबे Microsoft Word दस्तावेज़ के बराबर है। [24] कॉमन क्रॉल, वेबटेक्स्ट और वेबटेक्स्ट2 डेटासेट के बीच, प्रतिवादियों ने संभवतः जीपीटी मॉडल को प्रशिक्षित करने के लिए टाइम्स के स्वामित्व वाले लाखों कार्यों का पूरा उपयोग किया।
92. प्रतिवादियों ने द टाइम्स को किसी भी लाइसेंस या अन्य मुआवजे के बिना, टाइम्स की कॉपीराइट सामग्री के इस बड़े पैमाने पर बार-बार प्रतिलिपि बनाई। जीपीटी मॉडल के प्रशिक्षण के हिस्से के रूप में, माइक्रोसॉफ्ट और ओपनएआई ने द टाइम्स के स्वामित्व वाली सामग्री की प्रतियों सहित प्रशिक्षण डेटासेट की प्रतियों को रखने और पुन: पेश करने के लिए एक जटिल, विशेष सुपरकंप्यूटिंग सिस्टम विकसित करने के लिए सहयोग किया। प्रतिवादियों के जीपीटी मॉडल को "प्रशिक्षित" करने के उद्देश्य से लाखों टाइम्स वर्क्स की प्रतिलिपि बनाई गई और कई बार उपयोग किया गया।
93. सूचना और विश्वास के आधार पर, माइक्रोसॉफ्ट और ओपनएआई ने द टाइम्स की सामग्री की बड़े पैमाने पर नकल में संयुक्त रूप से काम किया, जिसमें द टाइम्स की सामग्री और लेखकों की सटीक नकल करने के लिए प्रोग्राम किए गए जीपीटी मॉडल तैयार करने में शामिल थे। माइक्रोसॉफ्ट और ओपनएआई ने जीपीटी मॉडल डिजाइन करने, प्रशिक्षण डेटासेट का चयन करने और प्रशिक्षण प्रक्रिया की निगरानी में सहयोग किया। जैसा कि श्री नडेला ने कहा:
इसलिए, जब आप एआई और एआई सुरक्षा के बारे में सोचते हैं तो बहुत सारे उत्पाद डिज़ाइन विकल्प होते हैं, मैं इसे कहता हूं। तो फिर, आइए इसे दूसरे तरीके से देखें। आपको पूर्व-प्रशिक्षित डेटा का वास्तविक ध्यान रखना होगा क्योंकि मॉडल पूर्व-प्रशिक्षित डेटा पर प्रशिक्षित होते हैं। उस पूर्व-प्रशिक्षित डेटा की गुणवत्ता, उत्पत्ति क्या है? यह एक ऐसी जगह है जहां हमने बहुत सारा काम किया है।[25]
94. इस हद तक कि माइक्रोसॉफ्ट ने जीपीटी मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले कार्यों का चयन नहीं किया, इसने उस चयन का सम्मान करते हुए ओपनएआई के साथ स्व-वर्णित "साझेदारी" में काम किया, अपने आधार पर चयनित कार्यों की पहचान को जानता था या जानबूझ कर अंधा कर रहा था। ओपनएआई द्वारा नियोजित प्रशिक्षण कोष और चयन मानदंडों की प्रकृति और पहचान का ज्ञान, और/या ओपनएआई को उस उद्देश्य के लिए विकसित सुपर कंप्यूटर के भौतिक नियंत्रण के आधार पर प्रशिक्षण के लिए किसी विशेष कार्य का उपयोग करने से रोकने का अधिकार और क्षमता थी और OpenAI प्रतिवादियों पर इसका कानूनी और वित्तीय प्रभाव।
95. जानकारी और विश्वास के आधार पर, माइक्रोसॉफ्ट और ओपनएआई अपने बिंग चैट और ब्राउज विद बिंग उत्पादों द्वारा लौटाए गए सिंथेटिक खोज परिणामों के रूप में टाइम्स वर्क्स की अनधिकृत प्रतियां बनाना जारी रखते हैं। Microsoft सक्रिय रूप से अपने बिंग सर्च इंजन के लिए इंडेक्स बनाने के लिए वेब को क्रॉल करने की प्रक्रिया में ऐसे परिणाम उत्पन्न करने के लिए उपयोग किए जाने वाले टाइम्स वर्क्स की प्रतियां इकट्ठा करता है।
96. जानकारी और विश्वास के आधार पर, माइक्रोसॉफ्ट और ओपनएआई अगली पीढ़ी के जीपीटी-5 एलएलएम को प्रशिक्षित करने और/या बेहतर बनाने के लिए टाइम्स वर्क्स की अतिरिक्त प्रतियां वर्तमान में या जल्द ही बनाना शुरू कर देंगे।
97. प्रतिवादियों द्वारा टाइम्स की सामग्री का बड़े पैमाने पर व्यावसायिक दोहन के लिए लाइसेंस प्राप्त नहीं है, न ही प्रतिवादियों को द टाइम्स से अपने जेनएआई टूल बनाने के लिए इसके कार्यों की प्रतिलिपि बनाने और उपयोग करने की अनुमति मिली है।
यहां पढ़ना जारी रखें.
[12] ओपनएआई, बेहतर भाषा मॉडल और उनके निहितार्थ, ओपनएआई (14 फरवरी, 2019), https://openai.com/research/better-भाषा-मॉडल।
[13] आईडी.
[14] जीपीटी-2 मॉडल कार्ड, जीआईटीएचयूबी (नवंबर 2019), https://github.com/openai/gpt-2/blob/master/model_card.md.
[15] रेडफोर्ड एट अल., भाषा मॉडल अनसुपरवाइज्ड मल्टीटास्क लर्नर्स 3 (2018), https://d4mucfpksywv.cloudfront.net/better-भाषा-मॉडल/भाषा-मॉडल.पीडीएफ।
[16] जीपीटी-2 मॉडल कार्ड, सुप्रा नोट 14।
[17] GPT-2 / डोमेन.txt, GITHUB, https://github.com/openai/gpt-2/blob/master/domains.txt (अंतिम बार 21 दिसंबर, 2023 को देखा गया)।
[18] ब्राउन एट अल., भाषा मॉडल कम-शॉट सीखने वाले होते हैं 9 (2020), https://arxiv.org/pdf/2005.14165.pdf।
[19] आईडी. 8 पर।
[20] कॉमन क्रॉल, https://commoncrawl.org/ (अंतिम बार 21 दिसंबर, 2023 को देखा गया)।
[21] डॉज एट अल., बड़े वेबटेक्स्ट कॉरपोरेशन का दस्तावेजीकरण: कोलोसल क्लीन क्रॉल्ड कॉर्पस पर एक केस स्टडी (2021), https://arxiv.org/abs/2104.08758।
[22] ब्राउन एट अल., सुप्रा नोट 18।
[23] मैक्सिमिलियन श्राइनर, जीपीटी-4 आर्किटेक्चर, डेटासेट, लागत और अधिक लीक, द डिकोडर (11 जुलाई, 2023), https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more -लीक/.
[24] किंड्रा कूपर, ओपनएआई जीपीटी-3: वह सब कुछ जो आपको जानना आवश्यक है [अपडेट किया गया], स्प्रिंगबोर्ड (27 सितंबर, 2023), https://www.springboard.com/blog/data-science/machine-learning-gpt -3-ओपन-एआई/.
[25] निलय पटेल, माइक्रोसॉफ्ट को लगता है कि एआई सर्च में गूगल को मात दे सकता है - सीईओ सत्य नडेला बताते हैं क्यों, द वर्ज (7 फरवरी, 2023), https://www.theverge.com/23589994/microsoft-ceo-satya-nadella -बिंग-चैटजीपीटी-गूगलसर्च-एआई।
हैकरनून लीगल पीडीएफ सीरीज के बारे में: हम आपके लिए सबसे महत्वपूर्ण तकनीकी और व्यावहारिक सार्वजनिक डोमेन कोर्ट केस फाइलिंग लाते हैं।
यह अदालती मामला 1:23-सीवी-11195 29 दिसंबर, 2023 को nycto-assets.nytimes.com से पुनर्प्राप्त किया गया, सार्वजनिक डोमेन का हिस्सा है। न्यायालय द्वारा बनाए गए दस्तावेज़ संघीय सरकार के कार्य हैं, और कॉपीराइट कानून के तहत, स्वचालित रूप से सार्वजनिक डोमेन में रखे जाते हैं और कानूनी प्रतिबंध के बिना साझा किए जा सकते हैं।