paint-brush
द टाइम्स बनाम माइक्रोसॉफ्ट/ओपनएआई: जीपीटी मॉडल प्रशिक्षण में टाइम्स वर्क्स का अनधिकृत पुनरुत्पादन (10)द्वारा@legalpdf
169 रीडिंग

द टाइम्स बनाम माइक्रोसॉफ्ट/ओपनएआई: जीपीटी मॉडल प्रशिक्षण में टाइम्स वर्क्स का अनधिकृत पुनरुत्पादन (10)

द्वारा Legal PDF: Tech Court Cases6m2024/01/02
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

माइक्रोसॉफ्ट और ओपनएआई ने अपने एलएलएम और ऑपरेटिन के प्रशिक्षण के दौरान कई स्वतंत्र तरीकों से द टाइम्स की सामग्री का पुनरुत्पादन बनाया और वितरित किया।
featured image - द टाइम्स बनाम माइक्रोसॉफ्ट/ओपनएआई: जीपीटी मॉडल प्रशिक्षण में टाइम्स वर्क्स का अनधिकृत पुनरुत्पादन (10)
Legal PDF: Tech Court Cases HackerNoon profile picture

न्यूयॉर्क टाइम्स कंपनी बनाम माइक्रोसॉफ्ट कॉर्पोरेशन कोर्ट फाइलिंग 27 दिसंबर, 2023 हैकरनून की कानूनी पीडीएफ श्रृंखला का हिस्सा है। आप यहां इस फाइलिंग के किसी भी भाग पर जा सकते हैं। यह 27 का भाग 10 है.

चतुर्थ. तथ्यात्मक आरोप

सी. प्रतिवादियों द्वारा टाइम्स सामग्री का अनधिकृत उपयोग और नकल

82. माइक्रोसॉफ्ट और ओपनएआई ने अपने एलएलएम के प्रशिक्षण और उन्हें शामिल करने वाले उत्पादों के संचालन के दौरान कई स्वतंत्र तरीकों से द टाइम्स की सामग्री की प्रतिकृतियां बनाई और वितरित कीं।


1. जीपीटी मॉडल प्रशिक्षण के दौरान टाइम्स कार्यों का अनधिकृत पुनरुत्पादन


83. प्रतिवादियों के जीपीटी मॉडल एलएलएम का एक परिवार हैं, जिनमें से पहला 2018 में पेश किया गया था, उसके बाद 2019 में जीपीटी-2, 2020 में जीपीटी-3, 2022 में जीपीटी-3.5 और 2023 में जीपीटी-4 पेश किया गया था। चैट” शैली एलएलएम, जीपीटी-3.5 और जीपीटी-4, दो चरणों में विकसित किए गए थे। सबसे पहले, एक ट्रांसफार्मर मॉडल को बहुत बड़ी मात्रा में डेटा पर पूर्व-प्रशिक्षित किया गया था। दूसरा, मॉडल को विशिष्ट कार्यों को हल करने में मदद करने के लिए मॉडल को बहुत छोटे पर्यवेक्षित डेटासेट पर "फाइन-ट्यून" किया गया था।


84. पूर्व-प्रशिक्षण चरण में प्रशिक्षण डेटासेट बनाने और जीपीटी मॉडल के माध्यम से उस सामग्री को संसाधित करने के लिए पाठ्य सामग्री को एकत्र करना और संग्रहीत करना शामिल था। हालाँकि OpenAI ने GPT-2 के प्रशिक्षित संस्करण जारी नहीं किए, "[d]प्रौद्योगिकी के दुर्भावनापूर्ण अनुप्रयोगों के बारे में [OpenAI की] चिंताओं के कारण," OpenAI ने GPT मॉडल के लिए अपनी पूर्व-प्रशिक्षण प्रक्रिया के बारे में सामान्य जानकारी प्रकाशित की है।[12 ]


85. GPT-2 में 1.5 बिलियन पैरामीटर शामिल हैं, जो GPT से 10 गुना अधिक था।[13] GPT-2 के प्रशिक्षण डेटासेट में "वेबटेक्स्ट" नामक एक आंतरिक कॉर्पस OpenAI शामिल है, जिसमें "Reddit' सोशल नेटवर्क के उपयोगकर्ताओं द्वारा पोस्ट किए गए 45 मिलियन लिंक की टेक्स्ट सामग्री शामिल है।"[14] वेबटेक्स्ट डेटासेट की सामग्री थी एक "नए वेब स्क्रैप के रूप में बनाया गया है जो दस्तावेज़ की गुणवत्ता पर जोर देता है।" [15] वेबटेक्स्ट डेटासेट में द टाइम्स से स्क्रैप की गई सामग्री की एक चौंका देने वाली मात्रा शामिल है। उदाहरण के लिए, NYTimes.com डोमेन वेबटेक्स्ट डेटासेट में "वॉल्यूम के हिसाब से शीर्ष 15 डोमेन" में से एक है,[16] और 333,160 प्रविष्टियों के साथ वेबटेक्स्ट डेटासेट में 5वें "शीर्ष डोमेन" के रूप में सूचीबद्ध है।[17]



86. GPT-3 में 175 बिलियन पैरामीटर शामिल हैं और इसे नीचे दी गई तालिका में सूचीबद्ध डेटासेट पर प्रशिक्षित किया गया था।[18]



87. इनमें से एक डेटासेट, WebText2, उच्च मूल्य वाली सामग्री को प्राथमिकता देने के लिए बनाया गया था। मूल वेबटेक्स्ट की तरह, यह Reddit के लोकप्रिय आउटबाउंड लिंक से बना है। जैसा कि ऊपर दी गई तालिका में दिखाया गया है, प्रशिक्षण मिश्रण में कुल टोकन का 4% से कम होने के बावजूद, GPT-3 के लिए प्रशिक्षण मिश्रण में WebText2 कॉर्पस को 22% महत्व दिया गया था। टाइम्स सामग्री - कुल 209,707 अद्वितीय यूआरएल - ओपनवेबटेक्स्ट2 में सूचीबद्ध सभी स्रोतों का 1.23% है, जो जीपीटी-3 के प्रशिक्षण में उपयोग किए गए वेबटेक्स्ट2 डेटासेट का एक ओपन-सोर्स पुनः निर्माण है। मूल वेबटेक्स्ट की तरह, OpenAI WebText2 को एक "उच्च-गुणवत्ता" डेटासेट के रूप में वर्णित करता है जो कि "वेबटेक्स्ट डेटासेट का एक विस्तारित संस्करण है ... जो लंबी अवधि में लिंक को स्क्रैप करके एकत्र किया जाता है।"[19]


88. जीपीटी-3 में सबसे उच्च भारित डेटासेट, कॉमन क्रॉल, एक "इंटरनेट की प्रति" है जो धनी उद्यम पूंजी निवेशकों द्वारा संचालित 501(सी)(3) संगठन द्वारा उपलब्ध कराया गया है।[20] डोमेन www.nytimes.com सबसे अधिक प्रतिनिधित्व वाला स्वामित्व स्रोत है (और केवल विकिपीडिया और अमेरिकी पेटेंट दस्तावेजों के डेटाबेस के बाद तीसरा) कॉमन क्रॉल के 2019 स्नैपशॉट के फ़िल्टर किए गए अंग्रेजी-भाषा उपसमूह में दर्शाया गया है, जो 100 मिलियन के लिए जिम्मेदार है। टोकन (पाठ की मूल इकाइयाँ): [21]



89. कॉमन क्रॉल डेटासेट में द टाइम्स की न्यूज़, कुकिंग, वायरकटर और द एथलेटिक की सामग्री के कम से कम 16 मिलियन अद्वितीय रिकॉर्ड और टाइम्स की सामग्री के 66 मिलियन से अधिक कुल रिकॉर्ड शामिल हैं।


90. गंभीर रूप से, ओपनएआई स्वीकार करता है कि "हम जिन डेटासेट को उच्च-गुणवत्ता के रूप में देखते हैं, उनका प्रशिक्षण के दौरान अधिक बार नमूना लिया जाता है"।[22] तदनुसार, ओपनएआई के स्वयं के प्रवेश से, द टाइम्स की सामग्री सहित उच्च-गुणवत्ता वाली सामग्री, अन्य निम्न-गुणवत्ता वाले स्रोतों से ली गई सामग्री की तुलना में जीपीटी मॉडल के प्रशिक्षण के लिए अधिक महत्वपूर्ण और मूल्यवान थी।


91. जबकि OpenAI ने GPT-4 के बारे में अधिक जानकारी जारी नहीं की है, विशेषज्ञों को संदेह है कि GPT-4 में 1.8 ट्रिलियन पैरामीटर शामिल हैं, जो GPT-3 से 10 गुना अधिक बड़ा है, और लगभग 13 ट्रिलियन टोकन पर प्रशिक्षित किया गया था।[23] GPT-3, GPT-3.5 और GPT-4 के प्रशिक्षण सेट में 45 टेराबाइट डेटा शामिल था - जो 3.7 बिलियन पृष्ठों से अधिक लंबे Microsoft Word दस्तावेज़ के बराबर है। [24] कॉमन क्रॉल, वेबटेक्स्ट और वेबटेक्स्ट2 डेटासेट के बीच, प्रतिवादियों ने संभवतः जीपीटी मॉडल को प्रशिक्षित करने के लिए टाइम्स के स्वामित्व वाले लाखों कार्यों का पूरा उपयोग किया।


92. प्रतिवादियों ने द टाइम्स को किसी भी लाइसेंस या अन्य मुआवजे के बिना, टाइम्स की कॉपीराइट सामग्री के इस बड़े पैमाने पर बार-बार प्रतिलिपि बनाई। जीपीटी मॉडल के प्रशिक्षण के हिस्से के रूप में, माइक्रोसॉफ्ट और ओपनएआई ने द टाइम्स के स्वामित्व वाली सामग्री की प्रतियों सहित प्रशिक्षण डेटासेट की प्रतियों को रखने और पुन: पेश करने के लिए एक जटिल, विशेष सुपरकंप्यूटिंग सिस्टम विकसित करने के लिए सहयोग किया। प्रतिवादियों के जीपीटी मॉडल को "प्रशिक्षित" करने के उद्देश्य से लाखों टाइम्स वर्क्स की प्रतिलिपि बनाई गई और कई बार उपयोग किया गया।


93. सूचना और विश्वास के आधार पर, माइक्रोसॉफ्ट और ओपनएआई ने द टाइम्स की सामग्री की बड़े पैमाने पर नकल में संयुक्त रूप से काम किया, जिसमें द टाइम्स की सामग्री और लेखकों की सटीक नकल करने के लिए प्रोग्राम किए गए जीपीटी मॉडल तैयार करने में शामिल थे। माइक्रोसॉफ्ट और ओपनएआई ने जीपीटी मॉडल डिजाइन करने, प्रशिक्षण डेटासेट का चयन करने और प्रशिक्षण प्रक्रिया की निगरानी में सहयोग किया। जैसा कि श्री नडेला ने कहा:


इसलिए, जब आप एआई और एआई सुरक्षा के बारे में सोचते हैं तो बहुत सारे उत्पाद डिज़ाइन विकल्प होते हैं, मैं इसे कहता हूं। तो फिर, आइए इसे दूसरे तरीके से देखें। आपको पूर्व-प्रशिक्षित डेटा का वास्तविक ध्यान रखना होगा क्योंकि मॉडल पूर्व-प्रशिक्षित डेटा पर प्रशिक्षित होते हैं। उस पूर्व-प्रशिक्षित डेटा की गुणवत्ता, उत्पत्ति क्या है? यह एक ऐसी जगह है जहां हमने बहुत सारा काम किया है।[25]


94. इस हद तक कि माइक्रोसॉफ्ट ने जीपीटी मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले कार्यों का चयन नहीं किया, इसने उस चयन का सम्मान करते हुए ओपनएआई के साथ स्व-वर्णित "साझेदारी" में काम किया, अपने आधार पर चयनित कार्यों की पहचान को जानता था या जानबूझ कर अंधा कर रहा था। ओपनएआई द्वारा नियोजित प्रशिक्षण कोष और चयन मानदंडों की प्रकृति और पहचान का ज्ञान, और/या ओपनएआई को उस उद्देश्य के लिए विकसित सुपर कंप्यूटर के भौतिक नियंत्रण के आधार पर प्रशिक्षण के लिए किसी विशेष कार्य का उपयोग करने से रोकने का अधिकार और क्षमता थी और OpenAI प्रतिवादियों पर इसका कानूनी और वित्तीय प्रभाव।


95. जानकारी और विश्वास के आधार पर, माइक्रोसॉफ्ट और ओपनएआई अपने बिंग चैट और ब्राउज विद बिंग उत्पादों द्वारा लौटाए गए सिंथेटिक खोज परिणामों के रूप में टाइम्स वर्क्स की अनधिकृत प्रतियां बनाना जारी रखते हैं। Microsoft सक्रिय रूप से अपने बिंग सर्च इंजन के लिए इंडेक्स बनाने के लिए वेब को क्रॉल करने की प्रक्रिया में ऐसे परिणाम उत्पन्न करने के लिए उपयोग किए जाने वाले टाइम्स वर्क्स की प्रतियां इकट्ठा करता है।


96. जानकारी और विश्वास के आधार पर, माइक्रोसॉफ्ट और ओपनएआई अगली पीढ़ी के जीपीटी-5 एलएलएम को प्रशिक्षित करने और/या बेहतर बनाने के लिए टाइम्स वर्क्स की अतिरिक्त प्रतियां वर्तमान में या जल्द ही बनाना शुरू कर देंगे।


97. प्रतिवादियों द्वारा टाइम्स की सामग्री का बड़े पैमाने पर व्यावसायिक दोहन के लिए लाइसेंस प्राप्त नहीं है, न ही प्रतिवादियों को द टाइम्स से अपने जेनएआई टूल बनाने के लिए इसके कार्यों की प्रतिलिपि बनाने और उपयोग करने की अनुमति मिली है।



यहां पढ़ना जारी रखें.


[12] ओपनएआई, बेहतर भाषा मॉडल और उनके निहितार्थ, ओपनएआई (14 फरवरी, 2019), https://openai.com/research/better-भाषा-मॉडल।


[13] आईडी.


[14] जीपीटी-2 मॉडल कार्ड, जीआईटीएचयूबी (नवंबर 2019), https://github.com/openai/gpt-2/blob/master/model_card.md.


[15] रेडफोर्ड एट अल., भाषा मॉडल अनसुपरवाइज्ड मल्टीटास्क लर्नर्स 3 (2018), https://d4mucfpksywv.cloudfront.net/better-भाषा-मॉडल/भाषा-मॉडल.पीडीएफ।


[16] जीपीटी-2 मॉडल कार्ड, सुप्रा नोट 14।


[17] GPT-2 / डोमेन.txt, GITHUB, https://github.com/openai/gpt-2/blob/master/domains.txt (अंतिम बार 21 दिसंबर, 2023 को देखा गया)।


[18] ब्राउन एट अल., भाषा मॉडल कम-शॉट सीखने वाले होते हैं 9 (2020), https://arxiv.org/pdf/2005.14165.pdf।


[19] आईडी. 8 पर।


[20] कॉमन क्रॉल, https://commoncrawl.org/ (अंतिम बार 21 दिसंबर, 2023 को देखा गया)।


[21] डॉज एट अल., बड़े वेबटेक्स्ट कॉरपोरेशन का दस्तावेजीकरण: कोलोसल क्लीन क्रॉल्ड कॉर्पस पर एक केस स्टडी (2021), https://arxiv.org/abs/2104.08758।


[22] ब्राउन एट अल., सुप्रा नोट 18।


[23] मैक्सिमिलियन श्राइनर, जीपीटी-4 आर्किटेक्चर, डेटासेट, लागत और अधिक लीक, द डिकोडर (11 जुलाई, 2023), https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more -लीक/.


[24] किंड्रा कूपर, ओपनएआई जीपीटी-3: वह सब कुछ जो आपको जानना आवश्यक है [अपडेट किया गया], स्प्रिंगबोर्ड (27 सितंबर, 2023), https://www.springboard.com/blog/data-science/machine-learning-gpt -3-ओपन-एआई/.


[25] निलय पटेल, माइक्रोसॉफ्ट को लगता है कि एआई सर्च में गूगल को मात दे सकता है - सीईओ सत्य नडेला बताते हैं क्यों, द वर्ज (7 फरवरी, 2023), https://www.theverge.com/23589994/microsoft-ceo-satya-nadella -बिंग-चैटजीपीटी-गूगलसर्च-एआई।




हैकरनून लीगल पीडीएफ सीरीज के बारे में: हम आपके लिए सबसे महत्वपूर्ण तकनीकी और व्यावहारिक सार्वजनिक डोमेन कोर्ट केस फाइलिंग लाते हैं।


यह अदालती मामला 1:23-सीवी-11195 29 दिसंबर, 2023 को nycto-assets.nytimes.com से पुनर्प्राप्त किया गया, सार्वजनिक डोमेन का हिस्सा है। न्यायालय द्वारा बनाए गए दस्तावेज़ संघीय सरकार के कार्य हैं, और कॉपीराइट कानून के तहत, स्वचालित रूप से सार्वजनिक डोमेन में रखे जाते हैं और कानूनी प्रतिबंध के बिना साझा किए जा सकते हैं।