Der Gerichtsantrag „New York Times Company gegen Microsoft Corporation“ vom 27. Dezember 2023 ist Teil der Legal PDF Series von HackerNoon . Sie können hier zu jedem Teil dieser Akte springen. Dies ist Teil 10 von 27.
82. Microsoft und OpenAI haben im Zuge der Ausbildung ihrer LLMs und des Betriebs der Produkte, die sie integrieren, auf verschiedene, unabhängige Weise Reproduktionen der Inhalte der Times erstellt und verbreitet.
1. Unbefugte Reproduktion von Times Works während des GPT-Modelltrainings
83. Bei den GPT-Modellen der Beklagten handelt es sich um eine Familie von LLMs, von denen das erste im Jahr 2018 eingeführt wurde, gefolgt von GPT-2 im Jahr 2019, GPT-3 im Jahr 2020, GPT-3.5 im Jahr 2022 und GPT-4 im Jahr 2023. Die „ LLMs im „Chat“-Stil, GPT-3.5 und GPT-4, wurden in zwei Phasen entwickelt. Zunächst wurde ein Transformatormodell anhand einer sehr großen Datenmenge vorab trainiert. Zweitens wurde das Modell anhand eines viel kleineren überwachten Datensatzes „feinabgestimmt“, um das Modell bei der Lösung spezifischer Aufgaben zu unterstützen.
84. Der Schritt vor dem Training umfasste das Sammeln und Speichern von Textinhalten zur Erstellung von Trainingsdatensätzen und die Verarbeitung dieser Inhalte durch die GPT-Modelle. Während OpenAI die trainierten Versionen von GPT-2 nicht mehr veröffentlichte, „[aufgrund von [OpenAIs] Bedenken hinsichtlich böswilliger Anwendungen der Technologie“, hat OpenAI allgemeine Informationen über seinen Vortrainingsprozess für die GPT-Modelle veröffentlicht.[12] ]
85. GPT-2 umfasst 1,5 Milliarden Parameter, was einer zehnfachen Skalierung von GPT entspricht.[13] Der Trainingsdatensatz für GPT-2 umfasst ein von OpenAI erstelltes internes Korpus namens „WebText“, das „den Textinhalt von 45 Millionen Links enthält, die von Benutzern des sozialen Netzwerks „Reddit“ gepostet wurden.“[14] Der Inhalt des WebText-Datensatzes war erstellt als „neuer Web-Scrape, der die Dokumentqualität betont.“[15] Der WebText-Datensatz enthält eine erstaunliche Menge an Scrape-Inhalten aus The Times. Beispielsweise gehört die Domäne NYTimes.com zu den „Top-15-Domänen nach Volumen“ im WebText-Datensatz[16] und wird mit 333.160 Einträgen als fünfte „Top-Domäne“ im WebText-Datensatz aufgeführt.[17]
86. GPT-3 umfasst 175 Milliarden Parameter und wurde anhand der in der folgenden Tabelle aufgeführten Datensätze trainiert.[18]
87. Einer dieser Datensätze, WebText2, wurde erstellt, um hochwertige Inhalte zu priorisieren. Wie der ursprüngliche WebText besteht er aus beliebten ausgehenden Links von Reddit. Wie in der Tabelle oben gezeigt, wurde der WebText2-Korpus im Trainingsmix für GPT-3 mit 22 % gewichtet, obwohl er weniger als 4 % der gesamten Token im Trainingsmix ausmachte. Der Times-Inhalt – insgesamt 209.707 eindeutige URLs – macht 1,23 % aller in OpenWebText2 aufgeführten Quellen aus, einer Open-Source-Nachbildung des WebText2-Datensatzes, der beim Training von GPT-3 verwendet wurde. Wie der ursprüngliche WebText beschreibt OpenAI WebText2 als einen „hochwertigen“ Datensatz, der „eine erweiterte Version des WebText-Datensatzes … ist, der durch Scraping von Links über einen längeren Zeitraum gesammelt wurde.“[19]
88. Der am höchsten gewichtete Datensatz in GPT-3, Common Crawl, ist eine „Kopie des Internets“, die von einer gleichnamigen 501(c)(3)-Organisation zur Verfügung gestellt wird, die von wohlhabenden Risikokapitalinvestoren geführt wird.[20] Die Domain www.nytimes.com ist mit 100 Millionen die am häufigsten vertretene proprietäre Quelle (und die drittgrößte insgesamt hinter nur Wikipedia und einer Datenbank mit US-Patentdokumenten), die in einer gefilterten englischsprachigen Teilmenge eines Schnappschusses von Common Crawl aus dem Jahr 2019 vertreten ist Token (Grundeinheiten des Textes): [21]
89. Der Common Crawl-Datensatz umfasst mindestens 16 Millionen eindeutige Datensätze mit Inhalten der Times in den Bereichen News, Cooking, Wirecutter und The Athletic sowie insgesamt mehr als 66 Millionen Datensätze mit Inhalten der Times.
90. Entscheidend ist, dass OpenAI zugibt, dass „Datensätze, die wir als qualitativ hochwertiger erachten, häufiger abgetastet werden“ während des Trainings.[22] Dementsprechend waren nach eigenen Angaben von OpenAI qualitativ hochwertige Inhalte, darunter Inhalte aus The Times, für das Training der GPT-Modelle wichtiger und wertvoller als Inhalte aus anderen, minderwertigen Quellen.
91. Obwohl OpenAI nicht viele Informationen über GPT-4 veröffentlicht hat, vermuten Experten, dass GPT-4 1,8 Billionen Parameter umfasst, was mehr als zehnmal größer als GPT-3 ist, und auf etwa 13 Billionen Token trainiert wurde.[23] Der Trainingssatz für GPT-3, GPT-3.5 und GPT-4 umfasste 45 Terabyte an Daten – das Äquivalent eines Microsoft Word-Dokuments mit einer Länge von über 3,7 Milliarden Seiten. [24] Zwischen den Common Crawl-, WebText- und WebText2-Datensätzen haben die Beklagten wahrscheinlich Millionen von Werken im Besitz der Times vollständig genutzt, um die GPT-Modelle zu trainieren.
92. Die Beklagten haben diese Masse an urheberrechtlich geschützten Inhalten der Times wiederholt kopiert, ohne dass die Times dafür eine Lizenz oder eine andere Entschädigung erhalten hätte. Im Rahmen des Trainings der GPT-Modelle haben Microsoft und OpenAI zusammengearbeitet, um ein komplexes, maßgeschneidertes Supercomputing-System zu entwickeln, um Kopien des Trainingsdatensatzes zu speichern und zu reproduzieren, einschließlich Kopien von Inhalten, die sich im Besitz von The Times befinden. Millionen Mal wurden Werke kopiert und mehrfach eingespielt, um die GPT-Modelle der Beklagten zu „trainieren“.
93. Nach Informationen und Überzeugung handelten Microsoft und OpenAI gemeinsam bei der groß angelegten Vervielfältigung des Materials der Times, das an der Erstellung der GPT-Modelle beteiligt war, die so programmiert wurden, dass sie den Inhalt und die Autoren der Times genau nachahmen. Microsoft und OpenAI arbeiteten bei der Gestaltung der GPT-Modelle, der Auswahl der Trainingsdatensätze und der Überwachung des Trainingsprozesses zusammen. Wie Herr Nadella sagte:
Wenn man über KI und KI-Sicherheit nachdenkt, muss man also eine Menge, wie ich es nenne, Produktdesign-Entscheidungen treffen. Dann lasst es uns anders angehen. Sie müssen wirklich auf die vorab trainierten Daten achten, da Modelle auf vorab trainierten Daten trainiert werden. Welche Qualität und Herkunft haben diese vorab trainierten Daten? Das ist ein Ort, an dem wir viel Arbeit geleistet haben.[25]
94. Soweit Microsoft die Werke, die zum Trainieren der GPT-Modelle verwendet wurden, nicht auswählte, handelte es in Bezug auf diese Auswahl in einer selbst beschriebenen „Partnerschaft“ mit OpenAI, kannte die Identität der ausgewählten Werke oder war aufgrund ihrer Entscheidung bewusst blind gegenüber der Identität der ausgewählten Werke Kenntnis der Art und Identität der von OpenAI verwendeten Trainingskorpusse und Auswahlkriterien und/oder das Recht und die Fähigkeit hatte, OpenAI aufgrund seiner physischen Kontrolle über den Supercomputer, den es zu diesem Zweck entwickelt hat, daran zu hindern, eine bestimmte Arbeit für das Training zu verwenden, und seinen rechtlichen und finanziellen Einfluss auf die OpenAI-Beklagten.
95. Nach bestem Wissen und Gewissen erstellen Microsoft und OpenAI weiterhin nicht autorisierte Kopien von Times Works in Form von synthetischen Suchergebnissen, die von ihren Produkten „Bing Chat“ und „Browse with Bing“ zurückgegeben werden. Microsoft sammelt aktiv Kopien der Times Works, die zur Generierung solcher Ergebnisse beim Crawlen des Webs verwendet werden, um den Index für seine Bing-Suchmaschine zu erstellen.
96. Nach bestem Wissen und Gewissen beginnen Microsoft und OpenAI derzeit oder werden in Kürze damit beginnen, zusätzliche Kopien von Times Works zu erstellen, um das GPT-5 LLM der nächsten Generation zu trainieren und/oder zu verfeinern.
97. Die groß angelegte kommerzielle Verwertung von Times-Inhalten durch die Beklagten ist weder lizenziert, noch haben die Beklagten von der Times die Erlaubnis erhalten, die Werke zu kopieren und zur Erstellung ihrer GenAI-Tools zu verwenden.
Lesen Sie hier weiter.
[12] OpenAI, Better Language Models and Their Implications, OPENAI (14. Februar 2019), https://openai.com/research/better-Language-Models.
[13] Id.
[14] GPT-2-Modellkarte, GITHUB (November 2019), https://github.com/openai/gpt-2/blob/master/model_card.md.
[15] RADFORD ET AL., LANGUAGE MODELS ARE UNSUPERVISED MULTITASK LEARNERS 3 (2018), https://d4mucfpksywv.cloudfront.net/better-Language-Models/Language-Models.pdf.
[16] GPT-2-Modellkarte, siehe Anmerkung 14.
[17] GPT-2 / domains.txt, GITHUB, https://github.com/openai/gpt-2/blob/master/domains.txt (letzter Besuch 21.12.2023).
[18] BROWN ET AL., LANGUAGE MODELS ARE FEW-SHOT LEARNERS 9 (2020), https://arxiv.org/pdf/2005.14165.pdf.
[19] Id. um 8.
[20] COMMON CRAWL, https://commoncrawl.org/ (letzter Besuch am 21. Dezember 2023).
[21] DODGE ET AL., DOCUMENTING LARGE WEBTEXT CORPORA: A CASE STUDY ON THE COLOSSAL CLEAN CRAWLED CORPUS (2021), https://arxiv.org/abs/2104.08758.
[22] BROWN ET AL., siehe Fußnote 18.
[23] Maximilian Schreiner, GPT-4 Architecture, Datasets, Costs and More Leaked, THE DECODER (11. Juli 2023), https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more -durchgesickert/.
[24] Kindra Cooper, OpenAI GPT-3: Alles, was Sie wissen müssen [Aktualisiert], SPRINGBOARD (27. September 2023), https://www.springboard.com/blog/data-science/machine-learning-gpt -3-open-ai/.
[25] Nilay Patel, Microsoft glaubt, dass KI Google bei der Suche schlagen kann – CEO Satya Nadella erklärt warum, THE VERGE (7. Februar 2023), https://www.theverge.com/23589994/microsoft-ceo-satya-nadella -bing-chatgpt-googlesearch-ai.
Über HackerNoon Legal PDF Series: Wir stellen Ihnen die wichtigsten technischen und aufschlussreichen Public-Domain-Gerichtsanträge vor.
Dieser Gerichtsfall 1:23-cv-11195, abgerufen am 29. Dezember 2023 von nycto-assets.nytimes.com , ist Teil der Public Domain. Die vom Gericht erstellten Dokumente sind Werke der Bundesregierung und werden gemäß dem Urheberrecht automatisch öffentlich zugänglich gemacht und können ohne rechtliche Beschränkungen weitergegeben werden.