Die Gerichtsakte Center for Investigative Reporting Inc. v. OpenAI, abgerufen am 27. Juni 2024, ist Teil der juristischen PDF-Reihe von HackerNoon . Sie können hier zu jedem beliebigen Teil dieser Akte springen. Dieser Teil ist 5 von 18.
46. OpenAI wurde im Dezember 2015 als „gemeinnütziges Forschungsunternehmen für künstliche Intelligenz“ gegründet, entwickelte sich jedoch schnell zu einem milliardenschweren gewinnorientierten Unternehmen, das auf der Verwertung urheberrechtlich geschützter Werke von Urhebern auf der ganzen Welt, darunter CIR, basierte. Im Gegensatz zu =CIR gab OpenAI seinen ausschließlich gemeinnützigen Status bereits drei Jahre nach seiner Gründung auf und gründete im März 2019 OpenAI LP, ein gewinnorientiertes Unternehmen, das sich seinen gewinnorientierten Aktivitäten widmet, darunter Produktentwicklung und Kapitalbeschaffung bei Investoren.
47. Die GenAI-Produkte der Beklagten verwenden ein „großes Sprachmodell“ oder „LLM“. Die verschiedenen Versionen von GPT sind Beispiele für LLMs. Ein LLM, einschließlich derer, die ChatGPT und Copilot betreiben, nimmt Textaufforderungen als Eingaben entgegen und gibt Ausgaben aus, um Antworten vorherzusagen, die wahrscheinlich auf die möglicherweise Milliarden von Eingabebeispielen folgen, die zum Trainieren verwendet wurden.
48. LLMs erhalten ihre Ergebnisse als Ergebnis ihres Trainings an von Menschen geschriebenen Werken, die oft urheberrechtlich geschützt sind. Sie sammeln diese Beispiele in Trainingssets.
49. Beim Zusammenstellen von Trainingssets identifizieren die LLM-Ersteller, darunter auch die Beklagten, zunächst die Werke, die sie einschließen möchten. Anschließend kodieren sie die Werke im Computerspeicher als Zahlen, sogenannte „Parameter“.
50. Die Beklagten haben den Inhalt der Trainingssets, die zum Trainieren irgendeiner Version von ChatGPT verwendet wurden, nicht veröffentlicht, haben jedoch Informationen über diese Trainingssets vor GPT-4 offengelegt.[3] Beginnend mit GPT-4 haben die Beklagten die Trainingssets, die zum Trainieren dieser und späterer Versionen von ChatGPT verwendet wurden, vollständig geheim gehalten. Die Behauptungen des Klägers über die Trainingssets der Beklagten basieren daher auf einer umfassenden Überprüfung öffentlich verfügbarer Informationen zu früheren Versionen von ChatGPT und Konsultationen mit einem Datenwissenschaftler, der vom Anwalt des Klägers beauftragt wurde, diese Informationen zu analysieren und Einblicke in die Art und Weise zu geben, wie KI entwickelt wird und funktioniert.
51. Microsoft hat sein eigenes KI-Produkt namens Copilot entwickelt, das die Prometheus-Technologie von Microsoft nutzt. Prometheus kombiniert das Bing-Suchprodukt mit den GPT-Modellen der OpenAI-Beklagten zu einer Komponente namens Bing Orchestrator. Auf Anfrage antwortet Copilot mit Bing Orchestrator auf Benutzeranfragen, indem es von der KI umgeschriebene Kurzfassungen oder Wiederholungen von im Internet gefundenen Inhalten bereitstellt.[4]
52. Frühere Versionen von ChatGPT (vor GPT-4) wurden mit mindestens den folgenden Trainingssets trainiert: WebText, WebText2 und von Common Crawl abgeleitete Sets.
53. WebText und WebText2 wurden von den OpenAI-Beklagten erstellt. Sie sind Sammlungen aller ausgehenden Links auf der Website Reddit, die mindestens drei „Karmas“ erhalten haben.[5] Auf Reddit zeigt ein Karma an, dass Benutzer den Link im Allgemeinen genehmigt haben. Der Unterschied zwischen den Datensätzen besteht darin, dass bei WebText2 über einen längeren Zeitraum Links von Reddit abgekratzt wurden. WebText2 ist also eine erweiterte Version von WebText.
54. Die OpenAI-Beklagten haben eine Liste der 1.000 wichtigsten Webdomänen im WebText-Trainingsset und ihrer Häufigkeit veröffentlicht. Dieser Liste zufolge erscheinen 16.793 verschiedene URLs der Webdomäne von Mother Jones in WebText.[6]
55. Die Beklagten verfügen über eine Aufzeichnung jeder URL, die in jedem ihrer Trainingssets enthalten war, und sind sich dieser URLs bewusst.
56. Joshua C. Peterson, derzeit Assistenzprofessor an der Fakultät für Informatik und Datenwissenschaften der Boston University, und zwei Computerkognitionswissenschaftler mit Doktortiteln von der UC Berkeley erstellten eine Annäherung an den WebText-Datensatz namens OpenWebText, indem sie auch ausgehende Links von Reddit aussuchten, die mindestens drei „Karmas“ erhalten hatten, genau wie die OpenAI-Beklagten es bei der Erstellung von WebText taten.[7] Sie veröffentlichten die Ergebnisse online. Ein vom Anwalt des Klägers beschäftigter Datenwissenschaftler analysierte dann diese Ergebnisse. OpenWebText enthält 17.019 verschiedene URLs von motherjones.com und 415 von revealnews.org. Eine Liste der in OpenWebText enthaltenen Werke von Mother Jones ist als Anlage 2 beigefügt. Eine Liste der in OpenWebText enthaltenen Werke von Reveal ist als Anlage 3 beigefügt.
57. Nach vorliegenden Informationen und Kenntnissen gibt es in WebText und OpenWebText leicht unterschiedliche Zahlen von Mother-Jones-Artikeln, zumindest teilweise, weil die Scrapings an unterschiedlichen Daten erfolgten.
58. OpenAI hat erklärt, dass es bei der Entwicklung von WebText Algorithmensätze namens Dragnet und Newspaper verwendet hat, um Text aus Websites zu extrahieren.[8] Nach bestem Wissen und Gewissen hat OpenAI diese beiden Extraktionsmethoden anstelle einer Methode verwendet, um Redundanzen zu schaffen, falls eine Methode einen Fehler aufweist oder in einem bestimmten Fall nicht richtig funktioniert. Die Anwendung zweier Methoden anstelle einer würde zu einem Trainingsset führen, das hinsichtlich der Art der enthaltenen Inhalte konsistenter ist, was aus Trainingsperspektive wünschenswert ist.
59. Die Algorithmen von Dragnet sind darauf ausgelegt, den „Hauptartikelinhalt“ von anderen Teilen der Website, einschließlich „Fußzeilen“ und „Copyright-Vermerken“, zu trennen und dem Extraktor nur das Erstellen weiterer Kopien des „Hauptartikelinhalts“ zu ermöglichen.[9] Dragnet ist außerdem nicht in der Lage, Angaben zu Autor und Titel aus der Kopfzeile oder der Autorenzeile zu extrahieren, und extrahiert diese nur, wenn sie zufällig separat im Hauptartikelinhalt enthalten sind. Anders ausgedrückt: Von Dragnet erstellte Kopien von Nachrichtenartikeln sind so konzipiert, dass sie weder Autor, Titel, Copyright-Vermerke noch Fußzeilen enthalten und enthalten derartige Angaben nur, wenn sie zufällig im Hauptartikelinhalt enthalten sind.
60. Wie Dragnet sind die Algorithmen von Newspaper nicht in der Lage, Copyright-Hinweise und Fußzeilen zu extrahieren. Darüber hinaus hat ein Benutzer von Newspaper die Wahl, ob er Autor- und Titelinformationen extrahieren möchte oder nicht. Nach bestem Wissen und Gewissen haben sich die OpenAI-Beklagten entschieden, keine Autor- und Titelinformationen zu extrahieren, da sie Konsistenz mit den Dragnet-Extraktionen wünschten und Dragnet normalerweise nicht in der Lage ist, Autor- und Titelinformationen zu extrahieren.
61. Durch die Anwendung der Dragnet- und Newspaper-Algorithmen beim Zusammenstellen des WebText-Datensatzes entfernten die OpenAI-Beklagten den Autor, den Titel, den Copyright-Vermerk und die Nutzungsbedingungen des Klägers. Letztere sind in den Fußzeilen der Websites des Klägers enthalten.
62. Nach bestem Wissen und Gewissen laden die OpenAI-Beklagten bei der Verwendung von Dragnet und Newspaper zunächst die entsprechende Webseite herunter und speichern sie, bevor sie Daten daraus extrahieren. Dies liegt zumindest daran, dass sie bei der Verwendung von Dragnet und Newspaper wahrscheinlich eine mögliche zukünftige Notwendigkeit zur Neugenerierung des Datensatzes (z. B. wenn der Datensatz beschädigt wird) vorhersehen und es billiger ist, eine Kopie zu speichern, als alle Daten erneut zu crawlen.
63. Da zum Zeitpunkt des Scrapings allgemein bekannt war, dass Dragnet und Newspaper Autor, Titel, Copyright-Vermerke und Fußzeilen entfernten, und da OpenAI hochqualifizierte Datenwissenschaftler beschäftigt, die wissen, wie Dragnet und Newspaper funktionieren, haben die Beklagten von OpenAI diese Copyright-Management-Informationen absichtlich und wissentlich entfernt, als sie WebText zusammengestellt haben.
64. Ein vom Anwalt des Klägers beschäftigter Datenwissenschaftler wendete den Dragnet-Code auf drei in OpenWebText enthaltene Reveal-URLs an. Die Ergebnisse sind als Anlage 4 beigefügt. Die resultierenden Kopien, deren Text inhaltlich mit dem Original identisch ist (z. B. identisch bis auf die scheinbar zufällige Hinzufügung eines zusätzlichen Leerzeichens zwischen zwei Wörtern oder den Wegfall einer Beschreibung, die mit einem eingebetteten Foto verknüpft ist), enthalten nicht die Informationen zu Autor, Titel, Copyright-Vermerk und Nutzungsbedingungen, mit denen sie der Öffentlichkeit übermittelt wurden, außer in einigen Fällen, in denen die Autoreninformationen zufällig im Hauptinhalt des Artikels enthalten waren. Der Dragnet-Code schlug fehl, als der Datenwissenschaftler versuchte, ihn auf Mother Jones-Artikel anzuwenden, was den Bedarf der OpenAI-Beklagten an den oben genannten Redundanzen weiter untermauerte.
65. Ein vom Anwalt des Klägers beschäftigter Datenwissenschaftler wendete den Newspaper-Code auch auf drei Mother Jones- und drei Reveal-URLs an, die in OpenWebText enthalten waren. Der Datenwissenschaftler wendete die Version des Codes an, die es dem Benutzer ermöglicht, keine Autoren- und Titelinformationen zu extrahieren, basierend auf der vernünftigen Annahme, dass die OpenAI-Beklagten Konsistenz mit den Dragnet-Extraktionen wünschten. Die Ergebnisse sind als Anlage 5 beigefügt. Den resultierenden Kopien, deren Text inhaltlich mit dem Original identisch ist, fehlen die Informationen zu Autor, Titel, Copyright-Hinweis und Nutzungsbedingungen, mit denen sie der Öffentlichkeit übermittelt wurden, außer in einigen Fällen, in denen die Autoreninformationen zufällig im Hauptinhalt des Artikels enthalten waren.
66. Das Fehlen von Angaben zu Autor, Titel, Copyright-Vermerk und Nutzungsbedingungen in den Kopien der Artikel des Klägers, die unter Anwendung der Dragnet- und Newspaper-Codes erstellt wurden – Codes, die OpenAI zugegebenermaßen beim Zusammenstellen von WebText absichtlich verwendet hat –, untermauert weiter, dass die Beklagten von OpenAI absichtlich Angaben zu Autor, Titel, Copyright-Vermerk und Nutzungsbedingungen aus den urheberrechtlich geschützten Nachrichtenartikeln des Klägers entfernt haben.
67. Nach bestem Wissen und Gewissen haben die OpenAI-Beklagten bei der Erstellung von Trainingssets für jede Version von ChatGPT seit GPT-2 weiterhin dieselben oder ähnliche Dragnet- und Newspaper-Textextraktionsmethoden verwendet. Dies liegt zumindest daran, dass die OpenAI-Beklagten zugegeben haben, diese Methoden für GPT-2 verwendet zu haben, und weder öffentlich deren Verwendung für spätere Versionen von ChatGPT dementiert noch öffentlich behauptet haben, für diese späteren Versionen andere Textextraktionsmethoden verwendet zu haben.
68. Das andere Repository, dessen Nutzung die OpenAI-Beklagten zugegeben haben, Common Crawl, ist ein von einem Dritten erstellter Scraping des größten Teils des Internets.
69. Um GPT-2 zu trainieren, lud OpenAI Common-Crawl-Daten von der Website des Drittanbieters herunter und filterte sie, um nur bestimmte Werke einzuschließen, beispielsweise solche, die auf Englisch verfasst sind.[10]
70. Google hat Anweisungen zur Replikation eines Datensatzes namens C4 veröffentlicht, einer monatlichen Momentaufnahme gefilterter Common Crawl-Daten, die Google zum Trainieren seiner eigenen KI-Modelle verwendet. Aufgrund der Ähnlichkeit der Ziele der Beklagten und Googles beim Trainieren von KI-Modellen ist C4 nach bestem Wissen und Gewissen den gefilterten Versionen von Common Crawl, die zum Trainieren von ChatGPT verwendet werden, im Wesentlichen ähnlich. Das Allen Institute for AI, ein gemeinnütziges Forschungsinstitut, das von Microsoft-Mitbegründer Paul Allen gegründet wurde, folgte den Anweisungen von Google und veröffentlichte seine Nachbildung von C4 online.[11]
71. Ein vom Anwalt des Klägers beschäftigter Datenwissenschaftler analysierte diese Nachbildung. Sie enthält 26.178 URLs, die von motherjones.com stammen. Die überwiegende Mehrheit dieser URLs enthält urheberrechtlich geschützte Nachrichtenartikel des Klägers. Keine enthält Informationen zu Nutzungsbedingungen. Keine enthält Informationen zu Urheberrechtshinweisen in Bezug auf urheberrechtlich geschützte Nachrichtenartikel des Klägers. In der Mehrheit fehlen auch Angaben zu Autor und Titel. In einigen Fällen sind die Artikel inhaltlich identisch, während in anderen eine kleine Anzahl von Absätzen fehlt.
72. Diese Nachbildung enthält außerdem 451 Artikel von revealnews.org . Die überwiegende Mehrheit dieser URLs enthält urheberrechtlich geschützte Nachrichtenartikel des Klägers. Keiner der Nachrichtenartikel enthält Urheberrechtshinweise oder Informationen zu Nutzungsbedingungen. In der Mehrzahl fehlen auch Angaben zu Autor und Titel. In einigen Fällen sind die Artikel inhaltlich identisch, während in anderen eine kleine Anzahl von Absätzen fehlt.
73. Als repräsentatives Beispiel ist der Text von drei Mother Jones- und drei Reveal-Artikeln, wie sie im C4-Satz erscheinen, als Anlage 6 beigefügt. Keiner dieser Artikel enthält den Autor, den Titel, den Copyright-Vermerk oder die Nutzungsbedingungen, mit denen sie der Öffentlichkeit zugänglich gemacht wurden.
74. Der Kläger hat den Beklagten weder eine Lizenz erteilt noch ihnen anderweitig gestattet, seine Werke in ihre Trainingssets aufzunehmen.
75. Das unbefugte Herunterladen von Zehntausenden von Artikeln des Klägers stellt eine Verletzung der Urheberrechte des Klägers dar, genauer gesagt des Rechts auf Kontrolle der Vervielfältigung urheberrechtlich geschützter Werke.
Lesen Sie hier weiter.
Über die HackerNoon Legal PDF Series: Wir bieten Ihnen die wichtigsten technischen und aufschlussreichsten Gerichtsakten im öffentlichen Bereich.
Dieser Gerichtsfall wurde am 27. Juni 2024 auf motherjones.com abgerufen und ist Teil der Public Domain. Die vom Gericht erstellten Dokumente sind Werke der Bundesregierung und werden gemäß dem Urheberrecht automatisch in die Public Domain gestellt und können ohne rechtliche Einschränkung weitergegeben werden.
[3] Der Kläger bezeichnet alle Versionen von ChatGPT zusammenfassend als „ChatGPT“, sofern nicht eine bestimmte Version angegeben ist.
[4] https://blogs.bing.com/search-quality-insights/february-2023/Building-the-New-Bing
[5] Alec Radford et al, Sprachmodelle sind unüberwachte Multitask-Lerner, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf .
[6] https://github.com/openai/gpt-2/blob/master/domains.txt .
[7] https://github.com/jcpeterson/openwebtext/blob/master/README.md.
[8] Alec Radford et al., Sprachmodelle sind unüberwachte Multitask-Lerner, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf.
[9] Matt McDonnell, Benchmarking von Python-Inhaltsextraktionsalgorithmen (29. Januar 2015), https://moz.com/devblog/benchmarking-python-content-extraction-algorithms-dragnetreadability-goose-and-eatiht.
[10] Tom B. Brown et al, Language Models are Few-Shot Learners, 14 (22. Juli 2020), https://arxiv.org/pdf/2005.14165.
[11] https://huggingface.co/datasets/allenai/c4.