Le dossier judiciaire du New York Times Company c. Microsoft Corporation du 27 décembre 2023 fait partie de la série PDF juridique de HackerNoon . Vous pouvez accéder à n'importe quelle partie de ce dossier ici . Ceci est la partie 10 sur 27.
82. Microsoft et OpenAI ont créé et distribué des reproductions du contenu du Times de plusieurs manières indépendantes au cours de la formation de leurs LLM et de l'exploitation des produits qui les intègrent.
1. Reproduction non autorisée des horaires de travail pendant la formation du modèle GPT
83. Les modèles GPT des accusés constituent une famille de LLM, dont le premier a été introduit en 2018, suivi du GPT-2 en 2019, du GPT-3 en 2020, du GPT-3.5 en 2022 et du GPT-4 en 2023. Le « Les LLM de style chat, GPT-3.5 et GPT-4, ont été développés en deux étapes. Tout d’abord, un modèle de transformateur a été pré-entraîné sur une très grande quantité de données. Deuxièmement, le modèle a été « affiné » sur un ensemble de données supervisées beaucoup plus petit afin de l’aider à résoudre des tâches spécifiques.
84. L'étape préalable à la formation impliquait la collecte et le stockage de contenu textuel pour créer des ensembles de données de formation et le traitement de ce contenu via les modèles GPT. Bien qu'OpenAI n'ait pas publié les versions entraînées de GPT-2, « en raison des préoccupations [d'OpenAI] concernant les applications malveillantes de la technologie », OpenAI a publié des informations générales sur son processus de pré-formation pour les modèles GPT. [12 ]
85. GPT-2 comprend 1,5 milliard de paramètres, ce qui représente une multiplication par 10 de GPT.[13] L'ensemble de données de formation pour GPT-2 comprend un corpus interne OpenAI construit appelé « WebText », qui comprend « le contenu textuel de 45 millions de liens publiés par les utilisateurs du réseau social « Reddit ». [14] Le contenu de l'ensemble de données WebText a été créé comme un « nouveau web scrape qui met l'accent sur la qualité des documents ».[15] L'ensemble de données WebText contient une quantité impressionnante de contenu récupéré du Times. Par exemple, le domaine NYTimes.com est l'un des « 15 premiers domaines en volume » dans l'ensemble de données WebText[16] et est répertorié comme le 5e « premier domaine » dans l'ensemble de données WebText avec 333 160 entrées.[17]
86. GPT-3 comprend 175 milliards de paramètres et a été formé sur les ensembles de données répertoriés dans le tableau ci-dessous.[18]
87. L'un de ces ensembles de données, WebText2, a été créé pour donner la priorité aux contenus de grande valeur. Comme le WebText original, il est composé de liens sortants populaires de Reddit. Comme le montre le tableau ci-dessus, le corpus WebText2 était pondéré à 22 % dans le mix de formation pour GPT-3, bien qu'il constitue moins de 4 % du total des jetons dans le mix de formation. Le contenu Times (un total de 209 707 URL uniques) représente 1,23 % de toutes les sources répertoriées dans OpenWebText2, une recréation open source de l'ensemble de données WebText2 utilisé dans la formation GPT-3. Comme le WebText original, OpenAI décrit WebText2 comme un ensemble de données « de haute qualité » qui est « une version étendue de l'ensemble de données WebText… collecté en grattant des liens sur une période de temps plus longue ».
88. L'ensemble de données le plus pondéré du GPT-3, Common Crawl, est une « copie d'Internet » mise à disposition par une organisation éponyme 501(c)(3) dirigée par de riches investisseurs en capital-risque.[20] Le domaine www.nytimes.com est la source propriétaire la plus représentée (et la troisième derrière Wikipédia et une base de données de documents de brevet américains) représentée dans un sous-ensemble filtré en langue anglaise d'un instantané de Common Crawl de 2019, représentant 100 millions. jetons (unités de base du texte): [21]
89. L’ensemble de données Common Crawl comprend au moins 16 millions d’enregistrements uniques de contenu du Times dans News, Cooking, Wirecutter et The Athletic, et plus de 66 millions d’enregistrements au total de contenu du Times.
90. De manière critique, OpenAI admet que « les ensembles de données que nous considérons comme de meilleure qualité sont échantillonnés plus fréquemment » pendant la formation.[22] En conséquence, de l'aveu même d'OpenAI, le contenu de haute qualité, y compris le contenu du Times, était plus important et plus précieux pour la formation des modèles GPT que le contenu provenant d'autres sources de moindre qualité.
91. Bien qu'OpenAI n'ait pas publié beaucoup d'informations sur GPT-4, les experts soupçonnent que GPT-4 comprend 1,8 billion de paramètres, soit plus de 10 fois plus grands que GPT-3, et a été formé sur environ 13 billions de jetons.[23] L'ensemble de formation pour GPT-3, GPT-3.5 et GPT-4 comprenait 45 téraoctets de données, soit l'équivalent d'un document Microsoft Word de plus de 3,7 milliards de pages. [24] Entre les ensembles de données Common Crawl, WebText et WebText2, les défendeurs ont probablement utilisé l'intégralité de millions d'ouvrages appartenant au Times afin de former les modèles GPT.
92. Les accusés ont copié à plusieurs reprises cette masse de contenus protégés par le droit d'auteur du Times, sans aucune licence ni autre compensation pour le Times. Dans le cadre de la formation des modèles GPT, Microsoft et OpenAI ont collaboré pour développer un système de calcul intensif complexe et sur mesure pour héberger et reproduire des copies de l'ensemble de données de formation, y compris des copies du contenu appartenant au Times. Des millions de fois les œuvres ont été copiées et ingérées – à plusieurs reprises – dans le but de « former » les modèles GPT des accusés.
93. Sur la base d'informations et de convictions, Microsoft et OpenAI ont agi conjointement dans la copie à grande échelle du matériel du Times impliqué dans la génération des modèles GPT programmés pour imiter avec précision le contenu et les auteurs du Times. Microsoft et OpenAI ont collaboré à la conception des modèles GPT, à la sélection des ensembles de données de formation et à la supervision du processus de formation. Comme l'a déclaré M. Nadella :
Il y a donc beaucoup de choix de conception de produits, comme je l’appelle, à faire lorsque l’on pense à l’IA et à la sécurité de l’IA. Alors, revenons aux choses autrement. Vous devez vraiment prendre soin des données pré-entraînées, car les modèles sont formés sur des données pré-entraînées. Quelle est la qualité, la provenance de ces données pré-entraînées ? C'est un endroit où nous avons fait beaucoup de travail.[25]
94. Dans la mesure où Microsoft n’a pas sélectionné les œuvres utilisées pour former les modèles GPT, elle a agi dans le cadre d’un « partenariat » autoproclamé avec OpenAI dans le respect de cette sélection, connaissait ou était volontairement aveugle à l’identité des œuvres sélectionnées en vertu de son connaissance de la nature et de l'identité des corpus de formation et des critères de sélection utilisés par OpenAI, et/ou avait le droit et la capacité d'empêcher OpenAI d'utiliser un travail particulier pour la formation en vertu de son contrôle physique sur le supercalculateur qu'il a développé à cet effet et son influence juridique et financière sur les défendeurs OpenAI.
95. Sur la base d'informations et de convictions, Microsoft et OpenAI continuent de créer des copies non autorisées de Times Works sous la forme de résultats de recherche synthétiques renvoyés par leurs produits Bing Chat et Browse with Bing. Microsoft rassemble activement des copies du Times Works utilisées pour générer de tels résultats lors du processus d'exploration du Web afin de créer l'index de son moteur de recherche Bing.
96. D'après des informations et des convictions, Microsoft et OpenAI commencent actuellement ou commenceront sous peu à faire des copies supplémentaires de Times Works pour former et/ou affiner le LLM GPT-5 de nouvelle génération.
97. L'exploitation commerciale à grande échelle du contenu du Times par les défendeurs n'est pas autorisée et les défendeurs n'ont pas non plus reçu l'autorisation du Times de copier et d'utiliser ses œuvres pour créer leurs outils GenAI.
Continuez la lecture ici .
[12] OpenAI, Better Language Models and Their Implications, OPENAI (14 février 2019), https://openai.com/research/better-langage-models.
[13] Id.
[14] Carte modèle GPT-2, GITHUB (novembre 2019), https://github.com/openai/gpt-2/blob/master/model_card.md.
[15] RADFORD ET AL., LES MODÈLES DE LANGAGE SONT DES APPRENANTS MULTITÂCHES NON SUPERVISÉS 3 (2018), https://d4mucfpksywv.cloudfront.net/better-langage-models/langage-models.pdf.
[16] Carte modèle GPT-2, supra note 14.
[17] GPT-2 / domains.txt, GITHUB, https://github.com/openai/gpt-2/blob/master/domains.txt (dernière visite le 21 décembre 2023).
[18] BROWN ET AL., LES MODÈLES DE LANGUE SONT DES APPRENANTS À QUELQUES COUPS 9 (2020), https://arxiv.org/pdf/2005.14165.pdf.
[19] Ident. à 8.
[20] COMMON CRAWL, https://commoncrawl.org/ (dernière visite le 21 décembre 2023).
[21] DODGE ET AL., DOCUMENTATION DE GRANDS CORPORA WEBTEXT : UNE ÉTUDE DE CAS SUR LE CORPUS COLOSSAL CLEAN CRAWLED (2021), https://arxiv.org/abs/2104.08758.
[22] BROWN ET AL., supra note 18.
[23] Maximilian Schreiner, GPT-4 Architecture, Datasets, Costs and More Leaked, THE DECODER (11 juillet 2023), https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more -fuite/.
[24] Kindra Cooper, OpenAI GPT-3 : Tout ce que vous devez savoir [Mise à jour], SPRINGBOARD (27 septembre 2023), https://www.springboard.com/blog/data-science/machine-learning-gpt -3-open-ai/.
[25] Nilay Patel, Microsoft pense que l'IA peut battre Google en matière de recherche — Le PDG Satya Nadella explique pourquoi, THE VERGE (7 février 2023), https://www.theverge.com/23589994/microsoft-ceo-satya-nadella -bing-chatgpt-googlesearch-ai.
À propos de la série PDF juridique de HackerNoon : Nous vous proposons les dossiers judiciaires techniques et perspicaces les plus importants du domaine public.
Cette affaire judiciaire 1:23-cv-11195 récupérée le 29 décembre 2023 sur nycto-assets.nytimes.com fait partie du domaine public. Les documents créés par le tribunal sont des œuvres du gouvernement fédéral et, en vertu de la loi sur le droit d'auteur, sont automatiquement placés dans le domaine public et peuvent être partagés sans restriction légale.