Le dossier judiciaire du New York Times Company c. Microsoft Corporation du 27 décembre 2023 fait partie de la série PDF juridique de HackerNoon . Vous pouvez accéder à n'importe quelle partie de ce dossier ici . Ceci est la partie 8 sur 27.
1. Un modèle économique basé sur la violation massive du droit d’auteur
55. OpenAI a été créée en décembre 2015 en tant que « société de recherche en intelligence artificielle à but non lucratif ». OpenAI a démarré avec 1 milliard de dollars de capital d'amorçage provenant de ses fondateurs, un groupe composé de certains des entrepreneurs et investisseurs technologiques les plus riches et d'entreprises comme Amazon Web Services et InfoSys. Ce groupe comprenait Elon Musk, PDG de Tesla et X Corp. (anciennement connu sous le nom de Twitter) ; Reid Hoffman, co-fondateur de LinkedIn ; Sam Altman, l'ancien président de Y Combinator ; et Greg Brockman, l'ancien directeur de la technologie de Stripe.
56. Bien qu’à sa création, OpenAI ait accepté des investissements très importants de la part d’entreprises et de particuliers extrêmement riches, OpenAI affirmait à l’origine que ses recherches et ses travaux ne seraient absolument pas motivés par le profit. Dans un communiqué de presse du 11 décembre 2015, Brockman et la co-fondatrice Lya Sutskever (maintenant respectivement présidente et scientifique en chef d'OpenAI) ont écrit : « Notre objectif est de faire progresser l'intelligence numérique de la manière la plus susceptible de bénéficier à l'humanité dans son ensemble. , sans contrainte par la nécessité de générer un rendement financier. Puisque nos recherches sont libres d’obligations financières, nous pouvons mieux nous concentrer sur un impact humain positif. Conformément à cette mission, OpenAI a promis que ses travaux et sa propriété intellectuelle seraient ouverts et accessibles au public, que ses « [r]echercheurs seraient fortement encouragés à publier leurs travaux, que ce soit sous forme d'articles, de billets de blog ou de code » et que ses « brevets (le cas échéant) seront partagés avec le monde ».
57. Malgré ses premières promesses d’altruisme, OpenAI est rapidement devenue une entreprise à but lucratif de plusieurs milliards de dollars, bâtie en grande partie sur l’exploitation sans licence d’œuvres protégées par le droit d’auteur appartenant au Times et à d’autres. Trois ans seulement après sa création, OpenAI a abandonné son statut exclusivement à but non lucratif. Elle a créé OpenAI LP en mars 2019, une société à but lucratif dédiée à diriger la part du lion des opérations d'OpenAI, y compris le développement de produits, et à lever des capitaux auprès d'investisseurs en quête de rendement. La structure d'entreprise d'OpenAI s'est transformée en un réseau complexe de sociétés de portefeuille, d'exploitation et écrans à but lucratif qui gèrent les opérations quotidiennes d'OpenAI et accordent aux investisseurs d'OpenAI (surtout Microsoft) l'autorité et l'influence sur les opérations d'OpenAI, tout en levant des milliards. capitaux des investisseurs. Le résultat : OpenAI est aujourd’hui une entreprise commerciale évaluée à 90 milliards de dollars, avec des revenus qui devraient dépasser 1 milliard de dollars en 2024.
58. Avec la transition vers le statut d’entreprise à but lucratif, un autre changement s’est produit : OpenAI a également mis fin à son
engagement envers l’ouverture. OpenAI a publié les deux premières itérations de son modèle phare GenAI,
GPT-1 et GPT-2, sur une base open source en 2018 et 2019, respectivement. Mais OpenAI a changé
cours en 2020, en commençant par la sortie de GPT-3 peu de temps après OpenAI LP et d'autres organismes à but lucratif
Des entités OpenAI ont été créées et ont pris le contrôle de la conception et du développement des produits.
59. GPT-3.5 et GPT-4 sont tous deux bien plus puissants que les deux générations précédentes, mais les accusés ont gardé leur conception et leur formation entièrement secrètes. Pour les générations précédentes, OpenAI disposait de rapports volumineux détaillant le contenu de l'ensemble de formation, la conception et le matériel des LLM. Ce n’est pas le cas pour GPT-3.5 ou GPT-4. Pour GPT-4, par exemple, le « rapport technique » publié par OpenAI disait : « ce rapport ne contient aucun autre détail sur l'architecture (y compris la taille du modèle), le matériel, le calcul de formation, la construction d'un ensemble de données, la méthode de formation ou similaire. » 3]
60. Sutskever, scientifique en chef d'OpenAI, a justifié ce secret par des raisons commerciales : « C'est compétitif là-bas…. Et de nombreuses entreprises veulent faire la même chose, donc du point de vue de la concurrence, vous pouvez voir cela comme une maturation du domaine. » [4] Mais son effet a été de dissimuler l’identité des données copiées par OpenAI pour former ses dernières nouveautés. modèles d’ayants droit comme le Times.
61. OpenAI est devenu un nom connu lors de la sortie de ChatGPT en novembre 2022. ChatGPT est un chatbot générateur de texte qui, compte tenu des invites générées par l'utilisateur, peut imiter les réponses humaines en langage naturel. ChatGPT a été une sensation virale instantanée, atteignant un million d'utilisateurs dans le mois suivant sa sortie et gagnant plus de 100 millions d'utilisateurs dans les trois mois.
62. OpenAI, par l'intermédiaire d'OpenAI OpCo LLC et sous la direction d'OpenAI Inc., OpenAI LP et d'autres entités OpenAI, propose une suite de services alimentés par ses LLM, destinés à la fois aux consommateurs ordinaires et aux entreprises. Une version de ChatGPT optimisée par GPT-3.5 est disponible gratuitement pour les utilisateurs. OpenAI propose également un service premium, alimenté par le « modèle le plus performant » d'OpenAI, GPT-4, aux consommateurs pour 20 $ par mois. Les offres d'OpenAI axées sur les entreprises incluent les outils API ChatGPT Enterprise et ChatGPT conçus pour permettre aux développeurs d'intégrer ChatGPT dans des applications sur mesure. OpenAI concède également sa technologie sous licence à des entreprises clientes moyennant des frais de licence.
63. Ces offres commerciales ont été extrêmement précieuses pour OpenAI. Plus de 80 % des entreprises Fortune 500 utilisent ChatGPT.[5] Selon des rapports récents, OpenAI génère des revenus de 80 millions de dollars par mois et est en passe de dépasser le milliard de dollars au cours des 12 prochains mois.[6]
64. Ce succès commercial repose en grande partie sur la violation à grande échelle du droit d'auteur par OpenAI. L'une des caractéristiques centrales qui déterminent l'utilisation et les ventes de ChatGPT et de ses produits associés est la capacité du LLM à produire du texte en langage naturel dans une variété de styles. Pour parvenir à ce résultat, OpenAI a réalisé de nombreuses reproductions d’œuvres protégées par le droit d’auteur appartenant au Times au cours de la « formation » du LLM.
65. Sur la base d'informations et de convictions, tous les défendeurs d'OpenAI ont été soit directement impliqués, soit ont dirigé, contrôlé et profité de la violation généralisée et de l'exploitation commerciale de Times Works par OpenAI. OpenAI Inc., aux côtés de Microsoft, a contrôlé et dirigé la reproduction, la distribution et l'utilisation commerciale à grande échelle du matériel du Times perpétrées par OpenAI LP et OpenAI Global LLC, par l'intermédiaire d'une série de sociétés holding et écrans qui comprennent OpenAI Holdings LLC, OpenAI GP LLC, et OAI Corporation LLC. OpenAI LP et OpenAI Global LLC étaient directement impliqués dans la conception, le développement et la commercialisation des produits basés sur GPT d'OpenAI, et directement engagés dans la reproduction, la distribution et l'utilisation commerciale à grande échelle de Times Works. OpenAI LP et OpenAI Global LLC contrôlaient et dirigeaient également OpenAI, LLC et OpenAI OpCo LLC, qui étaient impliquées dans la distribution, la vente et l'octroi de licences pour les produits basés sur GPT d'OpenAI, et ont ainsi monétisé la reproduction, la distribution et l'utilisation commerciale de Times Works.
66. Depuis au moins 2019, Microsoft a été et continue d'être étroitement impliqué dans la formation, le développement et la commercialisation des produits GPT d'OpenAI. Dans une interview avec le Wall Street Journal lors du Forum économique mondial 2023, le PDG de Microsoft, Satya Nadella, a déclaré que « la famille de modèles ChatGPT et GPT… est quelque chose avec lequel nous sommes étroitement associés à OpenAI depuis plusieurs années ». Grâce à ce partenariat, Microsoft a participé à la création et à la commercialisation de LLM GPT et de produits basés sur ceux-ci d'au moins deux manières.
67. Premièrement, Microsoft a créé et exploité des systèmes informatiques sur mesure pour exécuter la violation massive du droit d'auteur détaillée ici. Ces systèmes ont été utilisés pour créer de multiples reproductions de la propriété intellectuelle du Times dans le but de créer des modèles GPT qui exploitent et, dans de nombreux cas, conservent de grandes parties de l'expression protégée par le droit d'auteur contenue dans ces œuvres.
68. Microsoft est le seul fournisseur de cloud computing pour OpenAI. Microsoft et OpenAI ont collaboré pour concevoir les systèmes de calcul intensif alimentés par la plate-forme informatique cloud Azure de Microsoft, qui ont été utilisés pour entraîner tous les modèles GPT d'OpenAI après GPT-1. Dans un discours prononcé en juillet 2023 lors de la conférence Microsoft Inspire, M. Nadella a déclaré : « Nous avons construit l'infrastructure pour former leurs modèles. Ils innovent sur les algorithmes et la formation de ces modèles frontières.
69. Cette infrastructure n’était pas simplement constituée de systèmes informatiques à usage général qu’OpenAI pouvait utiliser comme bon lui semblait. Microsoft l'a spécialement conçu dans le but d'utiliser essentiellement l'ensemble d'Internet, conçu pour présenter de manière disproportionnée Times Works, afin de former le LLM le plus compétent de l'histoire. Dans une interview de février 2023, M. Nadella a déclaré :
Mais derrière ce qu'OpenAI propose en tant que grands modèles, rappelez-vous :
le gros du travail a été fait par l'équipe [Microsoft] Azure pour créer
l'infrastructure informatique. Parce que ces charges de travail sont tellement
différent de tout ce qui a précédé. Il nous fallait donc
repenser complètement même le datacenter jusqu'à l'infrastructure qui
nous a d'abord donné une chance de construire les modèles. Et maintenant nous sommes
traduire les modèles en produits.[7]
70. Microsoft a construit ce supercalculateur « en collaboration avec et exclusivement pour OpenAI » et « [l'a] conçu spécifiquement pour entraîner les modèles d'IA de cette entreprise. »[8] Même selon les normes du supercalculateur, il était inhabituellement complexe. Selon Microsoft, il fonctionnait comme « un système unique avec plus de 285 000 cœurs de processeur, 10 000 GPU et 400 gigabits par seconde de connectivité réseau pour chaque serveur GPU ». Ce système se classe parmi les cinq systèmes de calcul intensif les plus puissants au monde.
71. Pour garantir que le système de calcul intensif répondait aux besoins d'OpenAI, Microsoft devait tester le système, à la fois indépendamment et en collaboration avec les ingénieurs logiciels d'OpenAI. Selon M. Nadella, en ce qui concerne OpenAI : « Ils créent les modèles de base, et nous [Microsoft] faisons beaucoup de travail autour d'eux, y compris les outils autour de l'IA responsable et de la sécurité de l'IA. » Sur la base d'informations et de convictions, de tels « outils autour de l'IA et de la sécurité de l'IA » impliquent le réglage et l'étalonnage des produits basés sur GPT avant leur diffusion au public.[9]
72. En collaboration avec OpenAI, Microsoft a également commercialisé la technologie GPT d'OpenAI et l'a combinée avec son propre index de recherche Bing. En février 2023, Microsoft a dévoilé Bing Chat, une fonctionnalité de chatbot génératif d'IA sur son moteur de recherche alimenté par GPT-4. En mai 2023, Microsoft et OpenAI ont dévoilé « Browse with Bing », un plugin pour ChatGPT qui lui permettait d'accéder aux derniers contenus sur Internet via le moteur de recherche Microsoft Bing. Bing Chat et Browse with Bing combinent la capacité de GPT-4 à imiter l'expression humaine, y compris celle du Times, avec la capacité de générer des résumés en langage naturel du contenu des résultats de recherche, y compris les appels sur Times Works, qui évitent d'avoir à visiter les propres sites Web du Times. . Ces résultats de recherche « synthétiques » prétendent répondre directement aux requêtes des utilisateurs et peuvent inclure de nombreuses paraphrases et des citations directes des reportages du Times. Une telle copie maintient l'engagement avec les propres sites et applications des accusés au lieu de renvoyer les utilisateurs vers le Times de la même manière que les listes organiques de résultats de recherche.
73. Dans une récente interview, M. Nadella a reconnu l'implication intime de Microsoft dans les opérations d'OpenAI et, par conséquent, sa violation du droit d'auteur :
[N]ous avions très confiance en nos propres capacités. Nous avons tous les droits de propriété intellectuelle et toutes les capacités. Si OpenAI disparaissait demain, je ne veux pas qu'aucun de nos clients s'en inquiète en toute honnêteté, car nous avons tous les droits pour continuer l'innovation. Pas seulement pour servir le produit, mais nous pouvons simplement faire nous-mêmes ce que nous faisions en partenariat. Nous avons les gens, nous avons le calcul, nous avons les données, nous avons tout.
74. Grâce à leur collaboration à la fois dans la création et la commercialisation des modèles GPT, les défendeurs ont profité de la violation massive du droit d'auteur, de l'exploitation commerciale et du détournement de la propriété intellectuelle du Times. Comme l’a récemment dit M. Nadella : « [OpenAI] parie sur nous, nous parions sur eux ». Il a poursuivi en décrivant l'effet de l'investissement de 13 milliards de dollars de Microsoft :
Et cela nous donne des droits importants, comme je l'ai dit. Et aussi cette chose, ce n'est pas sans intervention, n'est-ce pas ? Nous sommes là-dedans. Nous sommes en dessous d’eux, au-dessus d’eux, autour d’eux. Nous effectuons les optimisations du noyau, nous construisons des outils, nous construisons l'infrastructure. C'est pourquoi je pense que beaucoup d'analystes industriels disent : « Oh wow, c'est vraiment un projet commun entre Microsoft et OpenAI. » La réalité est que nous sommes, comme je l'ai dit, très autosuffisants dans tout cela.
Continuez la lecture ici .
[3] OPENAI, RAPPORT TECHNIQUE GPT-4 (2023), https://cdn.openai.com/papers/gpt-4.pdf.
[4] James Vincent, co-fondateur d'OpenAI sur l'approche passée de l'entreprise en matière de partage ouvert de la recherche : « Nous avions tort », THE VERGE (15 mars 2023), https://www.theverge.com/2023/3/15 /23640180/openai-gpt-4-launch-closedresearch-ilya-sutskever-interview.
[5] OpenAI, Présentation de ChatGPT Enterprise, OPENAI (28 août 2023), https://openai.com/blog/introducing-chatgpt-enterprise.
[6] Chris Morris, OpenAI aurait près d'un milliard de dollars de ventes annuelles, FAST COMPANY (30 août 2023), https://www.fastcompany.com/90946849/openai-chatgpt-reportedly-nears-1-billion-annual -ventes.
[7] Première sur CNBC : Transcription CNBC : Le PDG de Microsoft, Satya Nadella, s'entretient avec Jon Fortt de CNBC sur
« Power Lunch » aujourd'hui, CNBC (7 février 2023), https://www.cnbc.com/2023/02/07/first-on-cnbc-cnbc-transcriptmicrosoft-ceo-satya-nadella-speaks-with -cnbcs-jon-fortt-on-power-lunch-today.html.
[8] Jennifer Langston, Microsoft annonce un nouveau superordinateur et présente sa vision des futurs travaux sur l'IA, MICROSOFT (19 mai 2020), https://news.microsoft.com/source/features/ai/openai-azure-supercomputer/. 9 SÉBASTIEN BUBECK ET AL., ÉTINCELLES D'INTELLIGENCE GÉNÉRALE ARTIFICIELLE : PREMIÈRES EXPÉRIENCES AVEC GPT-4 (2023), https://arxiv.org/pdf/2303.12712.pdf
À propos de la série PDF juridique de HackerNoon : Nous vous proposons les dossiers judiciaires techniques et perspicaces les plus importants du domaine public.
Cette affaire judiciaire 1:23-cv-11195 récupérée le 29 décembre 2023 sur nycto-assets.nytimes.com fait partie du domaine public. Les documents créés par le tribunal sont des œuvres du gouvernement fédéral et, en vertu de la loi sur le droit d'auteur, sont automatiquement placés dans le domaine public et peuvent être partagés sans restriction légale.