Le dossier judiciaire du Center for Investigative Reporting Inc. c. OpenAI, récupéré le 27 juin 2024, fait partie de la série de PDF juridiques de HackerNoon . Vous pouvez accéder à n'importe quelle partie de ce dossier ici . Cette partie est la 5e sur 18.
46. OpenAI a été créée en décembre 2015 en tant que « société de recherche en intelligence artificielle à but non lucratif », mais est rapidement devenue une entreprise à but lucratif de plusieurs milliards de dollars, fondée sur l’exploitation d’œuvres protégées par le droit d’auteur appartenant à des créateurs du monde entier, dont CIR. Contrairement à =CIR, OpenAI a abandonné son statut exclusif d’organisme à but non lucratif seulement trois ans après sa fondation et a créé OpenAI LP en mars 2019, une société à but lucratif dédiée à ses activités à but lucratif, notamment le développement de produits et la levée de capitaux auprès d’investisseurs.
47. Les produits GenAI des défendeurs utilisent un « grand modèle de langage » ou « LLM ». Les différentes versions de GPT sont des exemples de LLM. Un LLM, y compris ceux qui alimentent ChatGPT et Copilot, prend des invites de texte comme entrées et émet des sorties pour prédire les réponses susceptibles de suivre un modèle donné parmi les milliards d'exemples d'entrée potentiellement utilisés pour l'entraîner.
48. Les LLM parviennent à leurs résultats grâce à leur formation sur des œuvres écrites par des humains, qui sont souvent protégées par le droit d'auteur. Ils rassemblent ces exemples dans des ensembles de formation.
49. Lors de l’assemblage des ensembles de formation, les créateurs de LLM, y compris les défendeurs, identifient d’abord les œuvres qu’ils souhaitent inclure. Ils codent ensuite l’œuvre dans la mémoire de l’ordinateur sous forme de nombres appelés « paramètres ».
50. Les défendeurs n'ont pas publié le contenu des ensembles d'entraînement utilisés pour entraîner une quelconque version de ChatGPT, mais ont divulgué des informations sur ces ensembles d'entraînement avant GPT-4.[3] À partir de GPT-4, les défendeurs ont gardé le secret sur les ensembles d'entraînement utilisés pour entraîner cette version et les versions ultérieures de ChatGPT. Les allégations du demandeur concernant les ensembles d'entraînement des défendeurs sont donc fondées sur un examen approfondi des informations accessibles au public concernant les versions antérieures de ChatGPT et sur des consultations avec un scientifique des données employé par l'avocat du demandeur pour analyser ces informations et fournir des informations sur la manière dont l'IA est développée et fonctionne.
51. Microsoft a créé son propre produit d'intelligence artificielle, appelé Copilot, qui utilise la technologie Prometheus de Microsoft. Prometheus combine le produit de recherche Bing avec les modèles GPT des défendeurs OpenAI dans un composant appelé Bing Orchestrator. Lorsqu'il y est invité, Copilot répond aux requêtes des utilisateurs à l'aide de Bing Orchestrator en fournissant des abréviations ou des régurgitations réécrites par l'IA du contenu trouvé sur Internet.[4]
52. Les versions antérieures de ChatGPT (antérieures à GPT-4) ont été formées à l'aide d'au moins les ensembles de formation suivants : WebText, WebText2 et des ensembles dérivés de Common Crawl.
53. WebText et WebText2 ont été créés par les défendeurs d’OpenAI. Il s’agit d’un ensemble de liens sortants sur le site Web Reddit qui ont reçu au moins trois « karma ». [5] Sur Reddit, un karma indique que les utilisateurs ont généralement approuvé le lien. La différence entre les ensembles de données est que WebText2 impliquait le scraping de liens depuis Reddit sur une période plus longue. Ainsi, WebText2 est une version étendue de WebText.
54. Les défendeurs d'OpenAI ont publié une liste des 1 000 principaux domaines Web présents dans l'ensemble d'apprentissage WebText et leur fréquence. Selon cette liste, 16 793 URL distinctes du domaine Web de Mother Jones apparaissent dans WebText.[6]
55. Les défendeurs ont un enregistrement et sont conscients de chaque URL incluse dans chacun de leurs ensembles de formation.
56. Joshua C. Peterson, actuellement professeur adjoint à la Faculté d’informatique et de sciences des données de l’Université de Boston, et deux scientifiques cognitivistes informatiques titulaires d’un doctorat de l’Université de Californie à Berkeley, ont créé une approximation de l’ensemble de données WebText, appelé OpenWebText, en récupérant également les liens sortants de Reddit qui ont reçu au moins trois « karma », tout comme les défendeurs d’OpenAI l’ont fait en créant WebText.[7] Ils ont publié les résultats en ligne. Un scientifique des données employé par l’avocat du demandeur a ensuite analysé ces résultats. OpenWebText contient 17 019 URL distinctes de motherjones.com et 415 de revealnews.org. Une liste des œuvres de Mother Jones contenues dans OpenWebText est jointe en tant que pièce 2. Une liste des œuvres de Reveal contenues dans OpenWebText est jointe en tant que pièce 3.
57. D'après les informations et les croyances, il existe un nombre légèrement différent d'articles de Mother Jones dans WebText et OpenWebText, au moins en partie parce que les grattages ont eu lieu à des dates différentes.
58. OpenAI a expliqué que, lors du développement de WebText, elle a utilisé des ensembles d'algorithmes appelés Dragnet et Newspaper pour extraire le texte des sites Web.[8] Sur la base d'informations et de convictions, OpenAI a utilisé ces deux méthodes d'extraction, plutôt qu'une seule, pour créer des redondances au cas où l'une des méthodes rencontrerait un bug ou ne fonctionnerait pas correctement dans un cas donné. L'application de deux méthodes plutôt qu'une seule conduirait à un ensemble d'apprentissage plus cohérent dans le type de contenu qu'il contient, ce qui est souhaitable du point de vue de l'apprentissage.
59. Les algorithmes de Dragnet sont conçus pour « séparer le contenu principal de l'article » des autres parties du site Web, y compris les « pieds de page » et les « mentions de droits d'auteur », et permettent à l'extracteur de faire d'autres copies uniquement du « contenu principal de l'article ». [9] Dragnet est également incapable d'extraire les informations sur l'auteur et le titre de l'en-tête ou de la signature, et les extrait uniquement si elles se trouvent être contenues séparément dans le contenu principal de l'article. En d'autres termes, les copies d'articles de presse réalisées par Dragnet sont conçues pour ne pas contenir d'auteur, de titre, de mentions de droits d'auteur et de pieds de page, et ne contiennent pas de telles informations à moins qu'elles ne se trouvent contenues dans le contenu principal de l'article.
60. Comme Dragnet, les algorithmes de Newspaper ne sont pas capables d’extraire les mentions de droits d’auteur et les pieds de page. De plus, un utilisateur de Newspaper a le choix d’extraire ou non les informations sur l’auteur et le titre. Sur la base d’informations et de convictions, les défendeurs d’OpenAI ont choisi de ne pas extraire les informations sur l’auteur et le titre parce qu’ils souhaitaient une cohérence avec les extractions de Dragnet, et Dragnet est généralement incapable d’extraire les informations sur l’auteur et le titre.
61. En appliquant les algorithmes Dragnet et Newspaper lors de l'assemblage de l'ensemble de données WebText, les défendeurs d'OpenAI ont supprimé l'auteur, le titre, l'avis de droit d'auteur et les conditions d'utilisation du demandeur, ces dernières étant contenues dans les pieds de page des sites Web du demandeur.
62. Sur la base d'informations et de convictions, les défendeurs d'OpenAI, lorsqu'ils utilisent Dragnet et Newspaper, téléchargent et enregistrent d'abord la page Web concernée avant d'en extraire les données. Cela est dû au fait que, lorsqu'ils utilisent Dragnet et Newspaper, ils anticipent probablement un éventuel besoin futur de régénérer l'ensemble de données (par exemple, si l'ensemble de données est corrompu), et il est moins coûteux d'enregistrer une copie que de réexplorer toutes les données.
63. Étant donné qu'au moment de leur suppression, Dragnet et Newspaper étaient connus du public pour supprimer l'auteur, le titre, les mentions de droits d'auteur et les pieds de page, et étant donné qu'OpenAI emploie des scientifiques de données hautement qualifiés qui savent comment fonctionnent Dragnet et Newspaper, les défendeurs d'OpenAI ont intentionnellement et sciemment supprimé ces informations de gestion des droits d'auteur lors de l'assemblage de WebText.
64. Un scientifique des données employé par l'avocat du demandeur a appliqué le code Dragnet à trois URL Reveal contenues dans OpenWebText. Les résultats sont joints en tant que pièce 4. Les copies obtenues, dont le texte est substantiellement identique à l'original (par exemple, identique à l'exception de l'ajout apparemment aléatoire d'un espace supplémentaire entre deux mots, ou de l'exclusion d'une description associée à une photo intégrée), ne comportent pas les informations sur l'auteur, le titre, la mention de droit d'auteur et les conditions d'utilisation avec lesquelles elles ont été transmises au public, sauf dans certains cas où les informations sur l'auteur se trouvaient contenues dans le contenu principal de l'article. Le code Dragnet a échoué lorsque le scientifique des données a tenté de l'appliquer aux articles de Mother Jones, corroborant davantage le besoin des défendeurs d'OpenAI de procéder à des redondances mentionnées ci-dessus.
65. Un scientifique des données employé par l'avocat du demandeur a également appliqué le code Newspaper à trois URL Mother Jones et trois URL Reveal contenues dans OpenWebText. Le scientifique des données a appliqué la version du code qui permet à l'utilisateur de ne pas extraire les informations sur l'auteur et le titre en se basant sur l'hypothèse raisonnable que les défendeurs d'OpenAI souhaitaient une cohérence avec les extractions de Dragnet. Les résultats sont joints en tant que pièce 5. Les copies obtenues, dont le texte est substantiellement identique à l'original, ne comportent pas les informations sur l'auteur, le titre, la mention de droit d'auteur et les conditions d'utilisation avec lesquelles elles ont été transmises au public, sauf dans certains cas où les informations sur l'auteur se trouvaient être contenues dans le contenu principal de l'article.
66. L'absence d'informations sur l'auteur, le titre, l'avis de droit d'auteur et les conditions d'utilisation des copies des articles du demandeur générées en appliquant les codes Dragnet et Newspaper (codes qu'OpenAI a admis avoir intentionnellement utilisés lors de l'assemblage de WebText) corrobore en outre le fait que les défendeurs d'OpenAI ont intentionnellement supprimé les informations sur l'auteur, le titre, l'avis de droit d'auteur et les conditions d'utilisation des articles de presse protégés par le droit d'auteur du demandeur.
67. Sur la base d'informations et de convictions, les défendeurs d'OpenAI ont continué à utiliser les mêmes méthodes ou des méthodes similaires d'extraction de texte Dragnet et Newspaper lors de la création d'ensembles d'entraînement pour chaque version de ChatGPT depuis GPT-2. Cela est dû au fait que les défendeurs d'OpenAI ont admis avoir utilisé ces méthodes pour GPT-2 et n'ont ni publiquement nié leur utilisation pour les versions ultérieures de ChatGPT ni publiquement déclaré avoir utilisé d'autres méthodes d'extraction de texte pour ces versions ultérieures.
68. L’autre référentiel que les défendeurs d’OpenAI ont admis utiliser, Common Crawl, est un extrait de la majeure partie d’Internet créé par un tiers.
69. Pour former GPT-2, OpenAI a téléchargé les données Common Crawl à partir du site Web du tiers et les a filtrées pour n'inclure que certaines œuvres, telles que celles écrites en anglais.[10]
70. Google a publié des instructions sur la façon de reproduire un ensemble de données appelé C4, un instantané mensuel de données Common Crawl filtrées que Google a utilisées pour former ses propres modèles d'IA. D'après les informations et les convictions, basées sur la similitude des objectifs des défendeurs et de Google dans la formation des modèles d'IA, C4 est sensiblement similaire aux versions filtrées de Common Crawl utilisées pour former ChatGPT. L'Allen Institute for AI, un institut de recherche à but non lucratif lancé par le cofondateur de Microsoft Paul Allen, a suivi les instructions de Google et publié sa recréation de C4 en ligne.[11]
71. Un spécialiste des données employé par l'avocat du demandeur a analysé cette reconstitution. Elle contient 26 178 URL provenant de motherjones.com . La grande majorité de ces URL contiennent des articles de presse protégés par le droit d'auteur du demandeur. Aucune ne contient d'informations sur les conditions d'utilisation. Aucune ne contient d'informations sur les avis de droits d'auteur concernant les articles de presse protégés par le droit d'auteur du demandeur. La majorité d'entre eux manquent également d'informations sur l'auteur et le titre. Dans certains cas, les articles sont substantiellement identiques, tandis que dans d'autres, un petit nombre de paragraphes sont omis.
72. Cette reconstitution contient également 451 articles provenant de revealnews.org . La grande majorité de ces URL contiennent des articles de presse protégés par le droit d'auteur du demandeur. Aucun de ces articles ne contient d'avis de droit d'auteur ni d'informations sur les conditions d'utilisation. La majorité d'entre eux ne comportent pas non plus d'informations sur l'auteur et le titre. Dans certains cas, les articles sont substantiellement identiques, tandis que dans d'autres, un petit nombre de paragraphes sont omis.
73. À titre d’échantillon représentatif, le texte de trois articles de Mother Jones et de trois articles de Reveal tels qu’ils apparaissent dans l’ensemble C4 est joint en tant que pièce 6. Aucun de ces articles ne contient l’auteur, le titre, l’avis de droit d’auteur ou les conditions d’utilisation avec lesquels ils ont été transmis au public.
74. Le demandeur n’a pas autorisé ni permis d’une autre manière aux défendeurs d’inclure l’une quelconque de ses œuvres dans leurs ensembles de formation.
75. Le téléchargement de dizaines de milliers d’articles du demandeur sans autorisation viole les droits d’auteur du demandeur, plus précisément son droit de contrôler les reproductions d’œuvres protégées par le droit d’auteur.
Continuez à lire ici .
À propos de la série PDF juridique HackerNoon : nous vous proposons les dossiers judiciaires du domaine public les plus importants et les plus perspicaces sur le plan technique.
Cette affaire judiciaire récupérée le 27 juin 2024, motherjones.com fait partie du domaine public. Les documents créés par le tribunal sont des œuvres du gouvernement fédéral et, en vertu de la loi sur le droit d'auteur, sont automatiquement placés dans le domaine public et peuvent être partagés sans restriction légale.
[3] Le demandeur désigne collectivement toutes les versions de ChatGPT sous le nom de « ChatGPT », à moins qu’une version spécifique ne soit spécifiée.
[4] https://blogs.bing.com/search-quality-insights/february-2023/Building-the-New-Bing
[5] Alec Radford et al, Les modèles linguistiques sont des apprenants multitâches non supervisés, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf .
[6] https://github.com/openai/gpt-2/blob/master/domains.txt .
[7] https://github.com/jcpeterson/openwebtext/blob/master/README.md.
[8] Alec Radford et al., Les modèles linguistiques sont des apprenants multitâches non supervisés, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf.
[9] Matt McDonnell, Analyse comparative des algorithmes d'extraction de contenu Python (29 janvier 2015), https://moz.com/devblog/benchmarking-python-content-extraction-algorithms-dragnetreadability-goose-and-eatiht.
[10] Tom B. Brown et al., Les modèles linguistiques sont des apprenants peu nombreux, 14 (22 juillet 2020), https://arxiv.org/pdf/2005.14165.
[11] https://huggingface.co/datasets/allenai/c4.