paint-brush
The Times x Microsoft/OpenAI: a reprodução não autorizada do Times funciona no treinamento do modelo GPT (10)by@legalpdf
148

The Times x Microsoft/OpenAI: a reprodução não autorizada do Times funciona no treinamento do modelo GPT (10)

Legal PDF6m2024/01/02
Read on Terminal Reader

A Microsoft e a OpenAI criaram e distribuíram reproduções do conteúdo do The Times de diversas maneiras independentes durante o treinamento de seus LLMs e operações.
featured image - The Times x Microsoft/OpenAI: a reprodução não autorizada do Times funciona no treinamento do modelo GPT (10)
Legal PDF HackerNoon profile picture

O processo judicial The New York Times Company v. Microsoft Corporation em 27 de dezembro de 2023 faz parte da série Legal PDF da HackerNoon . Você pode pular para qualquer parte deste arquivo aqui . Esta é a parte 10 de 27.

4. ALEGAÇÕES FATUAIS

C. Uso não autorizado e cópia do conteúdo do Times pelos réus

82. A Microsoft e a OpenAI criaram e distribuíram reproduções do conteúdo do The Times de diversas maneiras independentes no decorrer da formação dos seus LLMs e da operação dos produtos que os incorporam.


1. Reprodução não autorizada de Times Works durante o treinamento do modelo GPT


83. Os modelos GPT dos réus são uma família de LLMs, o primeiro dos quais foi introduzido em 2018, seguido pelo GPT-2 em 2019, GPT-3 em 2020, GPT-3.5 em 2022 e GPT-4 em 2023. O “ Os LLMs estilo chat”, GPT-3.5 e GPT-4, foram desenvolvidos em duas etapas. Primeiro, um modelo de transformador foi pré-treinado com uma grande quantidade de dados. Em segundo lugar, o modelo foi “ajustado” num conjunto de dados supervisionados muito menor, a fim de ajudar o modelo a resolver tarefas específicas.


84. A etapa de pré-treinamento envolveu a coleta e o armazenamento de conteúdo de texto para criar conjuntos de dados de treinamento e o processamento desse conteúdo por meio dos modelos GPT. Embora a OpenAI não tenha lançado as versões treinadas do GPT-2 em diante, “devido às preocupações [da OpenAI] sobre aplicações maliciosas da tecnologia”, a OpenAI publicou informações gerais sobre seu processo de pré-treinamento para os modelos GPT. ]


85. O GPT-2 inclui 1,5 bilhão de parâmetros, o que representa um aumento de 10X do GPT.[13] O conjunto de dados de treinamento para GPT-2 inclui um corpus interno OpenAI construído chamado “WebText”, que inclui “o conteúdo de texto de 45 milhões de links postados por usuários da rede social 'Reddit'”. criado como um “novo web scrape que enfatiza a qualidade do documento”.[15] O conjunto de dados WebText contém uma quantidade impressionante de conteúdo copiado do The Times. Por exemplo, o domínio NYTimes.com é um dos “15 principais domínios por volume” no conjunto de dados WebText,[16] e está listado como o 5º “domínio principal” no conjunto de dados WebText com 333.160 entradas.[17]



86. O GPT-3 inclui 175 bilhões de parâmetros e foi treinado nos conjuntos de dados listados na tabela abaixo.[18]



87. Um desses conjuntos de dados, WebText2, foi criado para priorizar conteúdos de alto valor. Como o WebText original, ele é composto por links externos populares do Reddit. Conforme mostrado na tabela acima, o corpus WebText2 teve peso de 22% no mix de treinamento para GPT-3, apesar de constituir menos de 4% do total de tokens no mix de treinamento. O conteúdo do Times – um total de 209.707 URLs exclusivos – é responsável por 1,23% de todas as fontes listadas no OpenWebText2, uma recriação de código aberto do conjunto de dados WebText2 usado no treinamento do GPT-3. Assim como o WebText original, o OpenAI descreve o WebText2 como um conjunto de dados de “alta qualidade” que é “uma versão expandida do conjunto de dados WebText… coletado pela extração de links durante um longo período de tempo”.


88. O conjunto de dados com maior peso no GPT-3, Common Crawl, é uma “cópia da Internet” disponibilizada por uma organização 501(c)(3) de mesmo nome, dirigida por ricos investidores de capital de risco.[20] O domínio www.nytimes.com é a fonte proprietária mais representada (e a terceira no geral, atrás apenas da Wikipedia e de um banco de dados de documentos de patentes dos EUA) representada em um subconjunto filtrado em inglês de um instantâneo de 2019 do Common Crawl, representando 100 milhões tokens (unidades básicas de texto): [21]



89. O conjunto de dados Common Crawl inclui pelo menos 16 milhões de registros exclusivos de conteúdo do The Times em News, Cooking, Wirecutter e The Athletic, e mais de 66 milhões de registros totais de conteúdo do Times.


90. De forma crítica, a OpenAI admite que “os conjuntos de dados que consideramos de maior qualidade são amostrados com mais frequência” durante a formação.[22] Assim, como a própria OpenAI admite, o conteúdo de alta qualidade, incluindo o conteúdo do The Times, era mais importante e valioso para treinar os modelos GPT em comparação com o conteúdo retirado de outras fontes de qualidade inferior.


91. Embora a OpenAI não tenha divulgado muita informação sobre o GPT-4, os especialistas suspeitam que o GPT-4 inclui 1,8 biliões de parâmetros, o que é mais de 10 vezes maior que o GPT-3, e foi treinado em aproximadamente 13 biliões de tokens.[23] O conjunto de treinamento para GPT-3, GPT-3.5 e GPT-4 foi composto por 45 terabytes de dados – o equivalente a um documento do Microsoft Word com mais de 3,7 bilhões de páginas. [24] Entre os conjuntos de dados Common Crawl, WebText e WebText2, os Réus provavelmente usaram milhões de obras de propriedade do Times na íntegra para treinar os modelos GPT.


92. Os réus copiaram repetidamente esta massa de conteúdo protegido por direitos autorais do Times, sem qualquer licença ou outra compensação ao The Times. Como parte do treinamento dos modelos GPT, a Microsoft e a OpenAI colaboraram para desenvolver um sistema de supercomputação complexo e personalizado para armazenar e reproduzir cópias do conjunto de dados de treinamento, incluindo cópias do conteúdo de propriedade do The Times. Milhões de vezes que os trabalhos foram copiados e assimilados — diversas vezes — com o propósito de “treinar” os modelos GPT dos Réus.


93. Com base na informação e na crença, a Microsoft e a OpenAI agiram conjuntamente na cópia em grande escala do material do The Times envolvido na geração dos modelos GPT programados para imitar com precisão o conteúdo e os redatores do The Times. A Microsoft e a OpenAI colaboraram no design dos modelos GPT, na seleção dos conjuntos de dados de treinamento e na supervisão do processo de treinamento. Como afirmou o Sr. Nadella:


Portanto, há muitas, eu chamo isso, de escolhas de design de produto que podemos fazer quando pensamos em IA e segurança de IA. Então, vamos abordar o assunto de outra maneira. Você precisa tomar muito cuidado com os dados pré-treinados porque os modelos são treinados em dados pré-treinados. Qual é a qualidade e a origem desses dados pré-treinados? Esse é um lugar onde fizemos muito trabalho.[25]


94. Na medida em que a Microsoft não selecionou as obras utilizadas para treinar os modelos GPT, agiu em autodenominada “parceria” com a OpenAI respeitando essa seleção, sabia ou foi deliberadamente cega quanto à identidade das obras selecionadas em virtude da sua conhecimento da natureza e identidade dos corpus de treinamento e critérios de seleção empregados pela OpenAI, e/ou tinha o direito e a capacidade de impedir a OpenAI de usar qualquer trabalho específico para treinamento em virtude de seu controle físico do supercomputador que desenvolveu para esse fim e sua influência jurídica e financeira sobre os réus da OpenAI.


95. Com base em informações e crenças, a Microsoft e a OpenAI continuam a criar cópias não autorizadas do Times Works na forma de resultados de pesquisa sintéticos retornados por seus produtos Bing Chat e Browse with Bing. A Microsoft coleta ativamente cópias do Times Works usadas para gerar tais resultados no processo de rastreamento da web para criar o índice para seu mecanismo de busca Bing.


96. Com base na informação e na crença, a Microsoft e a OpenAI estão atualmente ou começarão em breve a fazer cópias adicionais do Times Works para treinar e/ou ajustar o LLM GPT-5 de próxima geração.


97. A exploração comercial em grande escala do conteúdo do Times pelos Réus não está licenciada, nem os Réus receberam permissão do The Times para copiar e utilizar os seus trabalhos para construir as suas ferramentas GenAI.



Continue lendo aqui .


[12] OpenAI, Better Language Models and Their Implications, OPENAI (14 de fevereiro de 2019), https://openai.com/research/better-language-models.


[13] Id.


[14] Cartão modelo GPT-2, GITHUB (novembro de 2019), https://github.com/openai/gpt-2/blob/master/model_card.md.


[15] RADFORD ET AL., LANGUAGE MODELS ARE UNSUPERVISED MULTITASK LEARNERS 3 (2018), https://d4mucfpksywv.cloudfront.net/better-Language-models/Language-models.pdf.


[16] Cartão Modelo GPT-2, nota 14 supra.


[17] GPT-2 /domains.txt, GITHUB, https://github.com/openai/gpt-2/blob/master/domains.txt (última visita em 21 de dezembro de 2023).


[18] BROWN ET AL., MODELOS DE LÍNGUA SÃO APRENDIZEIROS DE POUCOS TIROS 9 (2020), https://arxiv.org/pdf/2005.14165.pdf.


[19] Id. às 8.


[20] COMMON CRAWL, https://commoncrawl.org/ (visitado pela última vez em 21 de dezembro de 2023).


[21] DODGE ET AL., DOCUMENTANDO GRANDES WEBTEXT CORPORA: UM ESTUDO DE CASO SOBRE O COLOSSAL CLEAN CRAWLED CORPUS (2021), https://arxiv.org/abs/2104.08758.


[22] BROWN ET AL., nota 18 supra.


[23] Maximilian Schreiner, Arquitetura GPT-4, conjuntos de dados, custos e mais vazados, THE DECODER (11 de julho de 2023), https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more -vazou/.


[24] Kindra Cooper, OpenAI GPT-3: tudo o que você precisa saber [atualizado], SPRINGBOARD (27 de setembro de 2023), https://www.springboard.com/blog/data-science/machine-learning-gpt -3-abrir-ai/.


[25] Nilay Patel, Microsoft acha que a IA pode vencer o Google nas pesquisas – CEO Satya Nadella explica o porquê, THE VERGE (7 de fevereiro de 2023), https://www.theverge.com/23589994/microsoft-ceo-satya-nadella -bing-chatgpt-googlesearch-ai.




Sobre a série de PDFs legais da HackerNoon: Trazemos a você os mais importantes processos judiciais técnicos e criteriosos de domínio público.


Este processo judicial 1:23-cv-11195 recuperado em 29 de dezembro de 2023, de nycto-assets.nytimes.com faz parte de domínio público. Os documentos criados judicialmente são obras do governo federal e, sob a lei de direitos autorais, são automaticamente colocados em domínio público e podem ser compartilhados sem restrições legais.