O Center for Investigative Reporting Inc. v. OpenAI Court Filing, recuperado em 27 de junho de 2024, faz parte da série de PDFs legais da HackerNoon . Você pode pular para qualquer parte deste arquivamento aqui . Esta parte é 5 de 18.
46. A OpenAI foi formada em dezembro de 2015 como uma “empresa de pesquisa de inteligência artificial sem fins lucrativos”, mas rapidamente se tornou um negócio multibilionário com fins lucrativos construído sobre a exploração de obras protegidas por direitos autorais pertencentes a criadores ao redor do mundo, incluindo o CIR. Diferentemente do =CIR, a OpenAI abandonou seu status exclusivo sem fins lucrativos apenas três anos após sua fundação e criou a OpenAI LP em março de 2019, uma empresa com fins lucrativos dedicada às suas atividades com fins lucrativos, incluindo desenvolvimento de produtos e captação de capital de investidores.
47. Os produtos GenAI dos réus utilizam um “large language model” ou “LLM”. As diferentes versões do GPT são exemplos de LLMs. Um LLM, incluindo aqueles que alimentam o ChatGPT e o Copilot, pegam prompts de texto como entradas e emitem saídas para prever respostas que provavelmente seguirão um dado dos bilhões de exemplos de entrada potencialmente usados para treiná-lo.
48. Os LLMs chegam a seus outputs como resultado de seu treinamento em obras escritas por humanos, que são frequentemente protegidas por direitos autorais. Eles coletam esses exemplos em conjuntos de treinamento.
49. Ao montar conjuntos de treinamento, os criadores do LLM, incluindo os Réus, primeiro identificam as obras que desejam incluir. Eles então codificam a obra na memória do computador como números chamados “parâmetros”.
50. Os réus não publicaram o conteúdo dos conjuntos de treinamento usados para treinar qualquer versão do ChatGPT, mas divulgaram informações sobre esses conjuntos de treinamento antes do GPT-4.[3] Começando com o GPT-4, os réus têm mantido segredo total sobre os conjuntos de treinamento usados para treinar essa e versões posteriores do ChatGPT. As alegações do autor sobre os conjuntos de treinamento dos réus são, portanto, baseadas em uma extensa revisão de informações publicamente disponíveis sobre versões anteriores do ChatGPT e consultas com um cientista de dados empregado pelo advogado do autor para analisar essas informações e fornecer insights sobre a maneira como a IA é desenvolvida e funciona.
51. A Microsoft construiu seu próprio produto de IA, chamado Copilot, que usa a tecnologia Prometheus da Microsoft. O Prometheus combina o produto de busca Bing com os modelos GPT dos Réus OpenAI em um componente chamado Bing Orchestrator. Quando solicitado, o Copilot responde às consultas do usuário usando o Bing Orchestrator, fornecendo abreviações ou regurgitações reescritas por IA de conteúdo encontrado na internet.[4]
52. Versões anteriores do ChatGPT (antes do GPT-4) foram treinadas usando pelo menos os seguintes conjuntos de treinamento: WebText, WebText2 e conjuntos derivados do Common Crawl.
53. WebText e WebText2 foram criados pelos Réus OpenAI. Eles são coleções de todos os links de saída no site Reddit que receberam pelo menos três “karma”.[5] No Reddit, um karma indica que os usuários geralmente aprovaram o link. A diferença entre os conjuntos de dados é que o WebText2 envolveu a raspagem de links do Reddit por um período de tempo mais longo. Portanto, o WebText2 é uma versão expandida do WebText.
54. Os réus da OpenAI publicaram uma lista dos 1.000 principais domínios da web presentes no conjunto de treinamento do WebText e sua frequência. De acordo com essa lista, 16.793 URLs distintas do domínio da web da Mother Jones aparecem no WebText.[6]
55. Os réus têm um registro e estão cientes de cada URL que foi incluído em cada um de seus conjuntos de treinamento.
56. Joshua C. Peterson, atualmente professor assistente na Faculdade de Computação e Ciências de Dados da Universidade de Boston, e dois cientistas cognitivos computacionais com PhDs da UC Berkeley, criaram uma aproximação do conjunto de dados WebText, chamado OpenWebText, também coletando links de saída do Reddit que receberam pelo menos três “karma”, assim como os réus do OpenAI fizeram ao criar o WebText.[7] Eles publicaram os resultados online. Um cientista de dados empregado pelo advogado do autor analisou então esses resultados. O OpenWebText contém 17.019 URLs distintas de motherjones.com e 415 de revealnews.org. Uma lista dos trabalhos da Mother Jones contidos no OpenWebText está anexada como Anexo 2. Uma lista dos trabalhos do Reveal contidos no OpenWebText está anexada como Anexo 3.
57. Com base em informações e convicções, há números ligeiramente diferentes de artigos da Mother Jones no WebText e no OpenWebText, pelo menos em parte porque os scrapes ocorreram em datas diferentes.
58. A OpenAI explicou que, ao desenvolver o WebText, ela usou conjuntos de algoritmos chamados Dragnet e Newspaper para extrair texto de sites.[8] Com base em informações e crenças, a OpenAI usou esses dois métodos de extração, em vez de um método, para criar redundâncias no caso de um método apresentar um bug ou não funcionar corretamente em um determinado caso. Aplicar dois métodos em vez de um levaria a um conjunto de treinamento mais consistente no tipo de conteúdo que ele contém, o que é desejável de uma perspectiva de treinamento.
59. Os algoritmos do Dragnet são projetados para “separar o conteúdo do artigo principal” de outras partes do site, incluindo “rodapés” e “avisos de direitos autorais”, e permitir que o extrator faça cópias adicionais apenas do “conteúdo do artigo principal”. [9] O Dragnet também não consegue extrair informações de autor e título do cabeçalho ou da assinatura, e as extrai apenas se estiverem contidas separadamente no conteúdo do artigo principal. Em outras palavras, cópias de artigos de notícias feitas pelo Dragnet são projetadas para não conter autor, título, avisos de direitos autorais e rodapés, e não contêm tais informações a menos que estejam contidas no conteúdo do artigo principal.
60. Assim como o Dragnet, os algoritmos do Newspaper são incapazes de extrair avisos de direitos autorais e rodapés. Além disso, um usuário do Newspaper tem a opção de extrair ou não informações sobre autor e título. Com base em informações e crenças, os Réus OpenAI escolheram não extrair informações sobre autor e título porque desejavam consistência com as extrações do Dragnet, e o Dragnet normalmente não consegue extrair informações sobre autor e título.
61. Ao aplicar os algoritmos Dragnet e Newspaper durante a montagem do conjunto de dados WebText, os réus da OpenAI removeram as informações sobre autor, título, aviso de direitos autorais e termos de uso do autor, sendo que estas últimas estão contidas nos rodapés dos sites do autor.
62. Com base em informações e crenças, os Réus OpenAI, ao usarem Dragnet e Newspaper, primeiro baixam e salvam a página da web relevante antes de extrair dados dela. Isso ocorre pelo menos porque, quando eles usam Dragnet e Newspaper, eles provavelmente antecipam uma possível necessidade futura de regenerar o conjunto de dados (por exemplo, se o conjunto de dados for corrompido), e é mais barato salvar uma cópia do que rastrear novamente todos os dados.
63. Porque, na época de sua extração, o Dragnet e o Newspaper eram publicamente conhecidos por remover autor, título, avisos de direitos autorais e rodapés, e dado que a OpenAI emprega cientistas de dados altamente qualificados que sabem como o Dragnet e o Newspaper funcionam, os réus da OpenAI intencionalmente e conscientemente removeram essas informações de gerenciamento de direitos autorais ao montar o WebText.
64. Um cientista de dados empregado pelo advogado do Autor aplicou o código Dragnet a três URLs Reveal contidas no OpenWebText. Os resultados estão anexados como Anexo 4. As cópias resultantes, cujo texto é substancialmente idêntico ao original (por exemplo, idêntico, exceto pela adição aparentemente aleatória de um espaço extra entre duas palavras, ou a exclusão de uma descrição associada a uma foto incorporada), não possuem as informações sobre autor, título, aviso de direitos autorais e termos de uso com as quais foram transmitidas ao público, exceto em alguns casos em que as informações sobre o autor estavam contidas no conteúdo principal do artigo. O código Dragnet falhou quando o cientista de dados tentou aplicá-lo aos artigos da Mother Jones, corroborando ainda mais a necessidade dos Réus OpenAI por redundâncias referenciadas acima.
65. Um cientista de dados empregado pelo advogado do Autor também aplicou o código do Jornal a três URLs da Mother Jones e três da Reveal contidas no OpenWebText. O cientista de dados aplicou a versão do código que permite ao usuário não extrair informações sobre autor e título com base na suposição razoável de que os Réus da OpenAI desejavam consistência com as extrações do Dragnet. Os resultados estão anexados como Anexo 5. As cópias resultantes, cujo texto é substancialmente idêntico ao original, não têm as informações sobre autor, título, aviso de direitos autorais e termos de uso com as quais foram transmitidas ao público, exceto em alguns casos em que as informações sobre o autor estavam contidas no conteúdo principal do artigo.
66. A ausência de informações sobre autor, título, aviso de direitos autorais e termos de uso nas cópias dos artigos do autor geradas pela aplicação dos códigos Dragnet e Newspaper — códigos que a OpenAI admitiu ter usado intencionalmente ao montar o WebText — corrobora ainda mais que os réus da OpenAI removeram intencionalmente informações sobre autor, título, aviso de direitos autorais e termos de uso dos artigos de notícias protegidos por direitos autorais do autor.
67. Com base em informações e crenças, os Réus OpenAI continuaram a usar os mesmos métodos de extração de texto Dragnet e Newspaper ou similares ao criar conjuntos de treinamento para cada versão do ChatGPT desde o GPT-2. Isso ocorre pelo menos porque os Réus OpenAI admitiram usar esses métodos para o GPT-2 e não negaram publicamente seu uso para versões posteriores do ChatGPT nem alegaram publicamente ter usado quaisquer outros métodos de extração de texto para essas versões posteriores.
68. O outro repositório que os réus da OpenAI admitiram usar, o Common Crawl, é um scrape da maior parte da internet criado por terceiros.
69. Para treinar o GPT-2, a OpenAI baixou os dados do Common Crawl do site de terceiros e os filtrou para incluir apenas determinados trabalhos, como aqueles escritos em inglês.[10]
70. O Google publicou instruções sobre como replicar um conjunto de dados chamado C4, um instantâneo mensal de dados filtrados do Common Crawl que o Google usou para treinar seus próprios modelos de IA. Com base em informações e crenças, com base na similaridade dos objetivos dos Réus e do Google no treinamento de modelos de IA, o C4 é substancialmente semelhante às versões filtradas do Common Crawl usadas para treinar o ChatGPT. O Allen Institute for AI, um instituto de pesquisa sem fins lucrativos lançado pelo cofundador da Microsoft, Paul Allen, seguiu as instruções do Google e publicou sua recriação do C4 online.[11]
71. Um cientista de dados empregado pelo advogado do Autor analisou esta recriação. Ela contém 26.178 URLs originários de motherjones.com . A grande maioria dessas URLs contém artigos de notícias protegidos por direitos autorais do Autor. Nenhum contém informações sobre termos de uso. Nenhum contém informações sobre avisos de direitos autorais sobre artigos de notícias protegidos por direitos autorais do Autor. A maioria também não tem informações sobre autor e título. Em alguns casos, os artigos são substancialmente idênticos, enquanto em outros um pequeno número de parágrafos é omitido.
72. Esta recriação também contém 451 artigos originários de revealnews.org . A grande maioria dessas URLs contém artigos de notícias protegidos por direitos autorais do Autor. Nenhum dos artigos de notícias contém aviso de direitos autorais ou informações sobre termos de uso. A maioria também não tem informações sobre autor e título. Em alguns casos, os artigos são substancialmente idênticos, enquanto em outros um pequeno número de parágrafos é omitido.
73. Como amostra representativa, o texto de três artigos da Mother Jones e três da Reveal, conforme aparecem no conjunto C4, está anexado como Anexo 6. Nenhum desses artigos contém informações sobre o autor, título, aviso de direitos autorais ou termos de uso com os quais foram transmitidos ao público.
74. O autor não licenciou ou permitiu de outra forma que os réus incluíssem qualquer uma de suas obras em seus conjuntos de treinamento.
75. Baixar dezenas de milhares de artigos do Autor sem permissão viola os direitos autorais do Autor, mais especificamente, o direito de controlar reproduções de obras protegidas por direitos autorais.
Continue lendo aqui .
Sobre a série de PDFs jurídicos do HackerNoon: trazemos a você os processos judiciais de domínio público mais importantes, técnicos e esclarecedores.
Este caso judicial recuperado em 27 de junho de 2024, motherjones.com faz parte do domínio público. Os documentos criados pelo tribunal são obras do governo federal e, sob a lei de direitos autorais, são automaticamente colocados em domínio público e podem ser compartilhados sem restrição legal.
[3] O autor se refere coletivamente a todas as versões do ChatGPT como “ChatGPT”, a menos que uma versão específica seja especificada.
[4] https://blogs.bing.com/search-quality-insights/february-2023/Building-the-New-Bing
[5] Alec Radford et al, Modelos de linguagem são alunos multitarefas não supervisionados, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf .
[6] https://github.com/openai/gpt-2/blob/master/domains.txt .
[7] https://github.com/jcpeterson/openwebtext/blob/master/README.md.
[8] Alec Radford et al., Modelos de linguagem são alunos multitarefas não supervisionados, 3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf.
[9] Matt McDonnell, Benchmarking Python Content Extraction Algorithms (29 de janeiro de 2015), https://moz.com/devblog/benchmarking-python-content-extraction-algorithms-dragnetreadability-goose-and-eatiht.
[10] Tom B. Brown et al, Modelos de linguagem são alunos de poucas tentativas, 14 (22 de julho de 2020), https://arxiv.org/pdf/2005.14165.
[11] https://huggingface.co/datasets/allenai/c4.