paint-brush
The Times v. Microsoft/OpenAI: Reproduções não autorizadas de Times Works em modelos GPT (11)por@legalpdf
152 leituras

The Times v. Microsoft/OpenAI: Reproduções não autorizadas de Times Works em modelos GPT (11)

por Legal PDF3m2024/01/02
Read on Terminal Reader

Muito longo; Para ler

Como mais uma prova de que foram treinados no uso de cópias não autorizadas do Times Works, os próprios LLMs do GPT “memorizaram” cópias de muitas dessas mesmas obras codificadas
featured image - The Times v. Microsoft/OpenAI: Reproduções não autorizadas de Times Works em modelos GPT (11)
Legal PDF HackerNoon profile picture

O processo judicial The New York Times Company v. Microsoft Corporation em 27 de dezembro de 2023 faz parte da série Legal PDF da HackerNoon . Você pode pular para qualquer parte deste arquivo aqui . Esta é a parte 11 de 27.

4. ALEGAÇÕES FATUAIS

C. Uso não autorizado e cópia do conteúdo do Times pelos réus

2. Incorporação de reproduções não autorizadas e derivadas de obras de época em modelos GPT


98. Como prova adicional de terem sido treinados no uso de cópias não autorizadas do Times Works, os próprios LLMs da GPT “memorizaram” cópias de muitas dessas mesmas obras codificadas em seus parâmetros. Conforme mostrado abaixo e no Anexo J, o atual GPT-4 LLM produzirá cópias quase literais de partes significativas do Times Works quando solicitado a fazê-lo. Tais exemplos memorizados constituem cópias não autorizadas ou trabalhos derivados do Times Works usado para treinar o modelo.


99. Por exemplo, em 2019, o The Times publicou uma série de cinco partes, ganhadora do prêmio Pulitzer, sobre empréstimos predatórios na indústria de táxis da cidade de Nova York. A investigação de 18 meses incluiu 600 entrevistas, mais de 100 pedidos de registos, análise de dados em grande escala e a revisão de milhares de páginas de registos bancários internos e outros documentos, e acabou por conduzir a investigações criminais e à promulgação de novas leis para prevenir abuso futuro. A OpenAI não teve nenhum papel na criação deste conteúdo, mas com o mínimo de estímulo, recitará grandes porções dele literalmente:[26]



Prova J às 5.


100. Da mesma forma, em 2012, o The Times publicou uma série inovadora que examinava como a terceirização da Apple e de outras empresas de tecnologia transformou a economia global. A série foi o produto de um enorme esforço em três continentes. Relatar esta história foi especialmente desafiador porque foi negado repetidamente ao The Times entrevistas e acesso. O Times contatou centenas de atuais e ex-executivos da Apple e, por fim, obteve informações de mais de seis dúzias de membros da Apple. Novamente, o GPT-4 copiou este conteúdo e pode recitar grandes porções dele literalmente:[27]


Anexo J em 3.


101. O Anexo J fornece vários exemplos adicionais de memorização de Times Works por GPT-4. Com base na informação e na crença, esses exemplos representam uma pequena fração do Times Works cujo conteúdo expressivo foi substancialmente codificado dentro dos parâmetros da série GPT de LLMs. Cada um desses LLMs incorpora, portanto, muitas cópias não autorizadas ou derivados do Times Works.



Continue lendo aqui .


[26] Para o artigo original, consulte Brian M. Rosenthal, As Thousands of Taxi Drivers Were Trapped in Loans, Top Officials Counted the Money, NY TIMES (19 de maio de 2019), https://www.nytimes.com/2019/ 19/05/nyregion/taximedallions.html.


[27] Para artigo original, consulte Charles Duhigg e Keith Bradsher, How the US Lost Out on iPhone Work, NY TIMES (21 de janeiro de 2012), https://www.nytimes.com/2012/01/22/business /apple-america-and-a-squeezed-middleclass.html.




Sobre a série de PDFs legais da HackerNoon: Trazemos a você os mais importantes processos judiciais técnicos e criteriosos de domínio público.


Este processo judicial 1:23-cv-11195 recuperado em 29 de dezembro de 2023, de nycto-assets.nytimes.com faz parte de domínio público. Os documentos criados judicialmente são obras do governo federal e, sob a lei de direitos autorais, são automaticamente colocados em domínio público e podem ser compartilhados sem restrições legais.