paint-brush
The Times v. Microsoft/OpenAI: um modelo de negócios baseado na violação em massa de direitos autorais (8)por@legalpdf
252 leituras

The Times v. Microsoft/OpenAI: um modelo de negócios baseado na violação em massa de direitos autorais (8)

Muito longo; Para ler

A OpenAI começou com US$ 1 bilhão em capital inicial de seus fundadores, um grupo de alguns dos mais ricos empreendedores, investidores e empresas de tecnologia
featured image - The Times v. Microsoft/OpenAI: um modelo de negócios baseado na violação em massa de direitos autorais (8)
Legal PDF: Tech Court Cases HackerNoon profile picture

O processo judicial The New York Times Company v. Microsoft Corporation em 27 de dezembro de 2023 faz parte da série Legal PDF da HackerNoon . Você pode pular para qualquer parte deste arquivo aqui . Esta é a parte 8 de 27.

4. ALEGAÇÕES FATUAIS

B. Produtos GenAI dos Réus

1. Um modelo de negócios baseado na violação em massa de direitos autorais


55. A OpenAI foi formada em dezembro de 2015 como uma “empresa de pesquisa de inteligência artificial sem fins lucrativos”. A OpenAI começou com US$ 1 bilhão em capital inicial de seus fundadores, um grupo de alguns dos mais ricos empreendedores e investidores de tecnologia e empresas como Amazon Web Services e InfoSys. Este grupo incluía Elon Musk, CEO da Tesla e da X Corp. (anteriormente conhecida como Twitter); Reid Hoffman, cofundador do LinkedIn; Sam Altman, ex-presidente da Y Combinator; e Greg Brockman, ex-diretor de tecnologia da Stripe.


56. Apesar de aceitar investimentos muito grandes de empresas e indivíduos extremamente ricos na sua fundação, a OpenAI sustentou originalmente que a sua investigação e trabalho seriam totalmente desmotivados pelo lucro. Em um comunicado à imprensa de 11 de dezembro de 2015, Brockman e a cofundadora Lya Sutskever (agora presidente e cientista-chefe da OpenAI, respectivamente) escreveram: “Nosso objetivo é avançar a inteligência digital da maneira que provavelmente beneficiará a humanidade como um todo , sem ser limitado pela necessidade de gerar retorno financeiro. Como a nossa investigação está isenta de obrigações financeiras, podemos concentrar-nos melhor num impacto humano positivo.” De acordo com essa missão, a OpenAI prometeu que o seu trabalho e propriedade intelectual seriam abertos e disponíveis ao público, que os seus “[p]requisadores serão fortemente encorajados a publicar o seu trabalho, seja como artigos, posts em blogs ou código” e que suas “patentes (se houver) serão compartilhadas com o mundo”.


57. Apesar das suas primeiras promessas de altruísmo, a OpenAI rapidamente se tornou um negócio multibilionário com fins lucrativos, construído em grande parte com base na exploração não licenciada de obras protegidas por direitos de autor pertencentes ao The Times e outros. Apenas três anos após a sua fundação, a OpenAI abandonou o seu estatuto exclusivamente sem fins lucrativos. Criou a OpenAI LP em março de 2019, uma empresa com fins lucrativos dedicada a conduzir a maior parte das operações da OpenAI – incluindo o desenvolvimento de produtos – e a levantar capital de investidores que buscam retorno. A estrutura corporativa da OpenAI cresceu em uma intrincada rede de holdings, operações e empresas de fachada com fins lucrativos que gerenciam as operações diárias da OpenAI e concedem aos investidores da OpenAI (mais proeminentemente, a Microsoft) autoridade e influência sobre as operações da OpenAI, ao mesmo tempo em que levantam bilhões em capital dos investidores. O resultado: a OpenAI hoje é uma empresa comercial avaliada em até US$ 90 bilhões, com receitas projetadas em mais de US$ 1 bilhão em 2024.


58. Com a transição para o estatuto de empresa com fins lucrativos veio outra mudança: a OpenAI também encerrou a sua

compromisso com a abertura. OpenAI lançou as duas primeiras iterações de seu principal modelo GenAI,

GPT-1 e GPT-2, em regime de código aberto em 2018 e 2019, respectivamente. Mas OpenAI mudou

curso em 2020, começando com o lançamento do GPT-3 logo após OpenAI LP e outras organizações com fins lucrativos

Entidades OpenAI foram formadas e assumiram o controle do design e desenvolvimento do produto.


59. GPT-3.5 e GPT-4 são ordens de magnitude mais poderosas do que as duas gerações anteriores, mas os Réus mantiveram seu projeto e treinamento inteiramente em segredo. Para as gerações anteriores, a OpenAI tinha relatórios volumosos detalhando o conteúdo do conjunto de treinamento, design e hardware dos LLMs. Não é assim para GPT-3.5 ou GPT-4. Para GPT-4, por exemplo, o “relatório técnico” divulgado pela OpenAI dizia: “este relatório não contém mais detalhes sobre a arquitetura (incluindo tamanho do modelo), hardware, computação de treinamento, construção de conjunto de dados, método de treinamento ou similar.”[ 3]


60. Sutskever, cientista-chefe da OpenAI, justificou este sigilo por motivos comerciais: “É competitivo lá fora…. E há muitas empresas que querem fazer a mesma coisa, então do lado competitivo, você pode ver isso como um amadurecimento do campo.”[4] Mas seu efeito foi ocultar a identidade dos dados que a OpenAI copiou para treinar seus mais recentes modelos de detentores de direitos como o The Times.


61. OpenAI tornou-se um nome familiar após o lançamento do ChatGPT em novembro de 2022. ChatGPT é um chatbot gerador de texto que, a partir de prompts gerados pelo usuário, pode imitar respostas de linguagem natural semelhantes às humanas. ChatGPT foi uma sensação viral instantânea, alcançando um milhão de usuários um mês após seu lançamento e conquistando mais de 100 milhões de usuários em três meses.


62. A OpenAI, por meio da OpenAI OpCo LLC e sob a direção da OpenAI Inc., OpenAI LP e outras entidades da OpenAI, oferece um conjunto de serviços alimentados por seus LLMs, direcionados tanto para consumidores comuns quanto para empresas. Uma versão do ChatGPT com tecnologia GPT-3.5 está disponível gratuitamente para os usuários. A OpenAI também oferece um serviço premium, desenvolvido pelo “modelo mais capaz” GPT-4 da OpenAI, aos consumidores por US$ 20 por mês. As ofertas da OpenAI focadas em negócios incluem ferramentas ChatGPT Enterprise e ChatGPT API projetadas para permitir que os desenvolvedores incorporem ChatGPT em aplicativos personalizados. A OpenAI também licencia sua tecnologia para clientes corporativos mediante pagamento de taxas de licenciamento.


63. Estas ofertas comerciais têm sido imensamente valiosas para a OpenAI. Mais de 80% das empresas Fortune 500 estão usando ChatGPT.[5] De acordo com relatórios recentes, a OpenAI está gerando receitas de US$ 80 milhões por mês e está a caminho de ultrapassar mais de US$ 1 bilhão nos próximos 12 meses.[6]


64. Este sucesso comercial baseia-se em grande parte na violação de direitos de autor em grande escala da OpenAI. Uma das características centrais que impulsionam o uso e as vendas do ChatGPT e seus produtos associados é a capacidade do LLM de produzir texto em linguagem natural em uma variedade de estilos. Para alcançar este resultado, a OpenAI fez inúmeras reproduções de obras protegidas por direitos autorais de propriedade do The Times durante o “treinamento” do LLM.


65. Com base na informação e na crença, todos os Réus da OpenAI estiveram diretamente envolvidos ou dirigiram, controlaram e lucraram com a violação generalizada e a exploração comercial do Times Works pela OpenAI. OpenAI Inc., juntamente com a Microsoft, controlou e dirigiu a ampla reprodução, distribuição e uso comercial do material do The Times perpetrado pela OpenAI LP e OpenAI Global LLC, através de uma série de holdings e empresas de fachada que incluem OpenAI Holdings LLC, OpenAI GP LLC, e OAI Corporation LLC. A OpenAI LP e a OpenAI Global LLC estiveram diretamente envolvidas no design, desenvolvimento e comercialização dos produtos baseados em GPT da OpenAI e diretamente envolvidas na ampla reprodução, distribuição e uso comercial do Times Works. OpenAI LP e OpenAI Global LLC também controlavam e dirigiam OpenAI, LLC e OpenAI OpCo LLC, que estavam envolvidas na distribuição, venda e licenciamento de produtos baseados em GPT da OpenAI e, assim, monetizaram a reprodução, distribuição e uso comercial do Times Works.


66. Desde pelo menos 2019, a Microsoft tem estado, e continua a estar, intimamente envolvida na formação, desenvolvimento e comercialização de produtos GPT da OpenAI. Em uma entrevista ao Wall Street Journal no Fórum Econômico Mundial de 2023, o CEO da Microsoft, Satya Nadella, disse que “a família de modelos ChatGPT e GPT… é algo com o qual temos uma parceria profunda com OpenAI há vários anos”. Através desta parceria, a Microsoft esteve envolvida na criação e comercialização de LLMs GPT e produtos baseados neles de pelo menos duas maneiras.


67. Primeiro, a Microsoft criou e operou sistemas de computação personalizados para executar a violação em massa de direitos autorais aqui detalhada. Esses sistemas foram usados para criar múltiplas reproduções da propriedade intelectual do The Times com o propósito de criar modelos GPT que exploram e, em muitos casos, retêm grandes porções da expressão protegida por direitos autorais contida nessas obras.


68. A Microsoft é o único fornecedor de computação em nuvem para OpenAI. A Microsoft e a OpenAI colaboraram para projetar os sistemas de supercomputação alimentados pela plataforma de computador em nuvem Azure da Microsoft, que foram usados para treinar todos os modelos GPT da OpenAI após o GPT-1. Em um discurso de abertura em julho de 2023 na conferência Microsoft Inspire, o Sr. Nadella disse: “Construímos a infraestrutura para treinar seus modelos. Eles estão inovando nos algoritmos e no treinamento desses modelos de fronteira.”


69. Essa infraestrutura não consistia apenas em sistemas informáticos de uso geral para a OpenAI utilizar como bem entendesse. A Microsoft o projetou especificamente com o propósito de usar essencialmente toda a Internet – com curadoria para apresentar desproporcionalmente o Times Works – para treinar o LLM mais capaz da história. Em uma entrevista em fevereiro de 2023, o Sr. Nadella disse:


Mas abaixo do que a OpenAI está lançando como modelos grandes, lembre-se,

o trabalho pesado foi feito pela equipe do [Microsoft] Azure para construir

a infra-estrutura informática. Como essas cargas de trabalho são tão

diferente de tudo o que veio antes. Então precisávamos

repensar completamente até mesmo o datacenter até a infraestrutura que

primeiro nos deu a chance de construir os modelos. E agora estamos

traduzindo os modelos em produtos.[7]


70. A Microsoft construiu este supercomputador “em colaboração e exclusivamente para a OpenAI” e “projetou-o especificamente para treinar os modelos de IA dessa empresa”.[8] Mesmo para os padrões de supercomputação, era extraordinariamente complexo. Segundo a Microsoft, ele funcionava como “um sistema único com mais de 285.000 núcleos de CPU, 10.000 GPUs e 400 gigabits por segundo de conectividade de rede para cada servidor GPU”. Este sistema foi classificado entre os cinco sistemas de supercomputação mais poderosos conhecidos publicamente no mundo.


71. Para garantir que o sistema de supercomputação atendia às necessidades da OpenAI, a Microsoft precisava testar o sistema, tanto de forma independente quanto em colaboração com engenheiros de software da OpenAI. De acordo com Nadella, com relação ao OpenAI: “Eles fazem os modelos básicos, e nós [Microsoft] fazemos muito trabalho em torno deles, incluindo as ferramentas em torno da IA responsável e da segurança da IA”. Com base na informação e na crença, tais “ferramentas em torno da IA e da segurança da IA” envolvem o ajuste fino e a calibração dos produtos baseados em GPT antes de seu lançamento ao público.[9]


72. Em colaboração com a OpenAI, a Microsoft também comercializou a tecnologia baseada em GPT da OpenAI e combinou-a com o seu próprio índice de pesquisa Bing. Em fevereiro de 2023, a Microsoft lançou o Bing Chat, um recurso generativo de chatbot de IA em seu mecanismo de busca desenvolvido com GPT-4. Em maio de 2023, a Microsoft e a OpenAI lançaram o “Browse with Bing”, um plugin para ChatGPT que permitia acessar o conteúdo mais recente da Internet por meio do mecanismo de busca Microsoft Bing. O Bing Chat e o Browse with Bing combinam a capacidade do GPT-4 de imitar a expressão humana - incluindo a expressão do The Times - com a capacidade de gerar resumos em linguagem natural do conteúdo dos resultados de pesquisa, incluindo resultados no Times Works, que evitam a necessidade de visitar os próprios sites do The Times . Esses resultados de pesquisa “sintéticos” pretendem responder diretamente às dúvidas dos usuários e podem incluir paráfrases extensas e citações diretas de reportagens do Times. Essa cópia mantém o envolvimento com os próprios sites e aplicativos dos Réus, em vez de encaminhar os usuários ao The Times da mesma forma que as listagens orgânicas dos resultados de pesquisa.


73. Numa entrevista recente, o Sr. Nadella reconheceu o envolvimento íntimo da Microsoft nas operações da OpenAI e, portanto, a sua violação de direitos de autor:


[Estávamos] muito confiantes em nossa própria capacidade. Temos todos os direitos de propriedade intelectual e toda a capacidade. Se a OpenAI desaparecer amanhã, não quero que nenhum cliente nosso se preocupe com isso, honestamente, porque temos todos os direitos para continuar a inovação. Não apenas para servir o produto, mas podemos simplesmente fazer o que estávamos fazendo em parceria. Temos as pessoas, temos a computação, temos os dados, temos tudo.


74. Através da sua colaboração tanto na criação como na comercialização dos modelos GPT, os Réus lucraram com a violação massiva de direitos de autor, a exploração comercial e a apropriação indevida da propriedade intelectual do The Times. Como disse recentemente Nadella, “[OpenAI] aposta em nós, nós apostamos neles”. Ele continuou, descrevendo o efeito do investimento de US$ 13 bilhões da Microsoft:


E isso nos dá direitos significativos, como eu disse. E também essa coisa, não é sem mãos, né? Estamos lá. Estamos abaixo deles, acima deles, ao redor deles. Fazemos as otimizações do kernel, construímos ferramentas, construímos a infraestrutura. É por isso que acho que muitos analistas industriais estão dizendo: 'Nossa, é realmente um projeto conjunto entre a Microsoft e a OpenAI.'





Continue lendo aqui .


[3] OPENAI, RELATÓRIO TÉCNICO GPT-4 (2023), https://cdn.openai.com/papers/gpt-4.pdf.


[4] James Vincent, cofundador da OpenAI sobre a abordagem anterior da empresa para compartilhar abertamente pesquisas: 'We Were Wrong', THE VERGE (15 de março de 2023), https://www.theverge.com/2023/3/15 /23640180/openai-gpt-4-launch-closedresearch-ilya-sutskever-entrevista.


[5] OpenAI, Apresentando ChatGPT Enterprise, OPENAI (28 de agosto de 2023), https://openai.com/blog/introduzindo-chatgpt-enterprise.


[6] Chris Morris, OpenAI supostamente se aproxima de US$ 1 bilhão em vendas anuais, FAST COMPANY (30 de agosto de 2023), https://www.fastcompany.com/90946849/openai-chatgpt-reportedly-nears-1-billion-annual -vendas.


[7] Primeiro na CNBC: Transcrição da CNBC: Satya Nadella, CEO da Microsoft, fala com Jon Fortt da CNBC em

“Power Lunch” Today, CNBC (7 de fevereiro de 2023), https://www.cnbc.com/2023/02/07/first-on-cnbc-cnbc-transcriptmicrosoft-ceo-satya-nadella-speaks-with -cnbcs-jon-fortt-on-power-lunch-today.html.


[8] Jennifer Langston, Microsoft anuncia novo supercomputador, apresenta a visão para o futuro trabalho de IA, MICROSOFT (19 de maio de 2020), https://news.microsoft.com/source/features/ai/openai-azure-supercomputer/. 9 SÉBASTIEN BUBECK ET AL., FAÍSCAS DE INTELIGÊNCIA GERAL ARTIFICIAL: PRIMEIROS EXPERIMENTOS COM GPT-4 (2023), https://arxiv.org/pdf/2303.12712.pdf




Sobre a série de PDFs legais da HackerNoon: Trazemos a você os mais importantes processos judiciais técnicos e criteriosos de domínio público.


Este processo judicial 1:23-cv-11195 recuperado em 29 de dezembro de 2023, de nycto-assets.nytimes.com faz parte de domínio público. Os documentos criados judicialmente são obras do governo federal e, sob a lei de direitos autorais, são automaticamente colocados em domínio público e podem ser compartilhados sem restrições legais.