paint-brush
《泰晤士报》诉微软/OpenAI:基于大规模版权侵权的商业模式 (8)经过@legalpdf
243 讀數

《泰晤士报》诉微软/OpenAI:基于大规模版权侵权的商业模式 (8)

经过 Legal PDF: Tech Court Cases9m2024/01/02
Read on Terminal Reader

太長; 讀書

OpenAI 的启动资金来自其创始人(一群最富有的科技企业家、投资者和公司)的 10 亿美元种子资金
featured image - 《泰晤士报》诉微软/OpenAI:基于大规模版权侵权的商业模式 (8)
Legal PDF: Tech Court Cases HackerNoon profile picture

《纽约时报公司诉微软公司》2023 年 12 月 27 日提交的法庭文件是HackerNoon 法律 PDF 系列的一部分。您可以在此处跳至本文件中的任何部分。这是 27 部分中的第 8 部分。

四.事实指控

B. 被告的 GenAI 产品

1. 基于大规模版权侵权的商业模式


55. OpenAI 成立于 2015 年 12 月,是一家“非营利性人工智能研究公司”。 OpenAI 从其创始人那里获得了 10 亿美元的种子资金,这些创始人由一些最富有的科技企业家和投资者以及 Amazon Web Services 和 InfoSys 等公司组成。该群体包括特斯拉和 X Corp.(前身为 Twitter)的首席执行官埃隆·马斯克 (Elon Musk); Reid Hoffman,LinkedIn 联合创始人; Sam Altman,Y Combinator 前总裁;以及 Stripe 前首席技术官 Greg Brockman。


56. 尽管 OpenAI 在成立时接受了来自巨额财富公司和个人的巨额投资,但最初坚称其研究和工作完全不受利润驱动。在 2015 年 12 月 11 日的新闻稿中,布罗克曼和联合创始人 lya Sutskever(分别现任 OpenAI 总裁和首席科学家)写道:“我们的目标是以最有可能造福全人类的方式推进数字智能,不受产生财务回报的需要的限制。由于我们的研究没有财务义务,因此我们可以更好地关注对人类的积极影响。”根据这一使命,OpenAI 承诺其工作和知识产权将向公众开放,“将大力鼓励研究人员发表他们的工作,无论是论文、博客文章还是代码”,并且其“专利(如果有的话)将与世界共享。”


57. 尽管 OpenAI 早期承诺利他主义,但它很快就成为一家价值数十亿美元的营利性企业,其很大程度上建立在未经许可的情况下利用属于《泰晤士报》和其他公司的版权作品的基础上。成立仅三年后,OpenAI 就摆脱了纯非营利组织的地位。它于 2019 年 3 月创建了 OpenAI LP,这是一家营利性公司,致力于开展 OpenAI 的大部分业务(包括产品开发),并向寻求回报的投资者筹集资金。 OpenAI 的公司结构发展成为一个由营利性控股公司、运营公司和空壳公司组成的错综复杂的网络,这些公司管理 OpenAI 的日常运营,并授予 OpenAI 投资者(最著名的是微软)对 OpenAI 运营的权力和影响力,同时筹集了数十亿美元的资金。来自投资者的资本。结果是:OpenAI 如今已成为一家价值高达 900 亿美元的商业企业,预计 2024 年收入将超过 10 亿美元。


58. 随着向营利性地位的转变,出现了另一个变化:OpenAI 也结束了其

致力于开放。 OpenAI 发布了其旗舰 GenAI 模型的前两次迭代,

GPT-1 和 GPT-2,分别于 2018 年和 2019 年开源。但 OpenAI 改变了

2020 年的课程,从 OpenAI LP 和其他营利性组织之后不久发布的 GPT-3 开始

OpenAI 实体成立并控制产品设计和开发。


59. GPT-3.5 和 GPT-4 的性能都比前两代强大几个数量级,但被告对其设计和训练完全保密。对于前几代,OpenAI 拥有大量报告,详细介绍了法学硕士的训练集、设计和硬件的内容。 GPT-3.5 或 GPT-4 则不然。以GPT-4为例,OpenAI发布的“技术报告”称:“该报告没有包含有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的更多细节。”[ 3]


60. OpenAI 的首席科学家 Sutskever 从商业角度证明了这种保密的合理性:“它具有竞争力……。而且有很多公司想做同样的事情,因此从竞争的角度来看,你可以将此视为该领域的成熟。”[4] 但其效果是隐藏了 OpenAI 复制的数据的身份,以训练其最新版本来自《泰晤士报》等权利持有者的模型。


61. 2022 年 11 月发布 ChatGPT 后,OpenAI 成为家喻户晓的名字。ChatGPT 是一种文本生成聊天机器人,根据用户生成的提示,可以模仿人类的自然语言响应。 ChatGPT 立即引起轰动,在发布一个月内就达到了 100 万用户,并在三个月内获得了超过 1 亿用户。


62. OpenAI 通过 OpenAI OpCo LLC 并在 OpenAI Inc.、OpenAI LP 和其他 OpenAI 实体的指导下,提供一套由其法学硕士支持的服务,面向普通消费者和企业。由 GPT-3.5 提供支持的 ChatGPT 版本可供用户免费使用。 OpenAI 还向消费者提供由 OpenAI“最强大的模型”GPT-4 提供支持的优质服务,每月收费 20 美元。 OpenAI 以业务为中心的产品包括 ChatGPT Enterprise 和 ChatGPT API 工具,旨在帮助开发人员将 ChatGPT 整合到定制应用程序中。 OpenAI 还向企业客户授予其技术许可,并收取许可费。


63. 这些商业产品对 OpenAI 来说非常有价值。超过 80% 的财富 500 强公司正在使用 ChatGPT。[5]根据最近的报告,OpenAI 每月产生 8000 万美元的收入,并有望在未来 12 个月内超过 10 亿美元。 [6]


64. 这种商业上的成功很大程度上建立在 OpenAI 大规模的版权侵权之上。推动 ChatGPT 及其相关产品的使用和销售的核心功能之一是法学硕士能够生成各种风格的自然语言文本。为了实现这一结果,OpenAI 在“培训”法学硕士的过程中大量复制了《泰晤士报》拥有的版权作品。


65. 据了解并确信,所有 OpenAI 被告都直接参与或指导、控制 OpenAI 对 Times Works 的广泛侵权和商业利用并从中获利。 OpenAI Inc. 与微软一起,通过 OpenAI Holdings LLC、OpenAI GP LLC、OpenAI LP 和 OpenAI Global LLC 等一系列控股公司和空壳公司,控制和指导了《纽约时报》材料的广泛复制、分发和商业使用。和 OAI Corporation LLC。 OpenAI LP 和 OpenAI Global LLC 直接参与了 OpenAI 基于 GPT 的产品的设计、开发和商业化,并直接参与了 Times Works 的广泛复制、发行和商业使用。 OpenAI LP 和 OpenAI Global LLC 还控制和指导 OpenAI, LLC 和 OpenAI OpCo LLC,这些公司参与分发、销售和许可 OpenAI 基于 GPT 的产品,从而通过 Times Works 的复制、分发和商业使用获利。


66. 至少自 2019 年以来,微软一直并将继续密切参与 OpenAI GPT 产品的培训、开发和商业化。微软首席执行官萨蒂亚·纳德拉 (Satya Nadella) 在 2023 年世界经济论坛上接受《华尔街日报》采访时表示,“ChatGPT 和 GPT 系列模型……是我们与 OpenAI 深度合作多年的产品。”通过这种合作关系,微软至少以两种方式参与了 GPT LLM 和基于它们的产品的创建和商业化。


67. 首先,微软创建并运营定制计算系统,以实施本文详述的大规模版权侵权行为。这些系统被用来创建《纽约时报》知识产权的多个复制品,目的是创建 GPT 模型,利用并在许多情况下保留这些作品中包含的大部分受版权保护的表达方式。


68. 微软是 OpenAI 的唯一云计算提供商。微软和OpenAI合作设计了由微软云计算平台Azure提供支持的超级计算系统,用于训练GPT-1之后OpenAI的所有GPT模型。在 2023 年 7 月 Microsoft Inspire 大会上的主题演讲中,纳德拉先生表示:“我们构建了基础设施来训练他们的模型。他们正在对这些前沿模型的算法和训练进行创新。”


69. 该基础设施不仅仅是 OpenAI 认为合适时使用的通用计算机系统。微软专门设计它的目的是基本上利用整个互联网(专门针对 Times Works 进行策划)来培训历史上最有能力的法学硕士。在 2023 年 2 月的采访中,纳德拉先生表示:


但请记住,在 OpenAI 推出的大型模型之下,

繁重的工作是由 [Microsoft] Azure 团队完成的

计算机基础设施。因为这些工作量是如此

与之前的任何事情都不同。所以我们需要

甚至彻底重新思考数据中心到基础设施

首先给了我们建立模型的机会。现在我们是

将模型转化为产品。[7]


70. 微软“与 OpenAI 合作并专门为 OpenAI 打造了这台超级计算机”,并且“专门设计它来训练该公司的人工智能模型。”[8] 即使按照超级计算标准,它也异常复杂。据微软称,它作为“一个单一系统运行,拥有超过 285,000 个 CPU 核心、10,000 个 GPU,每个 GPU 服务器具有每秒 400 GB 的网络连接”。该系统位列世界上最强大的已知超级计算系统前五名。


71. 为了确保超级计算系统满足 OpenAI 的需求,微软需要独立并与 OpenAI 软件工程师合作测试该系统。纳德拉先生在谈到 OpenAI 时表示:“他们做了基础模型,我们 [微软] 围绕它们做了很多工作,包括围绕负责任的人工智能和人工智能安全的工具。”据了解和确信,这种“围绕人工智能和人工智能安全的工具”涉及在向公众发布之前对基于 GPT 的产品进行微调和校准。 [9]


72. 微软还与OpenAI合作,将OpenAI基于GPT的技术商业化,并将其与自己的Bing搜索索引相结合。 2023 年 2 月,微软推出了 Bing Chat,这是其搜索引擎上由 GPT-4 提供支持的生成式 AI 聊天机器人功能。 2023 年 5 月,微软和 OpenAI 推出了“Browse with Bing”,这是 ChatGPT 的一个插件,使其能够通过 Microsoft Bing 搜索引擎访问互联网上的最新内容。 Bing Chat 和 Browse with Bing 将 GPT-4 模仿人类表达(包括《纽约时报》的表达)的能力与生成搜索结果内容(包括 Times Works 上的点击量)的自然语言摘要的能力相结合,从而无需访问《纽约时报》自己的网站。这些“合成”搜索结果旨在直接回答用户查询,并且可能包括大量释义和对《纽约时报》报道的直接引用。此类复制保持与被告自己的网站和应用程序的互动,而不是像搜索结果的有机列表一样将用户引向《纽约时报》。


73. 在最近的一次采访中,纳德拉先生承认微软密切参与了 OpenAI 的运营,因此也侵犯了其版权:


我们对自己的能力非常有信心。我们拥有所有的知识产权和所有的能力。如果 OpenAI 明天就消失了,说实话,我不希望我们的任何客户为此担心,因为我们拥有继续创新的所有权利。不仅仅是为了提供产品,我们还可以去做我们自己合作做的事情。我们有人员,我们有计算,我们有数据,我们拥有一切。


74. 通过在 GPT 模型的创建和商业化方面的合作,被告从大规模的版权侵权、商业利用和盗用时报知识产权中获利。正如纳德拉先生最近所说,“[OpenAI] 押注于我们,我们押注于他们。”他继续描述了微软 130 亿美元投资的效果:


正如我所说,这赋予我们重要的权利。还有这件事,也不能放手,对吧?我们就在那里。我们在他们之下、之上、他们周围。我们进行内核优化,构建工具,构建基础设施。这就是为什么我认为很多行业分析师都在说:“哇哦,这确实是微软和 OpenAI 之间的一个联合项目。”事实上,正如我所说,我们在这一切方面都非常自给自足。





在这里继续阅读。


[3] OPENAI,GPT-4 技术报告(2023),https://cdn.openai.com/papers/gpt-4.pdf。


[4] James Vincent,OpenAI 联合创始人,谈公司过去公开分享研究的方法:“我们错了”,THE VERGE(2023 年 3 月 15 日),https://www.theverge.com/2023/3/15 /23640180/openai-gpt-4-launch-closeresearch-ilya-sutskever-采访。


[5] OpenAI,ChatGPT Enterprise 简介,OPENAI(2023 年 8 月 28 日),https://openai.com/blog/introducing-chatgpt-enterprise。


[6] Chris Morris,据报道 OpenAI 年销售额接近 10 亿美元,FAST COMPANY(2023 年 8 月 30 日),https://www.fastcompany.com/90946849/openai-chatgpt-reportedly-nears-1-billion-annual -销售量。


[7] CNBC 首播:CNBC 文字记录:微软首席执行官萨蒂亚·纳德拉 (Satya Nadella) 与 CNBC 的乔恩·福特 (Jon Fortt) 对话

今日“强力午餐”,CNBC(2023 年 2 月 7 日),https://www.cnbc.com/2023/02/07/first-on-cnbc-cnbc-transcriptmicrosoft-ceo-satya-nadella-speaks-with -cnbcs-jon-fortt-on-power-lunch-today.html。


[8] Jennifer Langston,微软宣布推出新的超级计算机,为未来人工智能工作奠定了愿景,微软(2020 年 5 月 19 日),https://news.microsoft.com/source/features/ai/openai-azure-supercomputer/。 9 SÉBASTIEN BUBECK 等人,人工智能的火花:GPT-4 的早期实验 (2023),https://arxiv.org/pdf/2303.12712.pdf




关于 HackerNoon Legal PDF 系列:我们为您带来最重要的技术性和富有洞察力的公共领域法庭案件文件。


该法院案件 1:23-cv-11195 于 2023 年 12 月 29 日检索自nycto-assets.nytimes.com ,属于公共领域。法院创建的文件是联邦政府的作品,根据版权法,自动置于公共领域,可以不受法律限制地共享。