paint-brush
《泰晤士报》诉微软/OpenAI:未经授权复制《泰晤士报》在 GPT 模型训练中有效 (10)经过@legalpdf
181 讀數

《泰晤士报》诉微软/OpenAI:未经授权复制《泰晤士报》在 GPT 模型训练中有效 (10)

经过 Legal PDF: Tech Court Cases6m2024/01/02
Read on Terminal Reader

太長; 讀書

微软和 OpenAI 在法学硕士培训和运营过程中以多种独立方式创建并分发了《纽约时报》内容的复制品
featured image - 《泰晤士报》诉微软/OpenAI:未经授权复制《泰晤士报》在 GPT 模型训练中有效 (10)
Legal PDF: Tech Court Cases HackerNoon profile picture

《纽约时报公司诉微软公司》2023 年 12 月 27 日提交的法庭文件是HackerNoon 法律 PDF 系列的一部分。您可以在此处跳至本文件中的任何部分。这是 27 部分中的第 10 部分。

四.事实指控

C. 被告未经授权使用和复制时报内容

82. 微软和 OpenAI 在培训其法学硕士和运营包含其的产品的过程中,以多种独立的方式创建和分发了《纽约时报》内容的复制品。


1. 未经授权复制GPT模型训练时的作品


83. 被告的 GPT 模型是一系列法学硕士,第一个模型于 2018 年推出,随后于 2019 年推出 GPT-2,于 2020 年推出 GPT-3,于 2022 年推出 GPT-3.5,于 2023 年推出 GPT-4。 “聊天”风格的法学硕士 GPT-3.5 和 GPT-4 分两个阶段开发。首先,使用大量数据对 Transformer 模型进行了预训练。其次,模型在更小的监督数据集上进行了“微调”,以帮助模型解决特定任务。


84. 预训练步骤涉及收集和存储文本内容以创建训练数据集并通过 GPT 模型处理该内容。虽然 OpenAI 没有发布 GPT-2 的训练版本,“由于 [OpenAI] 对该技术的恶意应用的担忧”,OpenAI 已经发布了有关 GPT 模型预训练过程的一般信息。 [12 ]


85. GPT-2 包含 15 亿个参数,是 GPT 的 10 倍。[13] GPT-2 的训练数据集包括一个名为“WebText”的 OpenAI 内部语料库,其中包括“‘Reddit’社交网络用户发布的 4500 万个链接的文本内容。”[14] WebText 数据集的内容是创建为“强调文档质量的新网络抓取”。[15] WebText 数据集包含数量惊人的来自《泰晤士报》的抓取内容。例如,NYTimes.com 域是 WebText 数据集中“数量最多的 15 个域”之一,[16] 并被列为 WebText 数据集中第五个“顶级域”,拥有 333,160 个条目。[17]



86. GPT-3 包含 1750 亿个参数,并在下表列出的数据集上进行了训练。[18]



87. 这些数据集之一 WebText2 的创建是为了优先考虑高价值内容。与原始 WebText 一样,它由来自 Reddit 的流行出站链接组成。如上表所示,尽管 WebText2 语料库仅占训练组合中总标记的比例不到 4%,但在 GPT-3 的训练组合中权重为 22%。 Times 内容(总共 209,707 个唯一 URL)占 OpenWebText2 中列出的所有来源的 1.23%,OpenWebText2 是用于训练 GPT-3 的 WebText2 数据集的开源重新创建。与原始 WebText 一样,OpenAI 将 WebText2 描述为“高质量”数据集,它是“WebText 数据集的扩展版本……通过在较长时间内抓取链接来收集。”[19]


88. GPT-3 中权重最高的数据集 Common Crawl 是由富有的风险资本投资者运营的同名 501(c)(3) 组织提供的“互联网副本”。 [20] www.nytimes.com 域名是代表性最高的专有来源(总体排名第三,仅次于维基百科和美国专利文献数据库),以 2019 年 Common Crawl 快照的过滤英语子集表示,占 1 亿标记(文本的基本单位):[21]



89. Common Crawl 数据集包括至少 1600 万条《泰晤士报》新闻、烹饪、Wirecutter 和 The Athletic 内容的独特记录,以及超过 6600 万条《泰晤士报》内容的总记录。


90. 至关重要的是,OpenAI 承认“我们认为质量较高的数据集在训练期间会更频繁地采样”。[22]因此,OpenAI 自己承认,与来自其他低质量来源的内容相比,高质量内容(包括来自《泰晤士报》的内容)对于训练 GPT 模型更为重要和更有价值。


91. 虽然 OpenAI 尚未发布有关 GPT-4 的太多信息,但专家怀疑 GPT-4 包含 1.8 万亿个参数,比 GPT-3 大 10 倍以上,并接受了大约 13 万亿个代币的训练。 [23] GPT-3、GPT-3.5 和 GPT-4 的训练集由 45 TB 的数据组成,相当于超过 37 亿页的 Microsoft Word 文档。 [24] 在 Common Crawl、WebText 和 WebText2 数据集之间,被告可能完整使用了数百万份《纽约时报》拥有的作品来训练 GPT 模型。


92. 被告多次复制大量《纽约时报》版权内容,而没有向《纽约时报》提供任何许可或其他补偿。作为训练 GPT 模型的一部分,微软和 OpenAI 合作开发了一个复杂的定制超级计算系统,用于容纳和复制训练数据集的副本,包括《纽约时报》拥有的内容的副本。为了“训练”被告的 GPT 模型,作品被多次复制和摄取。


93. 根据信息和信念,微软和 OpenAI 联合大规模复制《泰晤士报》的材料,生成 GPT 模型,该模型被编程为准确模仿《泰晤士报》的内容和作者。 Microsoft 和 OpenAI 合作设计 GPT 模型、选择训练数据集并监督训练过程。正如纳德拉先生所说:


因此,当你考虑人工智能和人工智能安全时,人们可以做出很多我称之为产品设计的选择。那么,让我们换个方式来讨论吧。您必须真正关心预训练数据,因为模型是根据预训练数据进行训练的。预训练数据的质量和来源是什么?这是我们做了大量工作的地方。[25]


94. 如果微软没有选择用于训练 GPT 模型的作品,那么它就与 OpenAI 建立了自称的“合作伙伴关系”,尊重这种选择,并凭借其自身的优势知道或故意忽视所选作品的身份。了解训练语料库的性质和身份以及 OpenAI 采用的选择标准,和/或有权利和能力阻止 OpenAI 凭借其为此目的开发的超级计算机的物理控制而使用任何特定作品进行训练,以及其对 OpenAI 被告的法律和财务影响。


95. 据了解并确信,微软和 OpenAI 继续以 Bing 聊天和 Bing 浏览产品返回的综合搜索结果的形式创建 Times Works 的未经授权副本。微软积极收集用于在网络爬行过程中生成此类结果的 Times Works 副本,为其 Bing 搜索引擎创建索引。


96. 据了解和确信,微软和 OpenAI 目前或即将开始制作 Times Works 的额外副本,以训练和/或微调下一代 GPT-5 LLM。


97. 被告对《纽约时报》内容的大规模商业利用未经许可,也未获得《纽约时报》的许可复制和使用其作品来构建其 GenAI 工具。



在这里继续阅读。


[12] OpenAI,更好的语言模型及其影响,OPENAI(2019 年 2 月 14 日),https://openai.com/research/better-language-models。


[13] 同上。


[14] GPT-2 模型卡,GITHUB(2019 年 11 月),https://github.com/openai/gpt-2/blob/master/model_card.md。


[15] RADFORD 等人,语言模型是无监督多任务学习者 3 (2018),https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf。


[16] GPT-2 模型卡,上文注释 14。


[17] GPT-2 /domains.txt,GITHUB,https://github.com/openai/gpt-2/blob/master/domains.txt(上次访问时间为 2023 年 12 月 21 日)。


[18] BROWN 等人,语言模型是 FEW-SHOT LEARNERS 9 (2020),https://arxiv.org/pdf/2005.14165.pdf。


[19] 同上。在8点。


[20] COMMON CRAWL,https://commoncrawl.org/(上次访问时间:2023 年 12 月 21 日)。


[21] DODGE 等人,记录大型网络文本语料库:关于庞大的干净爬行语料库的案例研究 (2021),https://arxiv.org/abs/2104.08758。


[22] BROWN 等人,前注 18。


[23] Maximilian Schreiner,GPT-4 架构、数据集、成本等泄露,THE DECODER(2023 年 7 月 11 日),https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more -泄露/。


[24] Kindra Cooper,OpenAI GPT-3:您需要知道的一切[更新],SPRINGBOARD(2023 年 9 月 27 日),https://www.springboard.com/blog/data-science/machine-learning-gpt -3-open-ai/.


[25] Nilay Patel,微软认为人工智能可以在搜索领域击败谷歌 — 首席执行官 Satya Nadella 解释原因,THE VERGE(2023 年 2 月 7 日),https://www.theverge.com/23589994/microsoft-ceo-satya-nadella -bing-chatgpt-googlesearch-ai。




关于 HackerNoon Legal PDF 系列:我们为您带来最重要的技术性和富有洞察力的公共领域法庭案件文件。


该法庭案件 1:23-cv-11195 于 2023 年 12 月 29 日检索自nycto-assets.nytimes.com ,属于公共领域。法院创建的文件是联邦政府的作品,根据版权法,自动置于公共领域,可以不受法律限制地共享。