调查报道中心诉 OpenAI 法庭文件于 2024 年 6 月 27 日检索,属于HackerNoon 法律 PDF 系列的一部分。您可以在此处跳转到此文件的任何部分。此部分为 18 部分中的第 5 部分。
46. OpenAI 成立于 2015 年 12 月,最初是一家“非营利性人工智能研究公司”,但很快就发展成为一家价值数十亿美元的营利性企业,其基础是利用 CIR 等全球创作者的版权作品。与 CIR 不同的是,OpenAI 在成立仅三年后就放弃了其独家非营利性地位,并于 2019 年 3 月成立了 OpenAI LP,这是一家营利性公司,致力于其营利性活动,包括产品开发和从投资者那里筹集资金。
47. 被告的 GenAI 产品使用“大型语言模型”或“LLM”。GPT 的不同版本是 LLM 的示例。LLM(包括支持 ChatGPT 和 Copilot 的 LLM)将文本提示作为输入并发出输出,以预测可能遵循用于训练它的数十亿个输入示例的响应。
48. LLM 的输出是经过对人类作品进行训练的结果,这些作品通常受版权保护。它们将这些示例收集到训练集中。
49. 在组装训练集时,包括被告在内的法学硕士创作者首先确定他们想要包含的作品。然后他们将作品编码为计算机内存中的数字,称为“参数”。
50. 被告没有公布用于训练任何版本的 ChatGPT 的训练集的内容,但披露了 GPT-4 之前的训练集信息。[3] 从 GPT-4 开始,被告就对用于训练该版本和后续版本的 ChatGPT 的训练集完全保密。因此,原告对被告训练集的指控是基于对 ChatGPT 早期版本的公开信息的广泛审查,以及与原告律师聘请的数据科学家的咨询,以分析这些信息并深入了解人工智能的开发和运作方式。
51. 微软已经开发了自己的 AI 产品 Copilot,该产品使用了微软的 Prometheus 技术。Prometheus 将 Bing 搜索产品与 OpenAI 被告的 GPT 模型结合成一个名为 Bing Orchestrator 的组件。当用户提出问题时,Copilot 会使用 Bing Orchestrator 来响应用户查询,提供 AI 重写的互联网内容节选或复述。[4]
52. ChatGPT 的早期版本(GPT-4 之前)至少使用以下训练集进行训练:WebText、WebText2 和源自 Common Crawl 的集。
53. WebText 和 WebText2 由 OpenAI 被告创建。它们是 Reddit 网站上所有获得至少三个“karma”的出站链接的集合。[5] 在 Reddit 上,karma 表示用户普遍认可该链接。这两个数据集的区别在于,WebText2 涉及在较长时间内从 Reddit 抓取链接。因此,WebText2 是 WebText 的扩展版本。
54. OpenAI 被告公布了 WebText 训练集中出现的前 1,000 个网络域名及其频率的列表。根据该列表,WebText 中出现了 16,793 个来自 Mother Jones 网络域名的不同 URL。[6]
55. 被告有记录并且知道他们每个训练集中包含的每个 URL。
56. 约书亚·C·彼得森 (Joshua C. Peterson),现任波士顿大学计算机与数据科学学院助理教授,以及两名加州大学伯克利分校的计算认知科学家,通过从 Reddit 抓取获得至少三项“karma”的出站链接,创建了 WebText 数据集的近似值,称为 OpenWebText,就像 OpenAI 被告在创建 WebText 时所做的那样。[7] 他们在网上发布了结果。原告律师聘请的一名数据科学家随后分析了这些结果。OpenWebText 包含来自 motherjones.com 的 17,019 个不同 URL 和来自 revealnews.org 的 415 个不同 URL。OpenWebText 中包含的 Mother Jones 作品列表作为附件 2 附上。OpenWebText 中包含的 Reveal 作品列表作为附件 3 附上。
57. 根据信息和判断,WebText 和 OpenWebText 中《琼斯母亲》文章的数量略有不同,至少部分原因是抓取发生的日期不同。
58. OpenAI 解释说,在开发 WebText 时,它使用了名为 Dragnet 和 Newspaper 的算法集从网站中提取文本。[8] 根据信息和信念,OpenAI 使用这两种提取方法,而不是一种方法,以防一种方法在特定情况下出现错误或无法正常工作时创建冗余。应用两种方法而不是一种方法将导致训练集在所含内容类型上更加一致,这从训练的角度来看是可取的。
59. Dragnet 的算法旨在“将文章主要内容”与网站的其他部分(包括“页脚”和“版权声明”)分开,并允许提取器仅对“文章主要内容”进行进一步复制。[9] Dragnet 也无法从标题或署名中提取作者和标题信息,只有当这些信息恰好单独包含在文章主要内容中时,它才会提取这些信息。换句话说,Dragnet 制作的新闻文章副本旨在不包含作者、标题、版权声明和页脚,除非这些信息恰好包含在文章主要内容中,否则不会包含这些信息。
60. 与 Dragnet 一样,Newspaper 算法无法提取版权声明和页脚。此外,Newspaper 用户可以选择提取或不提取作者和标题信息。根据信息和信念,OpenAI 被告选择不提取作者和标题信息,因为他们希望与 Dragnet 提取保持一致,而 Dragnet 通常无法提取作者和标题信息。
61. 在组合 WebText 数据集时应用 Dragnet 和 Newspaper 算法时,OpenAI 被告删除了原告的作者、标题、版权声明和使用条款信息,后者包含在原告网站的页脚中。
62. 根据信息和判断,OpenAI 被告在使用 Dragnet 和 Newspaper 时,首先下载并保存相关网页,然后再从中提取数据。这至少是因为,当他们使用 Dragnet 和 Newspaper 时,他们可能预计未来可能需要重新生成数据集(例如,如果数据集损坏),并且保存副本比重新抓取所有数据更便宜。
63. 因为,在抓取数据时,Dragnet 和 Newspaper 已经公开删除了作者、标题、版权声明和页脚,并且考虑到 OpenAI 雇佣了高技能的数据科学家,他们知道 Dragnet 和 Newspaper 的工作原理,OpenAI 被告在组装 WebText 时故意删除了这些版权管理信息。
64. 原告律师聘请的一名数据科学家将 Dragnet 代码应用于 OpenWebText 中包含的三个 Reveal URL。结果附于附件 4。生成的副本文本与原始文本基本相同(例如,除了在两个单词之间随机添加一个空格或排除与嵌入照片相关的描述外,其余内容完全相同),缺少作者、标题、版权声明和使用条款信息,而这些信息是向公众传达的,但在某些情况下,作者信息恰好包含在主要文章内容中。当数据科学家试图将 Dragnet 代码应用于 Mother Jones 文章时,它失败了,这进一步证实了 OpenAI 被告需要上述冗余。
65. 原告律师聘请的一名数据科学家还将报纸代码应用于 OpenWebText 中包含的三个 Mother Jones 和三个 Reveal URL。数据科学家应用了代码版本,该版本允许用户不提取作者和标题信息,理由是 OpenAI 被告希望与 Dragnet 提取保持一致。结果附在附件 5 中。生成的副本文本与原件基本相同,但缺少向公众传达的作者、标题、版权声明和使用条款信息,但在某些情况下作者信息恰好包含在主要文章内容中。
66. 使用 Dragnet 和报纸代码生成的原告文章副本中没有作者、标题、版权声明和使用条款信息(OpenAI 承认在组装 WebText 时故意使用这些代码),这进一步证实 OpenAI 被告故意从原告受版权保护的新闻文章中删除了作者、标题、版权声明和使用条款信息。
67. 根据信息和判断,自 GPT-2 以来,OpenAI 被告在为 ChatGPT 的每个版本创建训练集时一直使用相同或类似的 Dragnet 和报纸文本提取方法。这至少是因为 OpenAI 被告承认在 GPT-2 中使用这些方法,并且既没有公开否认在 ChatGPT 的后续版本中使用它们,也没有公开声称在后续版本中使用了任何其他文本提取方法。
68. OpenAI 被告承认使用的另一个存储库 Common Crawl 是由第三方创建的大部分互联网数据的抓取。
69.为了训练 GPT-2,OpenAI 从第三方网站下载了 Common Crawl 数据,并对其进行了过滤,使其仅包含某些作品,例如用英文写的作品。[10]
70. 谷歌发布了如何复制名为 C4 的数据集的说明,该数据集是谷歌用来训练自己的人工智能模型的过滤后的 Common Crawl 数据的月度快照。根据信息和信念,基于被告和谷歌在训练人工智能模型方面的目标相似性,C4 与用于训练 ChatGPT 的过滤后的 Common Crawl 版本基本相似。微软联合创始人保罗·艾伦 (Paul Allen) 创办的非营利研究机构艾伦人工智能研究所 (Allen Institute for AI) 遵循了谷歌的指示,并在网上发布了其对 C4 的重新创作。[11]
71. 原告律师聘请的一名数据科学家分析了这一重制。它包含 26,178 个来自motherjones.com的 URL。这些 URL 中的绝大多数包含原告受版权保护的新闻文章。没有一个包含使用条款信息。没有一个包含原告受版权保护的新闻文章的版权声明信息。大多数也缺少作者和标题信息。在某些情况下,文章实质上相同,而在其他情况下,则省略了少数段落。
72. 此重新制作的网址还包含 451 篇来自revealnews.org的文章。这些 URL 中的绝大多数包含原告受版权保护的新闻文章。所有新闻文章均不包含版权声明或使用条款信息。大多数文章还缺少作者和标题信息。在某些情况下,文章实质上完全相同,而在其他情况下,则省略了少数段落。
73. 作为代表性样本,C4 集中出现的三篇 Mother Jones 文章和三篇 Reveal 文章的文本已作为附件 6 附上。这些文章均不包含向公众传达的作者、标题、版权声明或使用条款信息。
74. 原告没有授权或以其他方式允许被告将其任何作品纳入其训练集。
75、未经许可下载原告的数万篇文章侵犯了原告的版权,更具体地说,侵犯了原告对受版权保护的作品复制的控制权。
这里继续阅读。
关于 HackerNoon 法律 PDF 系列:我们为您带来最重要的技术和最有见地的公共领域法庭案件文件。
此案于 2024 年 6 月 27 日检索, motherjones.com属于公共领域。法院制作的文件是联邦政府的作品,根据版权法,自动置于公共领域,可以不受法律限制地共享。
[3] 除非另有说明,否则原告将 ChatGPT 的所有版本统称为“ChatGPT”。
[4] https://blogs.bing.com/search-quality-insights/february-2023/Building-the-New-Bing
[5] Alec Radford 等人,语言模型是无监督的多任务学习者,3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf 。
[6] https://github.com/openai/gpt-2/blob/master/domains.txt 。
[7] https://github.com/jcpeterson/openwebtext/blob/master/README.md。
[8] Alec Radford 等人,语言模型是无监督的多任务学习者,3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf。
[9] Matt McDonnell,《Python 内容提取算法基准测试》(2015 年 1 月 29 日),https://moz.com/devblog/benchmarking-python-content-extraction-algorithms-dragnetreadability-goose-and-eatiht。
[10] Tom B. Brown 等人,语言模型是小样本学习者,14 (2020 年 7 月 22 日),https://arxiv.org/pdf/2005.14165。
[11] https://huggingface.co/datasets/allenai/c4。