《纽约时报公司诉微软公司》2023 年 12 月 27 日提交的法庭文件是HackerNoon 法律 PDF 系列的一部分。您可以在此处跳至本文件中的任何部分。这是 27 部分中的第 11 部分。
2. GPT 模型中时代作品未经授权的复制和衍生的体现
98. 作为使用未经授权的 Times Works 副本进行培训的进一步证据,GPT LLM 本身“记住”了许多编码到其参数中的相同作品的副本。如下图和附录 J 所示,当前的 GPT-4 LLM 将在提示时输出 Times Works 重要部分的近乎逐字副本。这些记忆的例子构成了用于训练模型的 Times Works 的未经授权的副本或衍生作品。
99. 例如,2019 年,《泰晤士报》发表了关于纽约市出租车行业掠夺性贷款的五部分系列文章,荣获普利策奖。为期 18 个月的调查包括 600 次访谈、100 多项记录请求、大规模数据分析以及数千页内部银行记录和其他文件的审查,最终导致刑事调查并颁布新法律以防止此类事件的发生。未来的虐待。 OpenAI 在该内容的创建中没有发挥任何作用,但只需很少的提示,就会逐字背诵其中的大部分内容:[26]
100. 同样,2012 年,《泰晤士报》发表了一系列开创性的文章,探讨苹果和其他科技公司的外包如何改变全球经济。该系列是三大洲付出巨大努力的成果。报道这个故事尤其具有挑战性,因为《纽约时报》一再被拒绝采访和访问。 《纽约时报》联系了数百名现任和前任苹果高管,最终从六打苹果内部人士那里获得了信息。同样,GPT-4 复制了此内容,并且可以逐字背诵其中的大部分内容:[27]
101. 图表 J 提供了许多用 GPT-4 记忆 Times Works 的额外例子。根据信息和信念,这些例子代表了时代作品的一小部分,其表达内容已基本上编码在 GPT 系列法学硕士的参数内。因此,这些法学硕士中的每一个都包含了许多未经授权的 Times Works 副本或衍生品。
在这里继续阅读。
[26] 原创文章请参阅 Brian M. Rosenthal,《数千名出租车司机陷入贷款困境,高层官员数钱》,《纽约时报》(2019 年 5 月 19 日),https://www.nytimes.com/2019/ 05/19/nyregion/taximedallions.html。
[27] 原始文章请参阅 Charles Duhigg 和 Keith Bradsher,《美国在 iPhone 上的失败》,《纽约时报》(2012 年 1 月 21 日),https://www.nytimes.com/2012/01/22/business /apple-america-and-a-squeezed-middleclass.html。
关于 HackerNoon Legal PDF 系列:我们为您带来最重要的技术性和富有洞察力的公共领域法庭案件文件。
该法院案件 1:23-cv-11195 于 2023 年 12 月 29 日检索自nycto-assets.nytimes.com ,属于公共领域。法院创建的文件是联邦政府的作品,根据版权法,自动置于公共领域,可以不受法律限制地共享。