paint-brush
针对人工智能公司、现代勒德分子等的集体诉讼经过@futuristiclawyer
165 讀數

针对人工智能公司、现代勒德分子等的集体诉讼

经过 Futuristic Lawyer9m2023/06/23
Read on Terminal Reader

太長; 讀書

悲观档案是一份基于旧报纸剪报的时事通讯。过去几代人表达了他们对未来和新技术的担忧。三位独立视觉艺术家甚至对 Stable Diffusion 提起集体诉讼。该诉讼本质上是针对所有基于受版权保护的数据训练的生成人工智能模型。
featured image - 针对人工智能公司、现代勒德分子等的集体诉讼
Futuristic Lawyer HackerNoon profile picture

介绍

悲观档案是一份以旧报纸剪报为基础的时事通讯,过去几代人表达了他们对未来和新技术的担忧。


1859年,法国诗人查尔斯·波德莱尔描述摄影作为*“每个想成为画家的避难所,每个画家都因为天赋不佳或太懒而无法完成学业”*,拥抱它是“盲目”“低能”的标志。


1906年,一个叫情书的作家用打字机写的这是最“能想象到的冷血、机械、不浪漫的作品”,而另一位作家则表示,“能忍受一封打字情书的女孩会忍受任何事情。”


在过去的一个世纪里,引人注目的报纸头条警告不要在床上读书、滑旱冰的弊端、“自行车脸”(被认为是“骑车人保持平衡时承受的神经紧张”),美国作曲家、作家和出版商协会用图表证明了如何“有声电影、收音机和留声机”“谋杀了音乐”。


快进到 2023 年,我们拥有了所谓的人工智能。它可以在几秒钟内根据文本提示无缝生成文本、图像、视频和音乐。很多艺术家都很关心。


三位独立视觉艺术家——莎拉·安德森(Sarah Andersen)、凯莉·麦克南(Kelly Mckernan)和卡拉·奥尔蒂斯(Karla Ortiz)——已经提交了申请针对 Stable Diffusion 的集体诉讼在马修·巴特里克律师和约瑟夫·萨维里律师事务所诉讼律师的帮助下。


马修·巴特里克 (Matthew Butterick) 已经是“针对人工智能的合法版权之战”中的知名人物。针对 Github CoPilot 的另一起集体诉讼,一种用于代码生成的生成式人工智能工具。

集体诉讼

在我最新的帖子中,我写了一篇关于开源 AI 图像生成器 Stable Diffusion 的文章。此次集体诉讼针对的是 Stable Diffusion 的所有者 Stability AI、另一家著名的 AI 图像公司 Midjourney 以及在线艺术社区 DevianArt。


然而,原告的投诉范围很广,基本上涉及所有基于受版权保护的数据训练的生成人工智能模型——所有大型数据都是如此,而且数量巨大。


实际上,如果旧金山联邦法院决定在 7 月 19 日审理此案,尽管被告驳回动议,法院的判决可能会极大地影响价值数万亿美元的产业


总体而言,集体诉讼背后的三名艺术家试图对生成人工智能模型引起的两个困难的版权问题强加“是”——一个与输入有关,一个与输出有关:


  1. 输入问题:开发人员是否应该获得权利人的许可和/或向权利人支付许可,以便在人工智能的训练过程中使用其受版权保护的材料?


  1. 输出问题:如果生成式人工智能产品生成的输出与人类艺术家创作的作品相似,权利人是否可以向提供者提出侵权索赔?


我不是美国版权法方面的专家,只是对这些问题持中立立场的观察者。根据我的研究,我认为第一个问题的答案是“否”,而第二个问题则更难以回答,可能取决于具体情况的评估。


我非常怀疑这场集体诉讼会给我们带来任何答案。


另一起有关 Stable Diffusion 使用和分发图像的未决版权案件由库存图片巨头盖蒂图片社提交今年二月。


在我看来,盖蒂图片社的诉讼更有可能诉诸法庭,并有助于对版权与生成人工智能的法律理解做出贡献。


主要区别就一句话:盖蒂图片社的诉讼有更好的记录。盖蒂图片社可以证明自己的权利并指出对其权利的具体侵犯,而集体诉讼背后的艺术家则不能。


不幸的是,艺术家的集体诉讼投诉充满了基本错误和关于如何训练稳定扩散以及模型如何生成图像的错误假设。


一群技术爱好者创建了一个网站 http://www.stablediffusionfrivolous.com/,他们在其中指出了投诉中的一些技术不准确之处。


在这里,我将重点讨论艺术家如何解决或者没有解决上述两个法律问题。

输入问题

以下是投诉中的引述(¶57-58),其中艺术家们对输入问题发表了自己的看法:


“稳定性被破坏,从而从网站复制了超过 50 亿张图像作为训练图像,用作稳定扩散的训练数据。


Stability 没有寻求训练图像的创建者或托管这些图像的网站的同意。


Stability 并未尝试就任何训练图像的许可进行谈判。稳定夺走了他们。 Stability 在 Stable Diffusion 中嵌入并存储了训练图像的压缩副本。”


稳定扩散的第一个版本是用“ CLIP过滤”来自公共数据库 LAION-5B 的图像文本对。


LAION-5B包含约58.5亿张图像的信息,是同类数据库中最大的。它由德国非营利组织 LAION(大规模人工智能开放网络的缩写)开发,Stability AI 为其开发提供了资助。


值得注意的是,LAION-5B 中没有存储任何实际图像。相反,每个图像的信息都会被存储,包括:


  • 图像网站的 URL 链接
  • 对图像所描绘内容的简短文字描述
  • 图像的高度和宽度
  • 与其他图像的感知相似性
  • 图像“不安全”的可能性分数(色情/NSFW)
  • 图像有水印的可能性的概率分数


因此,艺术家声称“稳定扩散”“存储其艺术作品的压缩副本”是用词不当。实际上,Stable Diffusion 的训练数据集包含有关某些艺术家图像的元数据,并且该元数据本身不受版权保护。


同样,Spotify 上的歌曲受版权保护,但有关该歌曲的元数据(例如艺术家姓名、歌曲标题、制作人、发行日期、流派和曲目时长)则不受版权保护。这是因为检索这些数据是一个纯粹的机械过程,不需要任何创造性的努力。


作为公共数据集,任何感兴趣的人都可以检查 LAION-5B。公司产卵创建了一个搜索工具haveibeentrained.com人们可以在其中搜索 LAION-5B 以查看他们的图像是否包含在数据集中。


这就是莎拉·安德森(Sarah Andersen)、凯莉·麦克南(Kelly McKernan)和卡拉·奥尔蒂斯(Karla Ortiz)三位艺术家所做的,他们分别发现了超过 200 个、超过 30 个和超过 12 个作品的代表。


具体来说,稳定扩散最初是使用 23 亿张图像进行训练来自 LAION-5B 的一个名为 LAION-2B-EN 的子集,该子集仅包含带有英文文本描述的图像。


考虑到稳定扩散训练数据的规模,三位艺术家在不知情的情况下所做的贡献只是浩瀚海洋中的一小滴。


相比之下,盖蒂图片社针对 Stability AI 的诉讼涉及他们收藏了超过 1200 万张照片这仍然是整个数据集的一小部分。


在所有艺术家的作品中,只有 16 幅图像由莎拉·安德森 (Sarah Andersen) 在美国版权局注册。


根据 17 USC § 411(a),“在对版权主张进行预注册或注册之前,不得对任何美国作品的版权侵权提起民事诉讼(..)”。


换句话说,如果作品没有在美国版权局注册,权利人一般不能在民事诉讼中提出侵权索赔。这意味着艺术家只能代表莎拉·安徒生拥有并注册的16件作品提出索赔。


如果艺术家能够证明稳定扩散有时可以生成与这 16 个图像中的任何一个相似的输出,那么艺术家也许可以就“输出问题”提出一个案例。但正如我们将看到的,他们无法做到这一点。

输出问题

关于输出问题,艺术家们认为稳定扩散生成的每个输出本质上都是源自其训练数据,因此侵犯了版权(参见¶94-95)。这种法律理论是极其牵强的。


下面是法学教授 Matthew Sag 论文中的插图“生成人工智能的版权安全左边的 15 张图像来自稳定扩散训练数据,带有“白色”、“咖啡”和“杯子”标签。


右侧的图像由稳定扩散生成,并带有文本提示“白色背景上的咖啡杯”。按照艺术家的逻辑,右边的所有图像都会侵犯左边图像的版权。


尽管这些图像看起来显然并不相似。

在某些罕见的条件下,事实证明,稳定扩散实际上可以生成与其训练数据集中的图像非常相似的输出图像。


当输入训练图像广泛分布在互联网上并且在稳定扩散的训练数据中一遍又一遍地重复出现时,这种情况尤其可能发生。


在最近一篇题为从扩散模型中提取训练数据, Nicholas Carlini 和他的合著者在稳定扩散训练数据中识别出了 350.000 个最重复的图像。


此后,他们通过稳定扩散生成了 500 张新图像,其文本提示与每个训练数据图像相关的文本描述相同。


事实证明,在 1.75 亿张图像 (350.000*500) 中,只有 109 张 (0.03%) 可以合理地被视为“近似副本”。


因此,版权侵权可能会发生,但艺术家们没有提出任何 Stable Diffusion 如何复制其作品的例子。相反,他们在起诉书第 93 条中写道:


一般来说,响应特定文本提示而提供的稳定扩散输出图像都不可能与训练数据中的任何特定图像紧密匹配。


艺术家们确实声称稳定扩散能够模仿他们的个人艺术风格。通常,“艺术风格”不受版权保护。侵权索赔始终必须与特定作品的侵权行为联系起来。


然而,这里有一个合法的问题已收到相当多的公众关注。生成式人工智能模型可以在几秒钟内、无限期地、接近零成本地复制著名艺术家的独特风格。


为了解决这个问题,Stability AI 从数据集中的标签中删除了著名艺术家的名字作为去年 11 月升级的一部分。这意味着稳定扩散无法再模仿人们的艺术风格。


例如,如果您要求稳定扩散创建毕加索或伦勃朗风格的图像,它就不再能够这样做。这一改变是在集体诉讼投诉前两个月发起的。


总体而言,目前尚不清楚艺术家如何以及为何相信稳定扩散复制了他们的作品。艺术家们似乎更关心稳定扩散在未来如何威胁到他们的工作,而不是关心稳定扩散现在实际上是如何运作的。


三位艺术家之一莎拉·安徒生 (Sarah Andersen) 在纽约时报的一篇文章从去年12月开始:


“我一直在尝试几个生成器,到目前为止,还没有一个以可以直接威胁我职业生涯的方式模仿我的风格,随着人工智能的不断改进,这一事实几乎肯定会改变。”


下面是文章中的两幅插图,一幅由 Sarah Andersen 绘制,一幅由 Stable Diffusion 绘制。您大概可以猜出哪一个是由谁创建的。

结束语

2022 年 12 月, 稳定人工智能宣布他们与背后的公司 Spawning 合作haveibeentrained.com ,现在将为艺术家提供选择加入或退出将他们的作品用作下一版本稳定扩散的培训材料的选项。


虽然倡议可能并不完美对于任何关心将自己的作品提供给大型基金会模型的艺术家来说,这可以被认为是朝着正确方向迈出的一步。


在集体诉讼之前, 卡拉·奥尔蒂斯 (Karla Ortiz) 接受《麻省理工科技评论》采访关于新的选择退出功能,她认为 Stability AI 做得还不够:


“Stability.AI 唯一能做的就是算法盗用,他们完全摧毁了他们的数据库,并彻底摧毁了包含我们所有数据的所有模型”


这句话很有说服力。集体诉讼法背后的三位艺术家,以及马修·巴特里克(Matthew Butterick)和他们的其他法律代表,假装维护艺术家的权利,但实际上他们是现代人勒德分子