paint-brush
深入了解 OpenAI 的网络爬虫以及 FTC 的持续失误经过@viggybala
1,160 讀數
1,160 讀數

深入了解 OpenAI 的网络爬虫以及 FTC 的持续失误

经过 Viggy Balagopalakrishnan11m2023/08/18
Read on Terminal Reader

太長; 讀書

OpenAI 推出默认选择加入的爬虫程序来抓取互联网,而 FTC 则进行一项不起眼的消费者欺骗调查
featured image - 深入了解 OpenAI 的网络爬虫以及 FTC 的持续失误
Viggy Balagopalakrishnan HackerNoon profile picture
0-item
1-item

OpenAI 推出默认选择加入的爬虫程序来抓取互联网,而 FTC 则进行一项不起眼的消费者欺骗调查

上周,Open AI(ChatGPT 的制造商)正式发布了他们的网络爬虫——这是一款从互联网上所有网站抓取内容的软件,然后将其用于人工智能模型训练。


爬虫程序的存在并不令人惊讶,当今存在多种合法的网络爬虫程序,其中包括对整个互联网进行索引的 Google 爬虫程序。


然而,这是 OpenAI 第一次明确宣布其存在,并为网站提供了选择不被抓取的机制。


请注意,爬虫默认情况下是选择加入的,即您需要显式更改网站上的一段代码以要求爬虫不要抓取您的数据。选择加入/退出的默认设置是粘性的,通常决定了大多数人的行为是什么,因为大多数人不会努力改变默认设置。


这也是苹果iOS14隐私变化对数字广告行业产生重大影响的原因。


OpenAI 网络爬虫(来源:OpenAI)


那么,为什么还要提供选择退出呢?这可能是 OpenAI 针对最近针对该公司指控内容所有者版权受到侵犯的诉讼而采取的先发制人的举措(如果您想了解更多,请参阅有关数据抓取的更深入的文章)。


ChatGPT 的竞争对手 Google Bard 也面临着类似的挑战,但 Google 尚未宣布等效的解决方案 - 他们确实提出了关于如何升级robots.txt以解决此问题的评论请求(用一些简洁的 PR 笔迹编写)。


在本文中,我们将深入探讨:


  • OpenAI 爬虫对内容所有者的影响


  • FTC 目前对 OpenAI 的调查


  • 我们当今运营的法律环境


  • 为什么 FTC 追查 OpenAI 的做法是(又一个)失误

OpenAI 爬虫对内容所有者的影响

虽然该公告为广告商提供了阻止 OpenAI 爬虫抓取其数据的选项,但有几件事不太好:


  1. 默认情况下它是选择加入的,这意味着 OpenAI 可以继续抓取,直到网站明确告诉他们不要这样做


  2. 当内容所有者的数据未经同意被抓取用于模型训练时,对于内容所有者的权利,还没有一个明确的法律裁决(对于任何被迫默认选择加入的人来说,基本上都是这种情况)


如今,有两种法律结构决定语言模型是否可以在未经同意的情况下获取所有这些数据—— 版权和合理使用


版权为特定类型的内容提供保护,但也有例外情况:


根据本标题,版权保护存在于固定在任何有形表达媒介中的作者原创作品中,无论是现在已知的还是后来开发的,从中可以直接或借助媒介来感知、复制或以其他方式传播这些作品。机器或设备。


署名作品包括以下类别: (一)文学作品; (2) 音乐作品,包括任何伴奏歌词; (3) 戏剧作品,包括任何伴奏音乐; (四)哑剧、舞蹈作品; (五)绘画、图形、雕塑作品; (六)电影及其他视听作品; (七)录音; (八)建筑作品。


(b) 在任何情况下,对原创作品的版权保护均不延伸至任何想法、程序、过程、系统、操作方法、概念、原理或发现,无论其描述、解释、说明的形式如何,或体现在这样的工作中


例如,版权保护大多数原创作品(例如,如果您撰写了有关某个主题的原创博客文章或书籍),但不保护广泛的想法(例如,您不能声称自己是第一个撰写有关人工智能如何影响数据权利的人,因此这个想法属于你)。


版权保护的另一个例外/例外是合理使用:


合理使用受版权保护的作品,包括通过复制副本或录音制品或该节指定的任何其他方式,用于批评、评论、新闻报道、教学(包括供课堂使用的多份副本)、学术、或研究,不侵犯版权。


在确定在任何特定情况下对作品的使用是否属于合理使用时,要考虑的因素应包括 (1) 使用的目的和性质,包括这种使用是否具有商业性质或用于非营利教育目的; (二)受版权保护的作品的性质; (3) 与整个受版权保护的作品相关的使用部分的数量和实质性; (4) 使用对受版权保护的作品的潜在市场或价值的影响。


例如,如果您从研究论文中选取内容并对此发表评论,那没关系,并且您没有侵犯内容所有者的版权。当我链接此页面的另一篇文章并添加该文章的引用文本时,情况也是如此。


这两个概念的创建都是为了保护内容所有者的权利,同时也允许信息自由流动,特别是在教育、研究和批评的背景下。


我不是法律专家,但根据我对上述语言的研究/理解,人工智能模型抓取训练内容变得模糊


  • 人工智能公司通常从内容所有者的网站上抓取全文(受版权保护),训练模型学习“想法”/“概念”/“原理”(不受版权保护),然后模型最终吐出不同的文字。在这种情况下,内容所有者是否受到版权保护?


  • 由于经过训练的语言模型现在最终用于商业目的(例如,ChatGPT Plus 是付费产品),这是否侵犯了内容所有者的版权(因为合理使用例外不再适用)?


目前还没有法院对此做出裁决,因此很难预测结果如何。我的非律师观点是,第二个可能更容易落地:OpenAI 抓取数据并用它来创建商业产品,因此,他们在合理使用下没有获得例外。


我想第一个(模型是根据“想法”还是原始文本进行训练)是任何人的猜测。


请注意,这两个要点都需要对内容所有者有利才能获胜,即,只有在上述两个例外(“想法”例外或合理使用例外)不适用于 OpenAI 的情况下,内容所有者才会获胜。


我提出这个细微差别是因为在人工智能风险范围内(并非详尽无遗)——从内容所有者的权利到放大欺诈到工作自动化到通用人工智能/人类的毁灭——近期最紧迫的问题是内容所有者的权利,一连串的诉讼和对内容平台的影响(例如StackOverflow 的故事)就证明了这一点。


虽然像联邦贸易委员会这样的监管机构可以思考真正的长期问题,并提出假设/创造性的方法来解决这些风险,但他们真正的短期潜力在于能够解决将在 5-10 年内影响我们的风险地平线。比如侵犯版权。


这让我们了解了联邦贸易委员会正在采取的措施。

FTC 目前对 OpenAI 的调查

7 月中旬,FTC 宣布正在调查 OpenAI。有趣(又令人沮丧)的是FTC 调查它们的原因


ChatGPT 的制造商正在接受调查,以评估该公司是否因将个人声誉和数据置于危险之中而违反了任何消费者保护法


没有道理吗?你不是一个人。让我们进一步介绍一下这是如何发生的。


FTC 在人工智能监管方面最直言不讳的立场于 4 月份发表:“书面法律中没有人工智能豁免,FTC 将大力执法,打击不公平或欺骗性做法或不公平竞争方法。”


随后出现了一些与诽谤相关的问题:电台主持人马克·沃尔特斯 (Mark Walters) 在 ChatGPT 指控 OpenAI 诈骗非营利组织后起诉 OpenAI ,而一名法学教授 被 ChatGPT 错误地指控性骚扰


这两种情况对相关人员来说都很糟糕,我对此表示同情。然而,众所周知的事实是,语言模型(如 GPT)和基于它们构建的产品(如 ChatGPT)会“产生幻觉”并且常常是不正确的。


FTC 调查前提的前半部分是——ChatGPT 产生幻觉,从而造成声誉损害。


在一场激烈的国会听证会上,一位代表(理所当然地) 询问联邦贸易委员会为什么他们要追究诽谤和诽谤的责任,而诽谤和诽谤通常是由州法律处理的。 FTC 主席 Lina Khan 给出了一个令人费解的论点


Khan 回应说,诽谤和诽谤不是 FTC 执法的重点,但根据 FTC 法案,在人工智能培训中滥用人们的私人信息可能是欺诈或欺骗的一种形式。


“我们关注的是,‘是否有人受到严重伤害?’受伤可能是各种各样的事情,”汗说。


完整的论点是,FTC 表示ChatGPT 的幻觉产生了不正确的信息(包括诽谤),这可能是一种消费者欺骗形式


此外,敏感的用户私人信息可能已被使用/泄露(基于 OpenAI 快速修复的一个错误)。


作为调查的一部分,FTC 要求 OpenAI 提供一长串内容——从有关其模型如何训练的详细信息,到他们使用哪些数据源,到他们如何向客户定位产品,再到模型发布因原因而暂停的情况。已识别的风险。


问题是——特别是考虑到当前的法律环境,联邦贸易委员会监管这家可以说将成为最大的人工智能公司的最佳方法是什么呢?

我们当今运营的法律环境

要批评 FTC 与 OpenAI 的策略,了解我们当今运作的法律环境很有用。我们不会讲太多细节,但我们以反垄断的历史为例简单介绍一下:


  • 1900 年代,大型企业集团(“信托”)出现,公私权力的平衡转移到这些公司身上。


  • 作为回应,1890 年的《谢尔曼法案》获得通过,以加强对私人权力的检查并保护竞争;该法被用来起诉和瓦解从事反竞争行为(掠夺性定价、卡特尔交易、分销垄断)的“信托”。


  • 20 世纪 60 年代左右,法官根据法律精神而不是法律条文进行判决而面临很多强烈反对;例如,解释谢尔曼法以确定一组公司是否“不合理地限制贸易”涉及主观性,法官被指控从事司法能动主义。


  • 为了引入客观性,芝加哥学派首创了消费者福利标准——“法院应该完全以消费者福利为指导”(例如,垄断公然提高价格是错误的,但对于其他活动,举证责任在于监管机构证明消费者受到伤害。)


  • 这仍然是今天的标准,也是联邦贸易委员会和司法部很难打击大型科技公司的原因之一——例如,联邦贸易委员会不能提出谷歌正在提高价格的论点,因为他们的大多数产品都是免费的,即使谷歌还从事其他反竞争行为。


由此得出的结论是——我们今天继续在这样一个环境中运作:案件很大程度上是根据“法律条文”而不是“法律精神”进行诉讼的。这与当今美国最高法院的组成一起,导致了对该法律的相当保守的解释。


对于联邦贸易委员会来说,这意味着要接受现实并找到赢得诉讼的方法。联邦贸易委员会和司法部的运作模式(理所当然)是追查少数大案并制定严厉的执法措施,以便长尾公司在违法之前三思而后行。


为了实现这一目标,联邦贸易委员会需要在一些问题上取得重大胜利,并且需要在当前法律环境的限制下制定制胜策略

为什么 FTC 追查 OpenAI 的做法是(又一个)失误

联邦贸易委员会在针对大型科技公司方面遭遇了一系列损失,我认为这些损失都可以归因于“我们讨厌一切大型科技公司”这一失败的打击这些公司的策略,而不是用手术刀。


例如,FTC 采取了暴力手段来阻止 Microsoft-Activision 价值 69B 的收购,但最终失败了(我想说,输得很惨)。联邦贸易委员会认为,微软收购动视暴雪将扼杀游戏市场的竞争。


法官做出了相当直白的裁决,驳回了联邦贸易委员会的所有论点;以下是法官的评论之一:


没有任何内部文件、电子邮件或聊天内容与微软声明的不让《使命召唤》成为 Xbox 游戏机独占的意图相矛盾。尽管 FTC 行政程序中完成了广泛的调查,包括制作了近 100 万份文件和 30 份证词,但 FTC 尚未发现任何一份文件与微软公开承诺在 PlayStation(和 Nintendo Switch 上提供《使命召唤》)相矛盾。 )。


另一个暴力案例是 FTC 试图阻止 Meta 收购 VR 公司 Within,但他们失败了。他们为什么要追求这个?他们想试水一下,看看是否有兴趣在特定市场规模扩大之前阻止收购,考虑到当前的法律环境,这一计划被否决也就不足为奇了。


FTC 对 OpenAI 的调查存在类似的问题:

  1. 他们所追求的(在我看来)是一个相当微不足道的问题,也是语言模型的一个已知限制——幻觉;相反,他们应该关注 5 到 10 年内重要的实际人工智能问题,例如版权。


  2. 尽管在当前的法律环境中多种“创造性”的法律方法被抛弃,但他们正在尝试另一种创造性的论点:幻觉→诽谤→消费者欺骗。


对他们行为的慷慨解释是,他们想为他们的“人工智能不能免除现有法律”的立场树立先例,而这种徒劳的追逐让他们从 OpenAI 获得了大量的自我报告数据(FTC 发布了20 页的数据)。问道)。


然而,考虑到他们反复追求暴力/任何大型科技都没有竞争力的方法的记录+将这些方法与创造性论点相结合,而这些论点在法庭上一再被驳回,我相信联邦贸易委员会在本案中并没有赢得怀疑。

结论

我绝对认为 OpenAI 应该受到监管。不是因为他们的法学硕士产生了幻觉(当然,他们确实产生了幻觉),而是因为他们未经许可公然使用创作者的内容。不是因为它将改变过去,而是因为它将帮助内容所有者建立一个健康的未来,使他们的版权不会受到公然侵犯。


但联邦贸易委员会正在重蹈覆辙,采取“锤子而不是手术刀”的做法。用手术刀手段对付大型科技公司有成功的先例,其中最著名的是英国竞争和市场管理局。


他们针对谷歌赢得的两起大案都集中在特定的反竞争机制上: 阻止谷歌在广告技术堆栈中为自己的产品提供优惠待遇,并允许其他支付提供商进行应用内支付。


如果联邦贸易委员会继续沿着目前的道路前进,其连续的亏损将鼓励科技公司继续为所欲为,因为他们知道自己可以在法庭上获胜。现在是联邦贸易委员会反思其失败、汲取其他监管机构成功经验并纠正方针的时候了。


🚀 如果您喜欢这篇文章,请考虑订阅我的每周通讯每周,我都会以 10 分钟阅读的形式发布一篇关于当前技术主题/产品策略的深入分析


最好的,维吉。


也发布在这里