GPT-3等大型语言模型 (LLM) 已迅速成为自然语言处理 (NLP) 领域最重要的技术进步之一。
法学硕士已展示出协助各种任务的巨大潜力,包括语言翻译、文本摘要、问答、信息检索、推荐引擎、基于语言的机器人等等。
虽然像 ChatGPT 这样的大型语言模型 (LLM) 在各种自然语言处理任务中表现出卓越的性能,但它们的潜在滥用引起了必须解决的道德问题。由于能够生成连贯且与上下文相关的文本,LLM 可用于制作假新闻或传播错误信息,这可能会对社会造成严重后果。
这种滥用可能会导致人们对新闻媒体的信任受到侵蚀,并扭曲对现实的看法。此外,LLM 可用于剽窃、盗窃知识产权或伪造产品评论,这可能会误导消费者并对企业产生负面影响。此外,法学硕士出于恶意目的操纵网络内容的能力,例如创建虚假社交媒体帐户或影响在线讨论,可能会对公众舆论和政治话语产生灾难性影响。
随着越来越多的关注,可能是时候问这个问题了:
一方面,斯坦福大学的 DetectGPT 将模型分配给书面文本的概率与文本修改的概率进行比较,以进行检测。
另一方面,提出了由 Tom Goldstein 小组开发的基于水印的方法,以有效提高可检测性。
然而,水印(未经严格训练)已被证明容易受到 Sadasivan 的释义和欺骗攻击 等。和克里希纳等人。
社区最近一直在就是否可以将人工智能生成的文本与人类生成的文本区分开来进行激烈的辩论,并讨论 我们是否会无法“保留人工智能”并因为我们无法检测到人工智能而导致通用人工智能的末日-生成的内容。技术领导者甚至呼吁暂停 6 个月的大型语言模型 (LLM) 培训。
Yann LeCun 和 Andrew Ng 等学术领袖反对这项对 AI 的禁令。
Meta 副总裁兼首席 AI 科学家Yann LeCun引述道:
“为什么要减缓知识的进步?”
在这个关键时刻,我们通过信息论的视角研究人工智能生成的文本的可检测性。我们提供了乐观的证据:除非人类和机器文本分布在整个支持中完全相同,否则几乎总是可以检测到的。
可检测性依赖于与切尔诺夫信息和更多观察的精确权衡。我们通过使用多个样本的基于似然比的检测器证明了 AUROC 的可达到上限(介于 0 和 1 之间,更高意味着更可检测)。随着样本数的增加,AUROC 呈指数增加到 1。
该信息理论结果依赖于称为 Chernoff 信息的关键量,它可以指导 LLM 水印的设计。通过实验,我们已经验证了当切换到段落级检测时,词级检测的不可检测性变得可检测。
该信息理论结果依赖于称为 Chernoff 信息的关键量,它可以指导 LLM 水印的设计。我们推导出样本复杂性界限来指导 AI 生成的文本检测的可能性。
当在多个数据集上切换到段落级别检测时,单词级别的不可检测性变得可检测。随着我们增加检测长度,ZeroShot 检测精度显着提高。
最后,我们认为处理#LLM滥用的正确方法是修复它们而不是禁止它们。
然而,即使是一个年轻人,我也无法让自己相信,如果知识带来危险,那么解决办法就是无知。对我来说,解决方案似乎总是必须是智慧。你没有拒绝正视危险,而是学会了如何安全地处理它。
艾萨克·阿西莫夫
注意:这是第一步,我们的研究要求继续研究以开发促进创新并确保合乎道德地使用这些强大工具的框架和指南。
客座贡献者:
Souradip Chakraborty博士马里兰大学研究生Amrit Singh Bedi 、马里兰大学研究科学家 Sicheng Zhu、Bang An、 Dinesh Manocha和 Furong Huang 正在通过信息论视角研究 AI 生成文本的可检测性。本文中表达的任何观点都严格代表作者的观点。
本文最初由 Souradip Chakraborty 博士发表。马里兰大学研究生 Amrit Singh Bedi、马里兰大学研究科学家 Sicheng Zhu、Bang An、Dinesh Manocha 和 Furong Huang 在Tech Panda 上。