paint-brush
通过人工智能反馈实现质量多样性 (QDAIF):迈向自主人工智能创造力的一步经过@feedbackloop
485 讀數
485 讀數

通过人工智能反馈实现质量多样性 (QDAIF):迈向自主人工智能创造力的一步

太長; 讀書

通过人工智能反馈实现质量多样性 (QDAIF) 是一种前沿方法,它将语言模型和质量多样性搜索算法相结合,自动生成多样化的高质量创意文本。这种方法在创意写作领域得到了展示,其性能优于现有基线,展示了朝着独立人工智能创造力迈出的重要一步。
featured image - 通过人工智能反馈实现质量多样性 (QDAIF):迈向自主人工智能创造力的一步
The FeedbackLoop: #1 in PM Education HackerNoon profile picture

作者:

(1) Herbie Bradley,CarperAI,CAML 实验室,剑桥大学 & EleutherAI;

(2) 戴安德 (Andrew Dai),阿莱夫·阿尔法 (Aleph Alpha);

(3) 汉娜·托菲尔 (Hannah Teufel),阿莱夫·阿尔法 (Aleph Alpha);

(4) Jenny 张,5 不列颠哥伦比亚大学计算机科学系&矢量研究所;

(5) 科恩·奥斯特梅杰 (Koen Oostermeijer),阿莱夫·阿尔法 (Aleph Alpha);

(6) Marco Bellagente,稳定人工智能;

(7) Jeff Clune,不列颠哥伦比亚大学计算机科学系,Vector Institute & 加拿大 CIFAR AI 主席;

(8)肯尼思·斯坦利,内科;

(9) 格雷戈里·肖特,阿莱夫·阿尔法;

(10) 乔尔·雷曼,随机实验室。

链接表

摘要与简介

背景及相关工作

方法

创意写作领域实验

讨论与结论

附录

抽象的

在许多文本生成问题中,用户可能不仅喜欢单一响应,还喜欢多种高质量输出可供选择。质量多样性 (QD) 搜索算法通过不断改进候选群体并使候选群体多样化来实现此类结果。然而,QD 在定性领域(例如创意写作)的适用性由于算法上指定质量和多样性度量的难度而受到限制。有趣的是,语言模型(LM)的最新发展已经能够通过人工智能反馈来指导搜索,其中语言模型以自然语言提示来评估文本的定性方面。利用这一发展,我们引入了通过 AI 反馈实现质量多样性 (QDAIF),其中进化算法应用 LM 来生成变异并评估候选文本的质量和多样性。在创意写作领域进行评估时,与非 QD 对照相比,QDAIF 通过高质量样本覆盖了更多指定搜索空间。此外,对 QDAIF 生成的创意文本的人类评估验证了人工智能和人类评估之间的合理一致性。因此,我们的结果凸显了人工智能反馈在指导创造性和原创解决方案的开放式搜索方面的潜力,提供了似乎可以推广到许多领域和模式的秘诀。这样,QDAIF是迈向能够独立搜索、多样化、评估和改进的人工智能系统的一步,这是人类社会创新能力的核心技能之一。 [1]

1 简介

人类的创新不仅是创造力的生成能力,还包括评价新思想和新产品的主观质量的能力。伟大的想法很少是一次性产生的,而是通过不同的阐述和修改链逐渐出现(Stanley & Lehman,2015)。为了成功地驾驭这样的思想树,创作者必须评估链条中的哪些步骤值得进一步追求,这个问题可能是高度主观的,特别是在具有艺术或文学维度的领域。


到目前为止,即使人工智能可以提供候选人,这种带有主观色彩的评估的希望仍然牢牢地落在人类身上。然而,近年来新兴的基础模型技术(Bommasani 等人,2021)现在意味着模型也可以发挥评估者的作用,即使评估部分是主观的(Madaan 等人,2023)。通过这种方式,原则上第一次可以实现返回一组不同的有趣工件的整个构思过程的自动化。这个过程不能完全由 LM 自行运行,而是需要以细致入微的方式将搜索算法与模型调用链接在一起。本文重点介绍了实现这一潜力的一种方法:将 LM 与质量多样性 (QD) 领域相结合(Mouret & Clune,2015),其重点是如何设计搜索流程,以生成跨越设计空间的高质量解决方案。


图 1:与基线(右)相比,QDAIF(左)通过多样化、高质量的故事覆盖了更多的搜索空间。基线是 LMX,仅限质量(Meyerson 等人,2023),它仅针对解决方案的质量进行优化。 QDAIF 发现了更多关于间谍和政治家的有趣故事,涵盖了从幸福结局的浪漫故事到悲惨结局的恐怖故事等例子。由于缺乏所需的间谍角色(由红色垃圾箱表示,对于具有中性结局的故事,并且倾向于到恐怖)。 QDAIF 为同一个中立垃圾箱发现了一个更好、更相关的故事(中下位置,以“一位富有的政治家”开头)。


QD 算法的主要见解是明确地维护和寻求高质量的多样化响应。通常,此类搜索算法需要手工设计的多样性和质量度量,以及生成有意义的变化的方法。然而,最有趣和最复杂的领域几乎总是涉及性能、多样性和变化的概念,这些概念是主观的或难以通过算法指定的。通过扩展通过 LM 产生变异的工作(Lehman 等人,2022;Meyerson 等人,2023)并通过 LM 评估潜在解决方案的质量(Ahn 等人,2022),我们表明 LM 还可以用于评估多样性的质量方面。通过这种方式,LM 可以实例化 QD 搜索的三个主要成分,从而实现强大的新 QD 算法,这些算法可以借助 LM 的持续进步,我们将其称为通过 AI 反馈实现质量多样性 (QDAIF)。这样的 QDAIF 可以通过更直观的多样性措施探索并返回对 LM 提示的多样化、高质量的响应,而不需要模型微调(不过,它也可以用于 LM 通过生成微调来自我改进)数据(Lehman 等人,2022;Chen 等人,2023)),这是通过生成的数据自行策划有效学习环境,走向 AI 生成算法(Clune,2019)的一个有趣方向。


我们评估 QDAIF 的三个创意写作领域:观点写作、短篇小说和诗歌。这个想法是,在这样的创意领域,用户通常喜欢看到各种可能的故事或诗歌,从中进行选择或从中获得灵感。定量结果表明 QDAIF 显着优于现有基线。此外,通过人类评估,我们观察到人类和人工智能生成的反馈之间存在很强的一致性,提供了经验证据,证明人工智能反馈是有根据的,并且该方法可以在实践中发挥作用(即,它可以提高人类测量的质量和多样性)。总体而言,QDAIF 让我们离能够独立搜索和创新的人工智能模型又近了一步,这是人类创造文化和科学的关键能力之一(Stanley et al., 2017)。




[1] 项目页面:https://qdaif.github.io/