paint-brush
新的多 LLM 策略提高了情绪分析的准确性经过@textmodels
1,791 讀數
1,791 讀數

新的多 LLM 策略提高了情绪分析的准确性

太長; 讀書

用于情绪分析的多 LLM 协商框架使用生成器-鉴别器模型来迭代优化决策,从而克服单轮限制。这种方法提高了各种基准测试(包括 Twitter 和电影评论)的性能。
featured image - 新的多 LLM 策略提高了情绪分析的准确性
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

作者:

(1) 孙晓飞,浙江大学;

(2)李晓雅,Shannon.AI和字节跳动;

(3) 张胜宇,浙江大学;

(4) 王树和,北京大学;

(5)吴飞,浙江大学;

(6)李继伟,浙江大学;

(7)张天伟,南洋理工大学;

(8)王国印,Shannon.AI和字节跳动。

链接表

摘要和简介

相关工作

情绪分析法学硕士谈判

实验

消融研究

结论和参考文献

抽象的

情绪分析的标准范例是依靠单个 LLM,并在上下文学习框架下单轮做出决策。该框架的关键缺点是单个 LLM 生成的单轮输出可能无法提供完美的决策,就像人类有时需要多次尝试才能做出正确的决定一样。对于情绪分析任务尤其如此,因为需要深度推理来解决输入中的复杂语言现象(例如,子句构成、反讽等)。


为了解决这个问题,本文介绍了一种用于情感分析的多 LLM 协商框架。该框架由一个注入推理的生成器组成,用于提供决策和理由,以及一个解释推导鉴别器,用于评估生成器的可信度。生成器和鉴别器不断迭代,直到达成共识。所提出的框架自然解决了上述挑战,因为我们能够利用两个 LLM 的互补能力,让它们使用理由来说服对方进行纠正。


在广泛的情绪分析基准(SST-2、电影评论、Twitter、yelp、亚马逊、IMDB)上进行的实验证明了所提方法的有效性:它在所有基准上始终比 ICL 基线产生更好的性能,甚至在 Twitter 和电影评论数据集上比监督基线产生更好的性能。

1 简介

情感分析 (Pang and Lee, 2008; Go et al., 2009; Maas et al., 2011a; Zhang and Liu, 2012; Baccianella et al., 2010; Medhat et al., 2014; Bakshi et al., 2016; Zhang et al., 2018) 旨在提取一段文本所表达的观点极性。大型语言模型 (LLM) 的最新进展 (Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023a,b; Anil et al., 2023; Zeng et al., 2022b; OpenAI, 2023; Bai et al., 2023) 为解决该任务打开了一扇新的大门 (Lu et al., 2021; Kojima et al., 2022; Wang et al., 2022b; Wei et al., 2022b; Wan et al., 2023; Wang et al., 2023; Sun et al., 2023b,a; Lightman et al., 2023; Li et al., 2023; Schick et al., 2023):在上下文学习 (ICL) 范式,LLM 仅使用少量训练示例就能实现与监督学习策略 (Lin et al., 2021; Sun et al., 2021; Phan and Ogunbona, 2020; Dai et al., 2021) 相当的性能。


现有的利用 LLM 进行情感分析的方法通常依赖于单个 LLM,并在 ICL 下在一轮中做出决策。这种策略存在以下缺点:单个 LLM 生成的单轮输出可能无法提供完美的响应:正如人类有时需要多次尝试才能正确处理一样,LLM 可能需要多轮才能做出正确的决定。对于情感分析任务尤其如此,其中 LLM 通常需要阐明推理过程以解决输入句子中的复杂语言现象(例如,子句组成、反讽等)。


针对该问题,本文提出了一种用于情绪分析的多 LLM 协商策略。该策略的核心是一个生成器-鉴别器框架,其中一个 LLM 充当生成器(G)来产生情绪决策,而另一个 LLM 充当鉴别器(D),负责评估第一个 LLM 生成输出的可信度。所提出的方法在三个方面进行了创新:(1)推理注入生成器(G):遵循结构化推理链的 LLM,增强生成器的 ICL,同时为鉴别器提供评估其有效性的证据和见解;(2)基于解释的鉴别器(D);另一个 LLM 旨在为其判断提供后评估理由;(3)协商:两个 LLM 分别充当生成器和鉴别器的角色,并进行协商直至达成共识。


图 1:生成器 (G) 和鉴别器 (D) 通过协商达成共识的图示。每轮由用户提示和来自 G 或 D 的响应组成。具体来说,用户提示包括四个元素:任务描述、小样本演示(简称)、输入和上一轮的响应(如果适用)。G 或 D 的响应以输入包含积极情绪的陈述开头,然后是理由。


这种策略充分利用了两个 LLM 的集体能力,为模型提供了纠正不完美响应的渠道,从而自然解决了单个 LLM 无法在第一次尝试时做出正确决策的问题。


这项工作的贡献可以概括如下:1)我们提供了一个关于情绪分析如何从多 LLM 协商中受益的新颖视角。2)我们引入了一个生成器-鉴别器角色转换决策框架,该框架通过迭代生成和验证情绪分类来实现多 LLM 协作。3)我们的实证结果为所提出方法的有效性提供了证据:在广泛的情绪分析基准(SST-2、电影评论、Twitter、yelp、亚马逊、IMDB)上进行的实验表明,所提出的方法在所有基准上始终比 ICL 基线产生更好的性能,甚至优于 Twitter 和电影评论数据集上的监督基线。