paint-brush
多 LLM 框架在克服情感分析挑战中的力量经过@textmodels
288 讀數

多 LLM 框架在克服情感分析挑战中的力量

太長; 讀書

情绪分析的最新进展利用了多 LLM 协作,其中生成器-鉴别器模型迭代地细化决策。这种方法通过解决复杂的语言挑战提高了准确性,优于传统的 ICL 方法和监督基线。
featured image - 多 LLM 框架在克服情感分析挑战中的力量
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

作者:

(1) 孙晓飞,浙江大学;

(2)李晓雅,Shannon.AI和字节跳动;

(3) 张胜宇,浙江大学;

(4) 王树和,北京大学;

(5)吴飞,浙江大学;

(6)李继伟,浙江大学;

(7)张天伟,南洋理工大学;

(8)王国印,Shannon.AI和字节跳动。

链接表

摘要和简介

相关工作

情绪分析法学硕士谈判

实验

消融研究

结论和参考文献

2 相关工作

2.1 情绪分析

情感分析 (Pang and Lee, 2008; Go et al., 2009; Maas et al., 2011a; Zhang and Liu, 2012; Baccianella et al., 2010; Medhat et al., 2014; Bakshi et al., 2016; Zhang et al., 2018) 是一项旨在确定给定文本的整体情绪极性 (例如,积极、消极、中性) 的任务。早期的工作通常将该任务形式化为一个两步问题:(1)使用 RNN(Socher 等人,2013;Qian 等人,2016;Peled 和 Reichart,2017;Wang 等人,2016b;Guggilla 等人,2016;Vo 和 Zhang,2015)、CNN(Kalchbrenner 等人,2014;Wang 等人,2016a;Guan 等人,2016;Yu 和 Jiang,2016;Mishra 等人,2017)、预训练语言模型(Lin 等人,2021;Sun 等人,2021;Phan 和 Ogunbona,2020;Dai 等人,2021)等提取特征;(2)将提取的特征输入分类器以获得预定义的情感标签。


近年来,情境学习 (ICL) 取得了巨大成功,改变了 NLP 任务的范式。许多工作将 ICL 应用于情感分析任务:Qin et al. (2023b);Sun et al. (2023a) 提出了一系列策略来提高 ChatGPT 在情感分析任务上的表现;Fei et al. (2023) 提出了一个三跳推理框架,该框架为隐式情感分析任务引入了隐式方面、观点和最终的情感极性;ƒ Zhang et al. (2023d) 发现 LLM 在二元情感分类任务上可以取得令人满意的表现,但在需要更深入理解或结构化情感信息的更复杂任务(例如,细粒度情感分析)上,它们的表现不如监督基线。

2.2 大型语言模型和上下文学习

大型语言模型 (LLM) (Wang et al., 2022a; Zhang et al., 2023b) 是使用自监督学习技术在大量未标记文本语料库上训练的模型。根据模型架构,LLM 可分为三类:(1) 仅编码器模型,其中包含文本编码器并生成输入表示,例如 BERT (Devlin et al., 2018) 及其变体 (Lan et al., 2019; Liu et al., 2019; Sun et al., 2020; Clark et al., 2020; Feng et al., 2020; Joshi et al., 2020; Sun et al., 2020, 2021); (2)仅解码器模型,具有解码器并生成以输入文本为条件的文本,如 GPT 系列模型(Radford 等人,2019 年;Brown 等人,2020 年;Keskar 等人,2019 年;Radford 等人,2019 年;Chowdhery 等人,2022 年;Ouyang 等人,2022 年;Zhang 等人,2022a;Scao 等人,2022 年;Zeng 等人,2022b;Touvron 等人,2023a;Peng 等人,2023 年;OpenAI,2023 年); (3)编码器-解码器模型,具有一对编码器-解码器并生成以输入表示为条件的文本,例如 T5(Raffel 等人,2020 年)及其变体(Lewis 等人,2019 年;Xue 等人,2020 年)。


图 2:协商过程说明。左侧演示展示了在几轮之后就积极情绪达成一致的情况,而右侧演示展示了两个 LLM 在三轮内未能达成一致的情况。具体来说,用户提示包括四个元素:任务描述、小样本演示(简称)、输入和上一轮的响应(如果适用)。生成器或鉴别器的响应以输入包含积极或消极情绪的陈述开头,然后是理由。

从 GPT-3(Brown 等人,2020 年)开始,LLM 就展示了新兴的能力(Wei 等人,2022a)并通过上下文学习(ICL)完成了 NLP 任务,其中 LLM 以一些带注释的示例为条件生成标签密集型文本,而无需梯度更新。文献中的许多研究提出了提高 ICL 在 NLP 任务上性能的策略。Li 和 Liang (2021); Chevalier 等人 (2023); Mu 等人 (2023) 在连续空间中优化提示。刘等人 (2021a); 万等人 (2023); 张等人 (2023a) 搜索训练集以检索测试输入的 k 个最近邻居作为演示。张等人 (2022b); Sun 等人 (2023b); 姚等人(2023) 将一项任务分解为几个子任务,并根据 LLM 生成的推理链逐步解决这些子任务,直至得到最终答案。孙等人 (2023a);王等人 (2023) 建议通过新一轮提示来验证 LLM 的结果;刘等人 (2021b);冯等人 (2023) 使用 LLM 生成自然语言知识陈述,并将外部知识陈述集成到提示中。

2.3 法学硕士合作

LLM 协作涉及多个 LLM 共同解决给定任务。具体而言,任务被分解为几个中间任务,每个 LLM 被分配独立完成一个中间任务。在整合或总结这些中间结果之后,给定任务得到解决。LLM 协作方法可以充分利用 LLM 的功能,提高复杂任务的性能并构建复杂的系统。Shinn 等人(2023);Sun 等人(2023a);Gero 等人(2023);Wang 和 Li(2023);Chen 等人(2023b)构建辅助任务(例如,反思、验证任务)并根据辅助任务的结果修改对原始任务的响应。Talebirad 和 Nadiri(2023);Hong 等人(2023);Qian 等人(2023)将角色配置文件(例如,项目经理、软件工程师)分配给 LLM,并通过行为动画提高特定于角色的任务的性能。Li 等人(2022);曾等(2022a); 陈等(2023a); 杜等(2023); 梁等(2023) 采用辩论策略,多个不同的 LLM 针对给定任务提出自己的答案,并进行多轮辩论,直到达成最终共同答案。此外,沈等(2023); 高等(2023); 葛等(2023); 张等(2023c); 郝等(2023) 聘请一名 LLM 作为任务控制者,负责为给定任务制定计划、选取专家模型实施并总结中间计划任务的响应。其他 LLM 则充当任务执行者,在各自的专业领域完成中间任务。