Autores:
(1) Xiaofei Sun, Universidad de Zhejiang;
(2) Xiaoya Li, Shannon.AI y Bytedance;
(3) Shengyu Zhang, Universidad de Zhejiang;
(4) Shuhe Wang, Universidad de Pekín;
(5) Fei Wu, Universidad de Zhejiang;
(6) Jiwei Li, Universidad de Zhejiang;
(7) Tianwei Zhang, Universidad Tecnológica de Nanyang;
(8) Guoyin Wang, Shannon.AI y Bytedance.
Negociación LLM para análisis de sentimiento
Análisis de sentimiento (Pang y Lee, 2008; Go et al., 2009; Maas et al., 2011a; Zhang y Liu, 2012; Baccianella et al., 2010; Medhat et al., 2014; Bakshi et al., 2016; Zhang et al., 2018) es una tarea que tiene como objetivo determinar la polaridad general del sentimiento (p. ej., positivo, negativo, neutral) de un texto determinado. Trabajos anteriores a menudo formalizaron la tarea como un problema de dos pasos: (1) extraer características utilizando RNN (Socher et al., 2013; Qian et al., 2016; Peled y Reichart, 2017; Wang et al., 2016b; Guggilla et al., 2016; Vo y Zhang, 2015), CNN (Kalchbrenner et al., 2014; Wang et al., 2016a; Guan et al., 2016; Yu y Jiang, 2016; Mishra et al., 2017), previamente entrenados modelos de lenguaje (Lin et al., 2021; Sun et al., 2021; Phan y Ogunbona, 2020; Dai et al., 2021), etc; y (2) introducir las características extraídas en un clasificador para obtener una etiqueta sentimental predefinida.
En los últimos años, el aprendizaje en contexto (ICL) ha logrado un gran éxito y ha cambiado el paradigma de las tareas de PNL. Muchos trabajos adaptan ICL a la tarea de análisis de sentimiento: Qin et al. (2023b); Sol y cols. (2023a) proponen una serie de estrategias para mejorar el desempeño de ChatGPT en la tarea de análisis de sentimientos; Fei et al. (2023) proponen un marco de razonamiento de tres saltos, que induce el aspecto implícito, la opinión y, finalmente, la polaridad del sentimiento para la tarea de análisis del sentimiento implícito; ƒ Zhang et al. (2023d) encuentran que los LLM pueden lograr un desempeño satisfactorio en la tarea de clasificación de sentimientos binarios, pero tienen un desempeño inferior al de referencia supervisado en tareas más complejas (por ejemplo, análisis de sentimientos detallados) que requieren una comprensión más profunda o información de sentimientos estructurada.
Los modelos de lenguaje grande (LLM) (Wang et al., 2022a; Zhang et al., 2023b) son modelos entrenados en corpus de texto masivos sin etiquetar con técnicas de aprendizaje autosupervisadas. Según la arquitectura del modelo, los LLM se pueden clasificar en tres tipos: (1) modelos de solo codificador, que contienen un codificador de texto y generan representaciones de entrada, como BERT (Devlin et al., 2018) y sus variantes (Lan et al., 2018). al., 2019; Liu et al., 2019; Sun et al., 2020; (2) modelos solo decodificador, que tienen un decodificador y generan texto condicionado al texto de entrada, como los modelos de la serie GPT (Radford et al., 2019; Brown et al., 2020; Keskar et al., 2019; Radford et al. ., 2019; Chowdhery et al., 2022; Zeng et al., 2022b; , 2023; y (3) modelos codificador-decodificador, que tienen un par de codificador-decodificador y generan texto condicionado a la representación de entrada, como T5 (Raffel et al., 2020) y sus variantes (Lewis et al., 2019; Xue et otros, 2020).
A partir de GPT-3 (Brown et al., 2020), los LLM han mostrado capacidades emergentes (Wei et al., 2022a) y han completado tareas de PNL a través del aprendizaje incontextual (ICL), donde los LLM generan texto con uso intensivo de etiquetas condicionado a unos pocos ejemplos anotados sin actualizaciones de gradiente. Muchos estudios en la literatura proponen estrategias para mejorar el desempeño de ICL en tareas de PNL. Li y Liang (2021); Chevalier et al. (2023); Mu et al. (2023) optimizan las indicaciones en el espacio continuo. Liu y cols. (2021a); Wan et al. (2023); Zhang et al. (2023a) buscan en el conjunto de trenes para recuperar k vecinos más cercanos de una entrada de prueba como demostraciones. Zhang et al. (2022b); Sol y cols. (2023b); Yao et al. (2023) descomponen una tarea en algunas subtareas y las resuelven paso a paso hasta la respuesta final condicionada a cadenas de razonamiento generadas por LLM. Sol y cols. (2023a); Wang y cols. (2023) proponen verificar los resultados de los LLM mediante la realización de una nueva ronda de indicaciones; Liu y cols. (2021b); Feng et al. (2023) utilizan LLM para generar declaraciones de conocimiento en lenguaje natural e integrar declaraciones de conocimiento externo en indicaciones.
La colaboración LLM implica que varios LLM trabajen juntos para resolver una tarea determinada. Específicamente, la tarea se descompone en varias tareas intermedias y a cada LLM se le asigna la tarea de completar una tarea intermedia de forma independiente. La tarea dada se resuelve después de integrar o resumir estos resultados intermedios. El enfoque de colaboración LLM puede explotar las capacidades de los LLM, mejorar el desempeño en tareas complejas y permitir construir sistemas complicados. Shinn et al. (2023); Sol y cols. (2023a); Gero et al. (2023); Wang y Li (2023); Chen et al. (2023b) construyen tareas auxiliares (p. ej., tareas de reflexión y verificación) y revisan la respuesta a la tarea original refiriéndose al resultado de la tarea auxiliar. Talebirad y Nadiri (2023); Hong et al. (2023); Qian et al. (2023) asignan perfiles característicos (p. ej., director de proyectos, ingeniero de software) a los LLM y obtienen mejoras en el rendimiento en tareas específicas de los personajes a través de animaciones de comportamiento. Li y col. (2022); Zeng et al. (2022a); Chen et al. (2023a); Du et al. (2023); Liang et al. (2023) utilizan una estrategia de debate en la que varios LLM diferentes proponen sus propias respuestas a la tarea dada y debaten en múltiples turnos hasta obtener una respuesta final común. Además, Shen et al. (2023); Gao et al. (2023); Ge et al. (2023); Zhang et al. (2023c); Hao y cols. (2023) emplean un LLM como controlador de tareas, que diseña un plan para la tarea dada, selecciona modelos expertos para su implementación y resume las respuestas de las tareas planificadas intermedias. Otros LLM actúan como ejecutores de tareas y completan tareas intermedias en sus áreas de especialización.
Este documento está disponible en arxiv bajo licencia CC 4.0.