Autores:
(1) Xiaofei Sun, Universidade de Zhejiang;
(2) Xiaoya Li, Shannon.AI e Bytedance;
(3) Shengyu Zhang, Universidade de Zhejiang;
(4) Shuhe Wang, Universidade de Pequim;
(5) Fei Wu, Universidade de Zhejiang;
(6) Jiwei Li, Universidade de Zhejiang;
(7) Tianwei Zhang, Universidade Tecnológica de Nanyang;
(8) Guoyin Wang, Shannon.AI e Bytedance.
Negociação LLM para Análise de Sentimento
Um paradigma padrão para análise de sentimento é confiar em um LLM singular e tomar a decisão em uma única rodada no âmbito da aprendizagem in-contextual. Esta estrutura sofre a principal desvantagem de que o resultado de um único turno gerado por um único LLM pode não fornecer a decisão perfeita, assim como os humanos às vezes precisam de múltiplas tentativas para acertar as coisas. Isto é especialmente verdadeiro para a tarefa de análise de sentimentos, onde é necessário um raciocínio profundo para abordar o fenómeno linguístico complexo (por exemplo, composição oracional, ironia, etc.) na entrada.
Para resolver esse problema, este artigo apresenta uma estrutura de negociação multi-LLM para análise de sentimento. A estrutura consiste em um gerador infundido de raciocínio para fornecer decisão junto com a justificativa, um discriminador derivado de explicação para avaliar a credibilidade do gerador. O gerador e o discriminador iteram até que um consenso seja alcançado. A estrutura proposta abordou naturalmente o desafio acima mencionado, pois somos capazes de aproveitar as habilidades complementares de dois LLMs e fazer com que eles usem a lógica para persuadir um ao outro para a correção.
Experimentos em uma ampla gama de benchmarks de análise de sentimento (SST-2, Movie Review, Twitter, yelp, amazon, IMDB) demonstram a eficácia da abordagem proposta: ela produz consistentemente desempenhos melhores do que a linha de base da ICL em todos os benchmarks, e até mesmo desempenhos superiores para linhas de base supervisionadas nos conjuntos de dados do Twitter e de resenhas de filmes.
Análise de sentimento (Pang e Lee, 2008; Go et al., 2009; Maas et al., 2011a; Zhang e Liu, 2012; Baccianella et al., 2010; Medhat et al., 2014; Bakshi et al., 2016; Zhang et al., 2018) visa extrair a polaridade de opinião expressa por um pedaço de texto. Avanços recentes em grandes modelos de linguagem (LLMs) (Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023a,b; Anil et al., 2023; Zeng et al., 2022b; OpenAI, 2023 ; Bai et al., 2023) abrem uma nova porta para a resolução da tarefa (Lu et al., 2021; Kojima et al., 2022; Wang et al., 2022b; Wei et al., 2022b; Wan et al. , 2023; Wang et al., 2023; Sun et al., 2023b,a; ICL), os LLMs são capazes de alcançar desempenhos comparáveis às estratégias de aprendizagem supervisionada (Lin et al., 2021; Sun et al., 2021; Phan e Ogunbona, 2020; Dai et al., 2021) com apenas um pequeno número de exemplos de treinamento .
As abordagens existentes que utilizam LLMs para análise de sentimentos geralmente dependem de um LLM singular e tomam uma decisão em uma única rodada sob ICL. Esta estratégia apresenta a seguinte desvantagem: o resultado de um único turno gerado por um único LLM pode não fornecer a resposta perfeita: assim como os humanos às vezes precisam de múltiplas tentativas para acertar, podem ser necessárias várias rodadas antes que um LLM tome a decisão certa. Isto é especialmente verdadeiro para a tarefa de análise de sentimentos, onde os LLMs geralmente precisam articular o processo de raciocínio para abordar o fenômeno linguístico complexo (por exemplo, composição oracional, ironia, etc.) na frase de entrada.
Para resolver esta questão, neste artigo, propomos uma estratégia de negociação multi-LLM para análise de sentimento. O núcleo da estratégia proposta é uma estrutura gerador-discriminador, onde um LLM atua como gerador (G) para produzir decisões de sentimento, enquanto o outro atua como discriminador (D), encarregado de avaliar a credibilidade do resultado gerado a partir do primeiro LLM. O método proposto inova em três aspectos: (1) Gerador infundido de raciocínio (G): um LLM que adere a uma cadeia de raciocínio estruturada, aprimorando o ICL do gerador ao mesmo tempo que oferece ao discriminador evidências e insights para avaliar sua validade; (2) Discriminador derivado de explicação (D); outro LLM concebido para oferecer justificações pós-avaliação para os seus julgamentos; (3) Negociação: dois LLMs atuam como gerador e discriminador e realizam a negociação até que um consenso seja alcançado.
Esta estratégia aproveita as capacidades colectivas dos dois LLMs e fornece o canal para o modelo corrigir respostas imperfeitas, resolvendo assim naturalmente o problema de que um único LLM não pode produzir a decisão correcta na sua primeira tentativa.
As contribuições deste trabalho podem ser resumidas da seguinte forma: 1) fornecemos uma nova perspectiva sobre como a análise de sentimento pode se beneficiar da negociação multi-LLM. 2) introduzimos uma estrutura de tomada de decisão de troca de função de gerador-discriminador que permite a colaboração multi-LLM por meio da geração e validação iterativa de categorizações de sentimento. 3) nossas descobertas empíricas oferecem evidências da eficácia da abordagem proposta: experimentos em uma ampla gama de benchmarks de análise de sentimento (SST-2, Movie Review, Twitter, yelp, amazon, IMDB) demonstram que o método proposto produz consistentemente melhores desempenhos do que a linha de base da ICL em todos os benchmarks e até mesmo desempenhos superiores às linhas de base supervisionadas nos conjuntos de dados do Twitter e de resenhas de filmes.
Este artigo está disponível no arxiv sob licença CC 4.0.