paint-brush
Nova estratégia Multi-LLM aumenta a precisão na análise de sentimentopor@textmodels
1,720 leituras
1,720 leituras

Nova estratégia Multi-LLM aumenta a precisão na análise de sentimento

Muito longo; Para ler

Uma estrutura de negociação multi-LLM para análise de sentimento usa um modelo gerador-discriminador para refinar iterativamente as decisões, superando as limitações de turno único. Essa abordagem melhora o desempenho em vários benchmarks, incluindo Twitter e resenhas de filmes.
featured image - Nova estratégia Multi-LLM aumenta a precisão na análise de sentimento
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autores:

(1) Xiaofei Sun, Universidade de Zhejiang;

(2) Xiaoya Li, Shannon.AI e Bytedance;

(3) Shengyu Zhang, Universidade de Zhejiang;

(4) Shuhe Wang, Universidade de Pequim;

(5) Fei Wu, Universidade de Zhejiang;

(6) Jiwei Li, Universidade de Zhejiang;

(7) Tianwei Zhang, Universidade Tecnológica de Nanyang;

(8) Guoyin Wang, Shannon.AI e Bytedance.

Tabela de links

Resumo e introdução

Trabalho relatado

Negociação LLM para Análise de Sentimento

Experimentos

Estudos de Ablação

Conclusão e Referências

Abstrato

Um paradigma padrão para análise de sentimento é confiar em um LLM singular e tomar a decisão em uma única rodada no âmbito da aprendizagem in-contextual. Esta estrutura sofre a principal desvantagem de que o resultado de um único turno gerado por um único LLM pode não fornecer a decisão perfeita, assim como os humanos às vezes precisam de múltiplas tentativas para acertar as coisas. Isto é especialmente verdadeiro para a tarefa de análise de sentimentos, onde é necessário um raciocínio profundo para abordar o fenómeno linguístico complexo (por exemplo, composição oracional, ironia, etc.) na entrada.


Para resolver esse problema, este artigo apresenta uma estrutura de negociação multi-LLM para análise de sentimento. A estrutura consiste em um gerador infundido de raciocínio para fornecer decisão junto com a justificativa, um discriminador derivado de explicação para avaliar a credibilidade do gerador. O gerador e o discriminador iteram até que um consenso seja alcançado. A estrutura proposta abordou naturalmente o desafio acima mencionado, pois somos capazes de aproveitar as habilidades complementares de dois LLMs e fazer com que eles usem a lógica para persuadir um ao outro para a correção.


Experimentos em uma ampla gama de benchmarks de análise de sentimento (SST-2, Movie Review, Twitter, yelp, amazon, IMDB) demonstram a eficácia da abordagem proposta: ela produz consistentemente desempenhos melhores do que a linha de base da ICL em todos os benchmarks, e até mesmo desempenhos superiores para linhas de base supervisionadas nos conjuntos de dados do Twitter e de resenhas de filmes.

1. Introdução

Análise de sentimento (Pang e Lee, 2008; Go et al., 2009; Maas et al., 2011a; Zhang e Liu, 2012; Baccianella et al., 2010; Medhat et al., 2014; Bakshi et al., 2016; Zhang et al., 2018) visa extrair a polaridade de opinião expressa por um pedaço de texto. Avanços recentes em grandes modelos de linguagem (LLMs) (Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023a,b; Anil et al., 2023; Zeng et al., 2022b; OpenAI, 2023 ; Bai et al., 2023) abrem uma nova porta para a resolução da tarefa (Lu et al., 2021; Kojima et al., 2022; Wang et al., 2022b; Wei et al., 2022b; Wan et al. , 2023; Wang et al., 2023; Sun et al., 2023b,a; ICL), os LLMs são capazes de alcançar desempenhos comparáveis às estratégias de aprendizagem supervisionada (Lin et al., 2021; Sun et al., 2021; Phan e Ogunbona, 2020; Dai et al., 2021) com apenas um pequeno número de exemplos de treinamento .


As abordagens existentes que utilizam LLMs para análise de sentimentos geralmente dependem de um LLM singular e tomam uma decisão em uma única rodada sob ICL. Esta estratégia apresenta a seguinte desvantagem: o resultado de um único turno gerado por um único LLM pode não fornecer a resposta perfeita: assim como os humanos às vezes precisam de múltiplas tentativas para acertar, podem ser necessárias várias rodadas antes que um LLM tome a decisão certa. Isto é especialmente verdadeiro para a tarefa de análise de sentimentos, onde os LLMs geralmente precisam articular o processo de raciocínio para abordar o fenômeno linguístico complexo (por exemplo, composição oracional, ironia, etc.) na frase de entrada.


Para resolver esta questão, neste artigo, propomos uma estratégia de negociação multi-LLM para análise de sentimento. O núcleo da estratégia proposta é uma estrutura gerador-discriminador, onde um LLM atua como gerador (G) para produzir decisões de sentimento, enquanto o outro atua como discriminador (D), encarregado de avaliar a credibilidade do resultado gerado a partir do primeiro LLM. O método proposto inova em três aspectos: (1) Gerador infundido de raciocínio (G): um LLM que adere a uma cadeia de raciocínio estruturada, aprimorando o ICL do gerador ao mesmo tempo que oferece ao discriminador evidências e insights para avaliar sua validade; (2) Discriminador derivado de explicação (D); outro LLM concebido para oferecer justificações pós-avaliação para os seus julgamentos; (3) Negociação: dois LLMs atuam como gerador e discriminador e realizam a negociação até que um consenso seja alcançado.


Figura 1: Ilustração de um gerador (G) e um discriminador (D) alcançando consenso por meio de uma negociação. Cada rodada consiste em um prompt do usuário e uma resposta de G ou D. Especificamente, um prompt do usuário inclui quatro elementos: uma descrição da tarefa, demonstrações de poucos disparos (abreviadamente), uma entrada e uma resposta do último turno (se aplicável). As respostas de G ou D começam com afirmações de que a entrada contém sentimento positivo, seguidas de justificativa.


Esta estratégia aproveita as capacidades colectivas dos dois LLMs e fornece o canal para o modelo corrigir respostas imperfeitas, resolvendo assim naturalmente o problema de que um único LLM não pode produzir a decisão correcta na sua primeira tentativa.


As contribuições deste trabalho podem ser resumidas da seguinte forma: 1) fornecemos uma nova perspectiva sobre como a análise de sentimento pode se beneficiar da negociação multi-LLM. 2) introduzimos uma estrutura de tomada de decisão de troca de função de gerador-discriminador que permite a colaboração multi-LLM por meio da geração e validação iterativa de categorizações de sentimento. 3) nossas descobertas empíricas oferecem evidências da eficácia da abordagem proposta: experimentos em uma ampla gama de benchmarks de análise de sentimento (SST-2, Movie Review, Twitter, yelp, amazon, IMDB) demonstram que o método proposto produz consistentemente melhores desempenhos do que a linha de base da ICL em todos os benchmarks e até mesmo desempenhos superiores às linhas de base supervisionadas nos conjuntos de dados do Twitter e de resenhas de filmes.


Este artigo está disponível no arxiv sob licença CC 4.0.