paint-brush
La nouvelle stratégie multi-LLM améliore la précision de l'analyse des sentimentspar@textmodels
1,791 lectures
1,791 lectures

La nouvelle stratégie multi-LLM améliore la précision de l'analyse des sentiments

Trop long; Pour lire

Un cadre de négociation multi-LLM pour l'analyse des sentiments utilise un modèle générateur-discriminateur pour affiner les décisions de manière itérative, en surmontant les limitations d'un seul tour. Cette approche améliore les performances sur divers critères, notamment Twitter et les critiques de films.
featured image - La nouvelle stratégie multi-LLM améliore la précision de l'analyse des sentiments
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Auteurs:

(1) Xiaofei Sun, Université du Zhejiang ;

(2) Xiaoya Li, Shannon.AI et Bytedance ;

(3) Shengyu Zhang, Université du Zhejiang ;

(4) Shuhe Wang, Université de Pékin ;

(5) Fei Wu, Université du Zhejiang ;

(6) Jiwei Li, Université du Zhejiang ;

(7) Tianwei Zhang, Université technologique de Nanyang ;

(8) Guoyin Wang, Shannon.AI et Bytedance.

Tableau des liens

Résumé et introduction

Travaux connexes

Négociation LLM pour l'analyse des sentiments

Expériences

Études sur l'ablation

Conclusion et références

Abstrait

Un paradigme standard pour l'analyse des sentiments consiste à s'appuyer sur un LLM unique et à prendre la décision en un seul tour dans le cadre d'un apprentissage en contexte. Ce cadre présente le principal inconvénient que la sortie en un seul tour générée par un seul LLM pourrait ne pas fournir la décision parfaite, tout comme les humains ont parfois besoin de plusieurs tentatives pour faire les choses correctement. Cela est particulièrement vrai pour la tâche d'analyse des sentiments où un raisonnement approfondi est nécessaire pour aborder le phénomène linguistique complexe (par exemple, la composition des clauses, l'ironie, etc.) dans l'entrée.


Pour résoudre ce problème, cet article présente un cadre de négociation multi-LLM pour l'analyse des sentiments. Le cadre se compose d'un générateur infusé de raisonnement pour fournir une décision accompagnée d'une justification, d'un discriminateur explicatif pour évaluer la crédibilité du générateur. Le générateur et le discriminateur itèrent jusqu'à ce qu'un consensus soit atteint. Le cadre proposé répondait naturellement au défi susmentionné, car nous sommes en mesure de tirer parti des capacités complémentaires de deux LLM et de leur demander d'utiliser la logique pour se persuader mutuellement de corriger leur situation.


Des expériences sur un large éventail de benchmarks d'analyse des sentiments (SST-2, Movie Review, Twitter, yelp, amazon, IMDB) démontrent l'efficacité de l'approche proposée : elle donne systématiquement de meilleures performances que la référence ICL dans tous les benchmarks, et même des performances supérieures à lignes de base supervisées sur les ensembles de données Twitter et de critiques de films.

1. Introduction

Analyse des sentiments (Pang et Lee, 2008 ; Go et al., 2009 ; Maas et al., 2011a ; Zhang et Liu, 2012 ; Baccianella et al., 2010 ; Medhat et al., 2014 ; Bakshi et al., 2016 ; Zhang et al., 2018) vise à extraire la polarité d’opinion exprimée par un morceau de texte. Progrès récents dans les grands modèles de langage (LLM) (Brown et al., 2020 ; Ouyang et al., 2022 ; Touvron et al., 2023a,b ; Anil et al., 2023 ; Zeng et al., 2022b ; OpenAI, 2023 ; Bai et al., 2023) ouvrent une nouvelle porte pour résoudre la tâche (Lu et al., 2021 ; Kojima et al., 2022 ; Wang et al., 2022b ; Wei et al., 2022b ; Wan et al. , 2023 ; Wang et al., 2023 ; Sun et al., 2023b,a ; Lightman et al., 2023 ; Schick et al., 2023 : sous le paradigme de l'apprentissage en contexte ( ICL), les LLM sont capables d'atteindre des performances comparables aux stratégies d'apprentissage supervisé (Lin et al., 2021 ; Sun et al., 2021 ; Phan et Ogunbona, 2020 ; Dai et al., 2021) avec seulement un petit nombre d'exemples de formation .


Les approches existantes qui exploitent les LLM pour l'analyse des sentiments s'appuient généralement sur un seul LLM et prennent une décision en un seul tour sous ICL. Cette stratégie souffre de l'inconvénient suivant : le résultat en un seul tour généré par un seul LLM peut ne pas fournir la réponse parfaite : tout comme les humains ont parfois besoin de plusieurs tentatives pour faire les choses correctement, plusieurs tours peuvent être nécessaires avant qu'un LLM prenne la bonne décision. Cela est particulièrement vrai pour la tâche d'analyse des sentiments, où les LLM doivent généralement articuler le processus de raisonnement pour aborder le phénomène linguistique complexe (par exemple, la composition des clauses, l'ironie, etc.) dans la phrase d'entrée.


Pour résoudre ce problème, dans cet article, nous proposons une stratégie de négociation multi-LLM pour l'analyse des sentiments. Le cœur de la stratégie proposée est un cadre générateur-discriminateur, dans lequel un LLM agit comme générateur (G) pour produire des décisions de sentiment, tandis que l'autre agit comme discriminateur (D), chargé d'évaluer la crédibilité du résultat généré par le premier LLM. La méthode proposée innove sur trois aspects : (1) Générateur infusé de raisonnement (G) : un LLM qui adhère à une chaîne de raisonnement structurée, améliorant l'ICL du générateur tout en offrant au discriminateur les preuves et les informations nécessaires pour évaluer sa validité ; (2) Discriminateur dérivé d'explications (D); d'autres LLM conçus pour offrir des justifications post-évaluation pour ses jugements ; (3) Négociation : deux LLM jouent le rôle de générateur et de discriminateur et mènent la négociation jusqu'à ce qu'un consensus soit atteint.


Figure 1 : Illustration d'un générateur (G) et d'un discriminateur (D) parvenant à un consensus via une négociation. Chaque tour se compose d'une invite utilisateur et d'une réponse de G ou D. Plus précisément, une invite utilisateur comprend quatre éléments : une description de la tâche, des démonstrations en quelques plans (abrégez-le pour faire court), une entrée et une réponse du dernier tour. (le cas échéant). Les réponses de G ou D commencent par des déclarations selon lesquelles l'entrée contient un sentiment positif, suivies d'une justification.


Cette stratégie exploite les capacités collectives des deux LLM et fournit au modèle un canal pour corriger les réponses imparfaites, et résout ainsi naturellement le problème selon lequel un seul LLM ne peut pas donner la bonne décision du premier coup.


Les contributions de ce travail peuvent être résumées comme suit : 1) nous fournissons une nouvelle perspective sur la façon dont l'analyse des sentiments peut bénéficier de la négociation multi-LLM. 2) nous introduisons un cadre de prise de décision à commutation de rôle générateur-discriminateur qui permet une collaboration multi-LLM en générant et en validant de manière itérative des catégorisations de sentiments. 3) nos résultats empiriques offrent des preuves de l'efficacité de l'approche proposée : des expériences sur un large éventail de critères d'analyse des sentiments (SST-2, Movie Review, Twitter, yelp, amazon, IMDB) démontrent que la méthode proposée donne systématiquement de meilleures performances que la référence ICL dans tous les benchmarks, et même des performances supérieures aux références supervisées sur les ensembles de données Twitter et de critiques de films.


Cet article est disponible sur arxiv sous licence CC 4.0.