paint-brush
Neue Multi-LLM-Strategie steigert Genauigkeit bei der Sentimentanalysevon@textmodels
1,716 Lesungen
1,716 Lesungen

Neue Multi-LLM-Strategie steigert Genauigkeit bei der Sentimentanalyse

Zu lang; Lesen

Ein Multi-LLM-Verhandlungsrahmen für die Sentimentanalyse verwendet ein Generator-Diskriminator-Modell, um Entscheidungen iterativ zu verfeinern und so die Einschränkungen einzelner Durchgänge zu überwinden. Dieser Ansatz verbessert die Leistung bei verschiedenen Benchmarks, darunter Twitter und Filmkritiken.
featured image - Neue Multi-LLM-Strategie steigert Genauigkeit bei der Sentimentanalyse
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autoren:

(1) Xiaofei Sun, Zhejiang-Universität;

(2) Xiaoya Li, Shannon.AI und Bytedance;

(3) Shengyu Zhang, Zhejiang-Universität;

(4) Shuhe Wang, Peking-Universität;

(5) Fei Wu, Zhejiang Universität;

(6) Jiwei Li, Zhejiang Universität;

(7) Tianwei Zhang, Technische Universität Nanyang;

(8) Guoyin Wang, Shannon.AI und Bytedance.

Linktabelle

Zusammenfassung und Einleitung

Ähnliche Projekte

LLM Verhandlung für Sentimentanalyse

Experimente

Ablationsstudien

Schlussfolgerung und Referenzen

Abstrakt

Ein Standardparadigma für die Sentimentanalyse besteht darin, sich auf ein einzelnes LLM zu verlassen und die Entscheidung im Rahmen des kontextbezogenen Lernens in einer einzigen Runde zu treffen. Dieses Framework hat den entscheidenden Nachteil, dass die von einem einzelnen LLM generierte Single-Run-Ausgabe möglicherweise nicht die perfekte Entscheidung liefert, so wie Menschen manchmal mehrere Versuche benötigen, um die Dinge richtig zu machen. Dies gilt insbesondere für die Aufgabe der Sentimentanalyse, bei der tiefgreifendes Denken erforderlich ist, um die komplexen linguistischen Phänomene (z. B. Satzzusammensetzung, Ironie usw.) in der Eingabe zu berücksichtigen.


Um dieses Problem zu lösen, stellt dieses Dokument ein Multi-LLM-Verhandlungsframework für die Sentimentanalyse vor. Das Framework besteht aus einem Generator mit Argumentation, der Entscheidungen zusammen mit Begründungen liefert, und einem Diskriminator, der Erklärungen ableitet, um die Glaubwürdigkeit des Generators zu bewerten. Der Generator und der Diskriminator iterieren, bis ein Konsens erreicht ist. Das vorgeschlagene Framework befasst sich auf natürliche Weise mit der oben genannten Herausforderung, da wir die komplementären Fähigkeiten zweier LLMs nutzen und sie dazu bringen können, sich gegenseitig mit Begründungen zu einer Korrektur zu bewegen.


Experimente mit einer großen Bandbreite von Benchmarks zur Stimmungsanalyse (SST-2, Filmkritik, Twitter, Yelp, Amazon, IMDB) zeigen die Wirksamkeit des vorgeschlagenen Ansatzes: Er liefert über alle Benchmarks hinweg durchweg bessere Ergebnisse als die ICL-Basislinie und in den Twitter- und Filmkritik-Datensätzen sogar bessere Ergebnisse als die überwachten Basislinien.

1. Einleitung

Die Sentimentanalyse (Pang und Lee, 2008; Go et al., 2009; Maas et al., 2011a; Zhang und Liu, 2012; Baccianella et al., 2010; Medhat et al., 2014; Bakshi et al., 2016; Zhang et al., 2018) zielt darauf ab, die durch einen Textblock zum Ausdruck gebrachte Meinungspolarität zu extrahieren. Jüngste Fortschritte bei großen Sprachmodellen (LLMs) (Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023a,b; Anil et al., 2023; Zeng et al., 2022b; OpenAI, 2023; Bai et al., 2023) öffnen eine neue Tür zur Lösung der Aufgabe (Lu et al., 2021; Kojima et al., 2022; Wang et al., 2022b; Wei et al., 2022b; Wan et al., 2023; Wang et al., 2023; Sun et al., 2023b,a; Lightman et al., 2023; Li et al., 2023; Schick et al., 2023): unter dem Paradigma des In-Context-Learnings (ICL) können LLMs mit nur einer geringen Anzahl von Trainingsbeispielen Leistungen erzielen, die mit überwachten Lernstrategien vergleichbar sind (Lin et al., 2021; Sun et al., 2021; Phan und Ogunbona, 2020; Dai et al., 2021).


Bestehende Ansätze, die LLMs für die Sentimentanalyse nutzen, basieren normalerweise auf einem einzelnen LLM und treffen eine Entscheidung in einer einzigen Runde unter ICL. Diese Strategie hat den folgenden Nachteil: Die von einem einzelnen LLM generierte Single-Run-Ausgabe liefert möglicherweise nicht die perfekte Antwort: So wie Menschen manchmal mehrere Versuche benötigen, um die Dinge richtig zu machen, kann es mehrere Runden dauern, bis ein LLM die richtige Entscheidung trifft. Dies gilt insbesondere für die Aufgabe der Sentimentanalyse, bei der LLMs normalerweise den Denkprozess artikulieren müssen, um das komplexe linguistische Phänomen (z. B. Satzzusammensetzung, Ironie usw.) im Eingabesatz zu berücksichtigen.


Um dieses Problem zu lösen, schlagen wir in diesem Artikel eine Multi-LLM-Verhandlungsstrategie für die Sentimentanalyse vor. Der Kern der vorgeschlagenen Strategie ist ein Generator-Diskriminator-Framework, bei dem ein LLM als Generator (G) fungiert, um Sentimententscheidungen zu treffen, während der andere als Diskriminator (D) fungiert und die Glaubwürdigkeit der vom ersten LLM generierten Ausgabe bewerten soll. Die vorgeschlagene Methode ist in dreierlei Hinsicht innovativ: (1) Mit Argumentation angereicherter Generator (G): ein LLM, das einer strukturierten Argumentationskette folgt und die ICL des Generators verbessert, während es dem Diskriminator die Beweise und Erkenntnisse bietet, um seine Gültigkeit zu bewerten; (2) Erklärungsableitender Diskriminator (D); ein anderer LLM, der so konzipiert ist, dass er nach der Bewertung Begründungen für seine Urteile bietet; (3) Verhandlung: zwei LLMs fungieren als Generator und Diskriminator und führen die Verhandlung durch, bis ein Konsens erreicht ist.


Abbildung 1: Eine Darstellung eines Generators (G) und eines Diskriminators (D), die durch eine Verhandlung einen Konsens erzielen. Jede Runde besteht aus einer Benutzeraufforderung und einer Antwort von entweder G oder D. Genauer gesagt umfasst eine Benutzeraufforderung vier Elemente: eine Aufgabenbeschreibung, Demonstrationen mit wenigen Versuchen (kurz gesagt), eine Eingabe und eine Antwort aus der letzten Runde (falls zutreffend). Antworten von G oder D beginnen mit Aussagen, dass die Eingabe eine positive Stimmung enthält, gefolgt von einer Begründung.


Diese Strategie nutzt die gemeinsamen Fähigkeiten der beiden LLMs und stellt dem Modell einen Kanal zur Korrektur unvollständiger Antworten bereit. Dadurch wird auf natürliche Weise das Problem gelöst, dass ein einzelnes LLM nicht beim ersten Versuch die richtige Entscheidung liefern kann.


Die Beiträge dieser Arbeit können wie folgt zusammengefasst werden: 1) Wir liefern eine neuartige Perspektive, wie die Sentimentanalyse von der Verhandlung mehrerer LLMs profitieren kann. 2) Wir führen ein Generator-Discriminator Role-Switching DecisionMaking-Framework ein, das die Zusammenarbeit mehrerer LLMs durch iteratives Generieren und Validieren von Sentimentkategorisierungen ermöglicht. 3) Unsere empirischen Ergebnisse liefern Beweise für die Wirksamkeit des vorgeschlagenen Ansatzes: Experimente mit einer breiten Palette von Sentimentanalyse-Benchmarks (SST-2, Movie Review, Twitter, Yelp, Amazon, IMDB) zeigen, dass die vorgeschlagene Methode über alle Benchmarks hinweg durchweg bessere Leistungen als die ICL-Baseline liefert und in den Twitter- und Movie Review-Datensätzen sogar bessere Leistungen als überwachte Baselines erzielt.