Autoren:
(1) Xiaofei Sun, Zhejiang-Universität;
(2) Xiaoya Li, Shannon.AI und Bytedance;
(3) Shengyu Zhang, Zhejiang-Universität;
(4) Shuhe Wang, Peking-Universität;
(5) Fei Wu, Zhejiang Universität;
(6) Jiwei Li, Zhejiang Universität;
(7) Tianwei Zhang, Technische Universität Nanyang;
(8) Guoyin Wang, Shannon.AI und Bytedance.
Zusammenfassung und Einleitung
LLM Verhandlung für Sentimentanalyse
Schlussfolgerung und Referenzen
In diesem Abschnitt beschreiben wir detailliert das Multi-LLM-Verhandlungsframework für die Sentimentanalyse: Zwei LLMs fungieren als Antwortgenerator und Diskriminator. Wir bezeichnen die Interaktion zwischen Generator und Diskriminator als Verhandlung. Die Verhandlung wird wiederholt, bis ein Konsens erreicht ist oder die maximale Anzahl an Verhandlungsrunden überschritten wird. Abbildungen 1 und 2 zeigen Illustrationen.
Der Generator basiert auf einem umfangreichen Sprachmodell. Wir fragen den Antwortgenerator basierend auf dem ICL-Paradigma durch Eingabeaufforderungen ab, mit dem Ziel, eine schrittweise Argumentationskette und eine Entscheidung hinsichtlich der Sentimentpolarität des Test-Inputs zu generieren.
Eingabeaufforderungen bestehen aus drei Elementen: einer Aufgabenbeschreibung, Demonstrationen und einer Testeingabe. Die Aufgabenbeschreibung ist eine Beschreibung der Aufgabe in natürlicher Sprache (z. B. „Bitte bestimmen Sie die allgemeine Stimmung der Testeingabe.“); die Testeingabe ist die Texteingabe im Testsatz (z. B. „Der Himmel ist blau.“); Demonstrationen stammen aus dem Trainingssatz der Aufgabe. Jede besteht aus drei Elementen: Eingabe, Argumentationsketten und emotionale Entscheidung.
Für jeden Test-Input rufen wir zunächst K nächste Nachbarn (Input, Sentiment-Entscheidung) aus dem Trainingsset als Demonstrationen ab. Dann wandeln wir Demonstrationen in (Input, Denkprozess, Sentiment-Entscheidung)-Tripletts um, indem wir den Generator auffordern, eine Denkkette zu erstellen. Nachdem wir die Aufgabenbeschreibung, Demonstrationen und den Test-Input verknüpft haben, leiten wir die Aufforderung an den Generator weiter, der mit einer schrittweisen Denkkette und einer Sentiment-Entscheidung antwortet.
Der Diskriminator wird von einem anderen LLM unterstützt. Nach Abschluss des Antwortgenerierungsprozesses wird der Antwortdiskriminator verwendet, um zu beurteilen, ob die vom Generator getroffene Entscheidung richtig ist, und um eine vernünftige Erklärung bereitzustellen.
Um dieses Ziel zu erreichen, konstruieren wir zunächst Eingabeaufforderungen für den Antwortdiskriminator. Die Eingabeaufforderung besteht aus vier Elementen: einer Aufgabenbeschreibung, Demonstrationen, einer Testeingabe und der Antwort des Antwortgenerators. Die Aufgabenbeschreibung ist ein Textstück, das die Aufgabe in natürlicher Sprache beschreibt (z. B. „Bitte bestimmen Sie, ob die Entscheidung richtig ist.“). Jede Demonstration besteht aus sechs Elementen: (Eingabetext, eine Argumentationskette, Stimmungsentscheidung, Diskriminatoreinstellung, Diskriminatorerklärungen, Diskriminatorentscheidung) und wird konstruiert, indem der Antwortdiskriminator aufgefordert wird, Erklärungen abzugeben, warum die Stimmungsentscheidung für den Eingabetext richtig ist.
Dann fragen wir den Diskriminator mit der Konstruktionsaufforderung. Der Antwortdiskriminator antwortet mit einer Textzeichenfolge, die eine Einstellung (d. h. ja, nein) enthält, die angibt, ob der Diskriminator mit dem Generator übereinstimmt, Erklärungen, die erklären, warum der Diskriminator mit dem Generator übereinstimmt/nicht übereinstimmt, und eine Diskriminatorentscheidung, die die Stimmung des Test-Inputs bestimmt.
Warum zwei LLMs und nicht eines? Es gibt zwei Gründe, zwei verschiedene LLMs separat für den Generator und den Diskriminator zu verwenden, anstatt ein einziges LLM für zwei Rollen zu verwenden: (1) Wenn ein LLM als Generator aufgrund falscher Argumentation einen Fehler macht, ist es wahrscheinlicher, dass es auch als Diskriminator den gleichen Fehler macht, da Generator und Diskriminator aus demselben Modell sehr wahrscheinlich ähnliche Begründungen verwenden; (2) durch die Verwendung zweier separater Modelle können wir die Vorteile der sich ergänzenden Fähigkeiten der beiden Modelle nutzen.
Nachdem zwei LLMs eine Verhandlung beendet haben, bitten wir sie, die Rollen zu tauschen und eine neue Verhandlung zu beginnen, bei der das zweite LLM als Generator und das erste LLM als Diskriminator fungiert. Wir bezeichnen die Interaktion zweier LLMs mit vertauschten Rollen als rollengetauschte Verhandlung. Ebenso wird die rollengetauschte Verhandlung beendet, bis ein Konsens erreicht ist oder die maximale Anzahl an Verhandlungsrunden überschritten ist.
Wenn beide Verhandlungen zu einer Einigung führen und ihre Entscheidungen gleich sind, können wir jede Entscheidung als endgültige Entscheidung wählen, da sie gleich sind. Wenn eine der Verhandlungen keinen Konsens erreicht, während die andere zu einer Entscheidung kommt, wählen wir die Entscheidung aus der Verhandlung, die einen Konsens erreicht hat, als endgültige Entscheidung. Wenn jedoch beide Verhandlungen einen Konsens erreichen, ihre Entscheidungen jedoch nicht übereinstimmen, benötigen wir die Unterstützung eines zusätzlichen Sprachmodells (LLM), wie weiter unten ausführlicher erläutert wird.
Einführung eines dritten LLM Wenn die Entscheidungen aus den beiden Verhandlungen nicht übereinstimmen, führen wir ein drittes LLM ein und führen die Verhandlung und die rollengetauschte Verhandlung mit jedem der beiden oben genannten LLMs durch. Anschließend erhalten wir 6 Verhandlungsergebnisse und stimmen über diese Ergebnisse ab: Die Entscheidung, die am häufigsten vorkommt, wird als Sentimentpolarität des Eingabetests genommen.
Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar .