paint-brush
Die Leistungsfähigkeit von Multi-LLM-Frameworks bei der Bewältigung von Herausforderungen in der Sentimentanalysevon@textmodels
286 Lesungen

Die Leistungsfähigkeit von Multi-LLM-Frameworks bei der Bewältigung von Herausforderungen in der Sentimentanalyse

Zu lang; Lesen

Neueste Fortschritte in der Sentimentanalyse nutzen die Multi-LLM-Zusammenarbeit, bei der ein Generator-Diskriminator-Modell Entscheidungen iterativ verfeinert. Dieser Ansatz verbessert die Genauigkeit, indem er komplexe linguistische Herausforderungen angeht und traditionelle ICL-Methoden und überwachte Baselines übertrifft.
featured image - Die Leistungsfähigkeit von Multi-LLM-Frameworks bei der Bewältigung von Herausforderungen in der Sentimentanalyse
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autoren:

(1) Xiaofei Sun, Zhejiang Universität;

(2) Xiaoya Li, Shannon.AI und Bytedance;

(3) Shengyu Zhang, Zhejiang-Universität;

(4) Shuhe Wang, Peking-Universität;

(5) Fei Wu, Zhejiang Universität;

(6) Jiwei Li, Zhejiang Universität;

(7) Tianwei Zhang, Technische Universität Nanyang;

(8) Guoyin Wang, Shannon.AI und Bytedance.

Linktabelle

Zusammenfassung und Einleitung

Ähnliche Projekte

LLM Verhandlung für Sentimentanalyse

Experimente

Ablationsstudien

Schlussfolgerung und Referenzen

2. Verwandte Arbeiten

2.1 Stimmungsanalyse

Bei der Sentimentanalyse (Pang und Lee, 2008; Go et al., 2009; Maas et al., 2011a; Zhang und Liu, 2012; Baccianella et al., 2010; Medhat et al., 2014; Bakshi et al., 2016; Zhang et al., 2018) handelt es sich um eine Aufgabe, deren Ziel darin besteht, die allgemeine Stimmungspolarität (z. B. positiv, negativ, neutral) eines bestimmten Textes zu bestimmen. Frühere Arbeiten formalisierten die Aufgabe oft als zweistufiges Problem: (1) Extrahieren von Merkmalen mithilfe von RNNs (Socher et al., 2013; Qian et al., 2016; Peled und Reichart, 2017; Wang et al., 2016b; Guggilla et al., 2016; Vo und Zhang, 2015), CNNs (Kalchbrenner et al., 2014; Wang et al., 2016a; Guan et al., 2016; Yu und Jiang, 2016; Mishra et al., 2017), vortrainierten Sprachmodellen (Lin et al., 2021; Sun et al., 2021; Phan und Ogunbona, 2020; Dai et al., 2021) usw.; und (2) die extrahierten Merkmale in einen Klassifikator einspeisen, um eine vordefinierte sentimentale Bezeichnung zu erhalten.


In den letzten Jahren hat In-Context Learning (ICL) große Erfolge erzielt und das Paradigma von NLP-Aufgaben verändert. Viele Arbeiten passen ICL an die Aufgabe der Stimmungsanalyse an: Qin et al. (2023b); Sun et al. (2023a) schlagen eine Reihe von Strategien vor, um die Leistung von ChatGPT bei der Aufgabe der Stimmungsanalyse zu verbessern; Fei et al. (2023) schlagen ein Three-Hop-Argumentation-Framework vor, das den impliziten Aspekt, die Meinung und schließlich die Stimmungspolarität für die Aufgabe der impliziten Stimmungsanalyse induziert;ƒ Zhang et al. (2023d) stellen fest, dass LLMs bei der Aufgabe der binären Stimmungsklassifizierung eine zufriedenstellende Leistung erzielen können, bei komplexeren Aufgaben (z. B. feinkörnige Stimmungsanalyse), die ein tieferes Verständnis oder strukturierte Stimmungsinformationen erfordern, jedoch hinter der überwachten Basislinie zurückbleiben.

2.2 Große Sprachmodelle und kontextbezogenes Lernen

Große Sprachmodelle (LLMs) (Wang et al., 2022a; Zhang et al., 2023b) sind Modelle, die mit selbstüberwachten Lerntechniken an riesigen, unbeschrifteten Textkorpora trainiert werden. Basierend auf der Modellarchitektur können LLMs in drei Typen eingeteilt werden: (1) Nur-Encoder-Modelle, die einen Textencoder enthalten und die Eingabedarstellungen generieren, wie BERT (Devlin et al., 2018) und seine Varianten (Lan et al., 2019; Liu et al., 2019; Sun et al., 2020; Clark et al., 2020; Feng et al., 2020; Joshi et al., 2020; Sun et al., 2020, 2021); (2) Nur-Decoder-Modelle, die über einen Decoder verfügen und wie die Modelle der GPT-Reihe Text abhängig vom Eingabetext generieren (Radford et al., 2019; Brown et al., 2020; Keskar et al., 2019; Radford et al., 2019; Chowdhery et al., 2022; Ouyang et al., 2022; Zhang et al., 2022a; Scao et al., 2022; Zeng et al., 2022b; Touvron et al., 2023a; Peng et al., 2023; OpenAI, 2023); und (3) Encoder-Decoder-Modelle, die über ein Encoder-Decoder-Paar verfügen und Text abhängig von der Eingabedarstellung generieren, wie beispielsweise T5 (Raffel et al., 2020) und seine Varianten (Lewis et al., 2019; Xue et al., 2020).


Abbildung 2: Darstellung des Verhandlungsverfahrens. Die linke Demonstration zeigt einen Fall, in dem nach zwei Runden eine Einigung über die positive Stimmung erzielt wird, während die rechte Demonstration einen Fall zeigt, in dem zwei LLMs in drei Runden keine Einigung erzielen. Genauer gesagt umfasst eine Benutzeraufforderung vier Elemente: eine Aufgabenbeschreibung, wenige Demonstrationsversuche (kurz für „short“), eine Eingabe und eine Antwort aus der letzten Runde (falls zutreffend). Antworten des Generators oder Diskriminators beginnen mit Aussagen, dass die Eingabe entweder eine positive oder eine negative Stimmung enthält, gefolgt von Begründungen.

Beginnend mit GPT-3 (Brown et al., 2020) haben LLMs neue Fähigkeiten gezeigt (Wei et al., 2022a) und NLP-Aufgaben durch kontextloses Lernen (ICL) erledigt, wobei LLMs labelintensiven Text generieren, der auf einigen annotierten Beispielen ohne Gradientenaktualisierungen basiert. In der Literatur werden in vielen Studien Strategien zur Verbesserung der ICL-Leistung bei NLP-Aufgaben vorgeschlagen. Li und Liang (2021); Chevalier et al. (2023); Mu et al. (2023) optimieren Eingabeaufforderungen im kontinuierlichen Raum. Liu et al. (2021a); Wan et al. (2023); Zhang et al. (2023a) durchsuchen das Trainingsset, um zur Demonstration k nächste Nachbarn eines Test-Inputs abzurufen. Zhang et al. (2022b); Sun et al. (2023b); Yao et al. (2023) zerlegen eine Aufgabe in mehrere Unteraufgaben und lösen diese schrittweise bis zur endgültigen Antwort, abhängig von LLM-generierten Argumentationsketten. Sun et al. (2023a); Wang et al. (2023) schlagen vor, die Ergebnisse von LLMs durch eine neue Prompting-Runde zu verifizieren; Liu et al. (2021b); Feng et al. (2023) verwenden LLMs, um natürlichsprachliche Wissensaussagen zu generieren und externe Wissensaussagen in Prompts zu integrieren.

2.3 Die LLM-Kooperation

Bei der LLM-Kollaboration arbeiten mehrere LLMs zusammen, um eine bestimmte Aufgabe zu lösen. Insbesondere wird die Aufgabe in mehrere Zwischenaufgaben zerlegt, und jedem LLM wird zugewiesen, eine Zwischenaufgabe unabhängig zu erledigen. Die gegebene Aufgabe wird nach der Integration oder Zusammenfassung dieser Zwischenergebnisse gelöst. Der LLM-Kollaborationsansatz kann die Fähigkeiten von LLMs nutzen, die Leistung bei komplexen Aufgaben verbessern und den Aufbau komplizierter Systeme ermöglichen. Shinn et al. (2023); Sun et al. (2023a); Gero et al. (2023); Wang und Li (2023); Chen et al. (2023b) konstruieren Hilfsaufgaben (z. B. Reflexions-, Verifizierungsaufgaben) und überarbeiten die Antwort auf die ursprüngliche Aufgabe unter Bezugnahme auf das Ergebnis der Hilfsaufgabe. Talebirad und Nadiri (2023); Hong et al. (2023); Qian et al. (2023) weisen LLMs charakteristische Profile (z. B. Projektmanager, Softwareentwickler) zu und erzielen durch Verhaltensanimationen Leistungssteigerungen bei charakterspezifischen Aufgaben. Li et al. (2022); Zeng et al. (2022a); Chen et al. (2023a); Du et al. (2023); Liang et al. (2023) verwenden eine Debattenstrategie, bei der mehrere verschiedene LLMs ihre eigenen Antworten auf die gegebene Aufgabe vorschlagen und über mehrere Runden diskutieren, bis eine gemeinsame Endantwort vorliegt. Außerdem setzen Shen et al. (2023); Gao et al. (2023); Ge et al. (2023); Zhang et al. (2023c); Hao et al. (2023) einen LLM als Aufgabencontroller ein, der einen Plan für die gegebene Aufgabe erstellt, Expertenmodelle zur Implementierung auswählt und die Antworten der geplanten Zwischenaufgaben zusammenfasst. Andere LLMs fungieren als Aufgabenausführer und erledigen Zwischenaufgaben in ihren Fachgebieten.