paint-brush
Feinabstimmung von LLaMA für mehrstufigen Textabrufby@textmodels
623
623

Feinabstimmung von LLaMA für mehrstufigen Textabruf

Diese Studie untersucht die Verbesserung der Textsuche mithilfe modernster LLaMA-Modelle. Diese als RepLLaMA und RankLLaMA optimierten Modelle erzielen eine überragende Effektivität sowohl bei der Text- als auch bei der Dokumentensuche, indem sie ihre Fähigkeit nutzen, längere Kontexte zu verarbeiten und eine starke Zero-Shot-Leistung aufweisen.
featured image - Feinabstimmung von LLaMA für mehrstufigen Textabruf
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autoren:

(1) Xueguang Ma, David R. Cheriton School of Computer Science, University of Waterloo;

(2) Liang Wang, Microsoft Research;

(3) Nan Yang, Microsoft Research;

(4) Furu Wei, Microsoft Research;

(5) Jimmy Lin, David R. Cheriton School of Computer Science, University of Waterloo.

Linktabelle

Zusammenfassung und Einleitung

Methode

Experimente

Ablationsstudie und -analyse

Ähnliche Projekte

Schlussfolgerung, Danksagungen und Referenzen

Abstrakt

Die Wirksamkeit der mehrstufigen Textsuche wurde bereits vor der Ära der vorab trainierten Sprachmodelle eindeutig nachgewiesen. Die meisten bestehenden Studien verwenden jedoch Modelle, die vor den jüngsten Fortschritten bei großen Sprachmodellen (LLMs) entwickelt wurden. Diese Studie untersucht potenzielle Verbesserungen, die moderne LLMs bringen können. Wir führen eine umfassende Studie durch und optimieren das neueste LLaMA-Modell sowohl als dichten Retriever (RepLLaMA) als auch als punktweisen Reranker (RankLLaMA) für die Textstellensuche und die Dokumentsuche unter Verwendung der MS MARCO-Datensätze. Unsere Ergebnisse zeigen, dass die Wirksamkeit großer Sprachmodelle tatsächlich die kleinerer Modelle übertrifft. Da LLMs zudem von Natur aus längere Kontexte verarbeiten können, können sie ganze Dokumente ganzheitlich darstellen, wodurch die Notwendigkeit traditioneller Segmentierungs- und Pooling-Strategien entfällt. Darüber hinaus zeigen Bewertungen auf BEIR, dass unsere RepLLaMA-RankLLaMA-Pipeline eine starke Zero-Shot-Wirksamkeit aufweist. Modellprüfpunkte aus dieser Studie sind auf HuggingFace verfügbar.1

1. Einleitung

Textabruf, bei dem die relevantesten Dokumente oder Textausschnitte als Antwort auf eine Abfrage identifiziert und bewertet werden, ist bei verschiedenen Opendomain-Aufgaben zum Sprachverständnis von entscheidender Bedeutung (Petroni et al., 2021), darunter Websuche (Bajaj et al., 2016), Beantwortung von Opendomain-Fragen (Chen et al., 2017) und Faktenüberprüfung (Thorne et al., 2018). Der Abruf spielt auch eine wichtige Rolle bei der Verbesserung der Wirksamkeit großer Sprachmodelle (LLMs) in einer Retrieval-Augmented Generation (RAG)-Pipeline (Lewis et al., 2020b; Shi et al., 2023). Dieser Ansatz mildert nicht nur Halluzinationen, sondern ermöglicht LLMs auch den Zugriff auf Wissen, das nicht in ihren Parametern erfasst ist (Yang et al., 2023; Jiang et al., 2023).


Eine typische mehrstufige Textabruf-Pipeline besteht aus einem Retriever, der die wichtigsten k Texte aus einem Korpus effizient lokalisieren soll, und einem Reranker, der die Reihenfolge der abgerufenen Kandidaten weiter verfeinert, um die Ausgabequalität zu verbessern (Nogueira und Cho, 2019). Sowohl Retriever als auch Reranker haben erheblich von der Einführung vorab trainierter Sprachmodelle auf Basis von Transformers (Vaswani et al., 2017) wie BERT (Devlin et al., 2019) und T5 (Raffel et al., 2020) profitiert. Diese Modelle werden trainiert, um Abfragen und Dokumente für den Abruf in Vektordarstellungen zu kodieren (Karpukhin et al., 2020; Lin, 2021) oder die Relevanz zwischen einer Abfrage und einem Dokument für die Neubewertung direkt zu bewerten (Nogueira et al., 2019; Zhuang et al., 2023).


Neuere große Sprachmodelle mit Milliarden von Parametern, die darauf abgestimmt sind, Anweisungen zu befolgen, wie etwa InstructGPT (Ouyang et al., 2022), GPT-4 (OpenAI, 2023) und LLaMA (Touvron et al., 2023a,b), haben bei vielen NLP-Aufgaben außergewöhnliche Fähigkeiten gezeigt und frühere kleinere vorab trainierte Sprachmodelle übertroffen (Zhao et al., 2023). Für den Abruf haben neuere Methoden wie LRL (Ma et al., 2023), RankGPT (Sun et al., 2023) und PRP (Qin et al., 2023) untersucht, wie LLMs dazu veranlasst werden können, mithilfe von paarweisen oder listenweisen Ansätzen eine Zero-Shot-Neubewertung durchzuführen. Diese Methoden nutzen LLMs, indem sie die Neubewertung als Textgenerierung betrachten.


Wir sehen jedoch eine Reihe potenzieller Probleme. Erstens decken diese Methoden nicht die gesamte mehrstufige Pipeline ab, da es schwierig ist, das Abrufen aus einem großen Korpus als Textgenerierungsaufgabe zu betrachten. Zweitens nutzen sie keine gekennzeichneten Daten, wenn diese verfügbar sind. Schließlich sind diese Reranker nicht effizient, da sie keine parallele Bewertung unterstützen und durch ihr Design mit mehrstufiger Dekodierung verlangsamt werden.


Daher argumentieren wir, dass die Feinabstimmung modernster großer Sprachmodelle als Retriever und Reranker eine bessere Effektivität erzielen kann als frühere kleinere Modelle. Dieser Ansatz kann LLMs auch in mehrstufigen Pipelines optimal nutzen. Daher sind wir motiviert, die folgende Forschungsfrage zu untersuchen: Wie funktionieren moderne große Sprachmodelle, wenn sie speziell für die mehrstufige Textsuche feinabgestimmt werden?


Unsere Studie zielt darauf ab, diese Frage zu beantworten, indem wir eine umfassende Untersuchung zur Feinabstimmung des neuesten LLaMA-2-Modells (Touvron et al., 2023b) durchführen, einem hochmodernen Open-Source-Modell für große Sprachen, das sowohl als Retriever als auch als Reranker dient und das wir als RepLLaMA bzw. RankLLaMA bezeichnen. Insbesondere verwenden wir für unsere Experimente die Datensätze MS MARCO (Bajaj et al., 2016) und BEIR (Thakur et al., 2021). Unsere Ergebnisse deuten darauf hin, dass große Sprachmodelle frühere kleinere Modelle übertreffen und durch ein unkompliziertes Trainingsprogramm eine hochmoderne Effektivität sowohl für den Abruf als auch für das Reranking erreichen und eine starke Zero-Shot-Effektivität aufweisen. Darüber hinaus beobachten wir, dass LLMs, die von Natur aus auf längere Kontexte vortrainiert sind, Potenzial bei der Darstellung ganzer Dokumente aufweisen, wodurch die Notwendigkeit traditioneller Segmentierungs- und Pooling-Strategien für den Dokumentenabruf entfällt.




1 https://huggingface.co/castorini