paint-brush
Syntaxfehlerfreier und verallgemeinerbarer Werkzeugeinsatz für LLMs: ToolDec ermöglicht verallgemeinerbare Werkzeugauswahlvon@textmodels

Syntaxfehlerfreier und verallgemeinerbarer Werkzeugeinsatz für LLMs: ToolDec ermöglicht verallgemeinerbare Werkzeugauswahl

Zu lang; Lesen

Forscher schlagen TOOLDEC vor, eine durch Finite-State-Machine-geführte Dekodierung für LLMs, die Fehler reduziert und die Tool-Nutzung verbessert.
featured image - Syntaxfehlerfreier und verallgemeinerbarer Werkzeugeinsatz für LLMs: ToolDec ermöglicht verallgemeinerbare Werkzeugauswahl
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autoren:

(1) Kexun Zhang, UC Santa Barbara und gleicher Beitrag;

(2) Hongqiao Chen, Northwood High School und gleicher Beitrag;

(3) Lei Li, Carnegie Mellon Universität;

(4) William Yang Wang,UC Santa Barbara.

Linktabelle

5. EXPERIMENT II: TOOLDEC ERMÖGLICHT VERALLGEMEINERBARE WERKZEUGAUSWAHL

In Experiment II zeigen wir, wie TOOLDEC ohne zusätzliche Trainingsdaten und Tool-Dokumentation auf bisher unbekannte Tools verallgemeinert werden kann. Wir vergleichen TOOLDEC mit zwei starken Baselines – ToolkenGPT (Hao et al., 2023) als repräsentativer Feinabstimmungsansatz und RestGPT (Song et al., 2023) als repräsentativer kontextbezogener Lernansatz. Wir haben Experimente mit drei Benchmarks durchgeführt – FuncQA (Hao et al., 2023) und KAMEL (Kalo & Fichtel, 2022) sowie RestBench (Song et al., 2023). Diese Benchmarks erfordern unterschiedliche Tool-Sets aus sehr unterschiedlichen Bereichen, darunter mathematisches Denken, Beantwortung von Wissensfragen und reale Webdienste. In allen drei Bereichen zeigen unsere Ergebnisse, dass TOOLDEC in der Lage ist, effizient auf neue Tools zu verallgemeinern, ohne dass eine Feinabstimmung anhand zusätzlicher Daten erforderlich ist.

5.1 FEINABSTIMMUNG DER BASISLINIE: TOOLKENGPT

ToolkenGPT ist ein Feinabstimmungsansatz für die Verwendung von Tools, der für jedes Tool ein spezielles Token lernt. Um auf neue Tools verallgemeinert zu werden, benötigt ToolkenGPT noch zusätzliche Daten und zusätzliche Feinabstimmungen, die die Verwendung neuer Tools beinhalten. Wir zeigen, dass TOOLDEC, sobald es auf einen bestimmten Satz sichtbarer Tools feinabgestimmt ist, keine zusätzlichen Daten und keine weitere Feinabstimmung benötigt, um unbekannte Tools zu übernehmen. Wir vergleichen TOOLDEC und die Baselines, indem wir sie auf dieselbe Teilmenge von Tools abstimmen, die als „sichtbare Tools“ bezeichnet werden, und bewerten dann ihre Leistung auf „unsichtbaren Tools“.


Um einen fairen Vergleich zu gewährleisten, ahmen wir die Planungsmethode von ToolkenGPT nach, um das Problem „Wann werden Tools verwendet?“ zu lösen. Insbesondere optimieren wir die Einbettung eines einzelnen speziellen Tokens <T>, um alle Tools darzustellen, und reduzieren so die Größe des zusätzlichen Vokabulars auf 1. Sobald <T> generiert ist, beginnt ein Tool-Aufruf.


Wir fordern LLM auf, einen Werkzeugnamen zu generieren. Die Generierung dieses Werkzeugnamens wird von einem FSM geleitet, das aus einer Liste aller verfügbaren Werkzeuge erstellt wird. Dieser Werkzeugname wird dann wieder in den Kontext eingefügt, um die Generierung von Argumenten zu starten. Ein Beispiel für diesen Prozess finden Sie in Anhang A.2.


Wir haben aus allen verfügbaren Tools eine kleine Teilmenge „bekannter Tools“ ausgewählt und die Einbettung nur mit Demonstrationen der Tools in der ausgewählten Teilmenge optimiert. Wir haben die Baseline mithilfe derselben Teilmenge feinabgestimmt. Anschließend haben wir unsere Methode und die Baselines anhand von Aufgaben evaluiert, die unbekannte Tools in der Teilmenge beinhalten, um die Generalisierungsfähigkeit von TOOLDEC zu demonstrieren.


Benchmark für mathematische Funktionen. Wir verwenden FuncQA-Multi-Hop-Fragen, um unsere Methode zu bewerten. Tools in FuncQA wie Permutieren, GCD und Potenz sind mathematische Funktionen, deren Argumente streng auf Zahlen in bestimmten Bereichen beschränkt sind. Wir wählen 4 von 13 Tools als sichtbare Teilmenge aus, um die Basislinie zu optimieren, und bewerten verschiedene Ansätze für die verbleibenden 9 unsichtbaren Tools.


Benchmark für Wissensgraph-Beziehungen. Um die Generalisierbarkeit von TOOLDEC auf einem größeren Satz von Tools weiter zu untersuchen, bewerten wir auch KAMEL (Kalo & Fichtel, 2022), einen Frage-Antwort-Datensatz mit insgesamt 234 Wissensbeziehungen, die den Eigenschaften von APIs ähneln (z. B. Anzahl der Kinder). Weitere Beispiele finden Sie in Anhang A.4. Die Tools in KAMEL sind viel zahlreicher als die in FuncQA. Sie sind auch komplexer und vielfältiger, da die Anzahl der Argumente für ihre Tools zwischen 1 und 3 variiert und ihre Typen Zeichenfolgen, Standorte, Daten, Zahlen und andere Ad-hoc-Typen umfassen. Wir wählen 30 von 234 Tools als gesehene Teilmenge aus und bewerten auf 4 verschiedenen Bewertungssätzen mit 30, 60, 100 bzw. 234 Tools. In Anlehnung an Hao et al. (2023) verwenden wir Prompting, Few-Shot und Zero-Shot als zusätzliche Baselines. (1) Die Eingabeaufforderung basiert auf dem internen Wissen von LLM, da kein Tool bereitgestellt wurde. (2) Few-Shot demonstriert die Verwendung von Tools anhand von Few-Shot-Beispielen. (3) Zero-Shot bietet Beschreibungen aller verfügbaren Tools im Kontext. Da der Trainings- und Evaluierungsdatensatz von KAMEL für jedes Tool dieselbe Fragenvorlage verwendet, was in realen Umgebungen oft nicht der Fall ist, vergleichen wir TOOLDEC nur mit ToolkenGPT, das mit dem synthetischen Datensatz trainiert wurde, der in der Originalstudie vorgeschlagen wurde. Wir verwenden die Genauigkeit der Tool-Aufrufe als Maß, die durch den Anteil der Antworten bestimmt wird, die die richtige Wissensbeziehung aufrufen.

5.2 BASIS FÜR KONTEXTLERNEN: RESTGPT

RestGPT (Song et al., 2023) ist ein kontextbezogener Lernansatz, der die Verwendung von Tools anhand der kontextbezogenen Tooldokumentation lernt. Wir demonstrieren die Generalisierungsfähigkeit von TOOLDEC-erweitertem RestGPT, indem wir zeigen, dass RestGPT mit TOOLDEC ohne kontextbezogene Dokumentation eine bessere Genauigkeit erreichen kann als die RestGPT-Basislinie mit Dokumentation. Da TOOLDEC Zugriff auf die nächste Token-Verteilung benötigt, verwenden wir Vicuna-basiertes (Zheng et al., 2023) RestGPT als Basislinie. Für unsere Methode entfernen wir die gesamte Tooldokumentation aus der Eingabeaufforderung und lassen nur die Anweisungen zum Denken übrig.


Benchmarking von APIs für reale Webdienste. Wir evaluieren auf RestBench (Song et al., 2023). Es besteht aus Aufgaben in realen Szenarien, darunter TMDB, eine Website für Filminformationen, und Spotify, ein Online-Musikplayer. Diese Aufgaben stammen direkt aus Anweisungen von echten Benutzern und erfordern mehrere Tools in Form von RESTful-APIs zur Lösung. RESTful-APIs sind der De-facto-Standard für Webdienste (Li et al., 2016), die HTTP-Methoden zur Manipulation von Ressourcen verwenden. Die Ground-Truth-Lösungen werden von Menschen in Form von Tool-Aufrufketten annotiert. Wir evaluieren unsere Methode und die Baseline auf TMDB, das aus 55 RESTful-APIs besteht. Da HTTP-Methoden wie GET und POST ein anderes Format als der Tool-Aufruf haben, haben wir das Tool-Argument-Format von TOOLDEC. Wir haben diese APIs neu geschrieben, um diesem Format zu folgen. Wir verwenden die im Originalpapier vorgeschlagene korrekte Pfadrate (CP%) als Maß zur Messung der Genauigkeit. Die korrekte Pfadrate ist der Anteil der Modellausgaben, die den korrekten Tool-Aufrufpfad enthalten, der von Menschen annotiert wurde.

5.3 VERSUCHSERGEBNISSE

Generalisierung auf unsichtbare mathematische Funktionen. In Abbildung 5a präsentieren wir die Ergebnisse auf FuncQA. Während ToolkenGPT und TOOLDEC bei Aufgaben, die nur sichtbare Tools beinhalteten, ähnliche Genauigkeiten erreichten, konnte ToolkenGPT nicht auf unsichtbare Tools generalisieren, was zu einem erheblichen Leistungsabfall führte. Andererseits konnte TOOLDEC sogar bei unsichtbaren Tools eine vergleichbare Genauigkeit aufrechterhalten und bei Multi-Hop-Problemen eine 8-mal bessere Genauigkeit erreichen, was seine Generalisierbarkeit unterstreicht. Folglich übertraf TOOLDEC ToolkenGPT bei der Gesamtgenauigkeit deutlich.


Tabelle 5: Ergebnisse auf RestBench. Die Baseline benötigt eine viel längere Eingabeaufforderung mit kontextbezogener Tool-Dokumentation, um die Verwendung des Tools zu erlernen, während dies bei unserer Methode nicht der Fall ist. Dennoch weist unsere Methode immer noch eine viel höhere korrekte Pfadrate (CP%) auf als die Baseline.


Abbildung 5: Ergebnisse zu KAMEL und FuncQA. Mit der zunehmenden Anzahl unbekannter Tools kam es bei allen Baselines zu einem deutlichen Leistungsabfall. TOOLDEC behielt jedoch eine ähnlich hohe Leistung bei, obwohl nur eine kleine Teilmenge (30 von 234 bei KAMEL und 4 von 13 bei FuncQA) der Tools untersucht wurde.


Generalisierung auf unbekannte Wissensgraphfunktionen. Wir präsentieren unsere Ergebnisse zu KAMEL in Abbildung 5b. Mit zunehmender Anzahl verfügbarer Tools litten die beiden ICL-Methoden unter der Kontextlängenbeschränkung (Hao et al., 2023) und erlebten einen erheblichen Genauigkeitsverlust. ToolkenGPT, das auf die ersten 30 Tools abgestimmt war, konnte auch nicht auf mehr Tools generalisieren. Die Eingabeaufforderung behielt eine stabil niedrige Genauigkeit bei, da sie nicht auf kontextbezogener Tooldokumentation beruhte. Andererseits konnte TOOLDEC seine Genauigkeit beibehalten, selbst als die Anzahl der unbekannten Tools 204 erreichte.


Generalisierung auf unbekannte Webdienste. Die Ergebnisse von RestBench sind in Tabelle 5 aufgeführt. TOOLDEC ermöglichte es dem Modell, Webdienst-APIs ohne Kontextdokumentation zu verwenden, wodurch die Eingabeaufforderungsgröße von 1974 Token auf nur 880 Token reduziert wurde. Dennoch übertraf TOOLDEC die Baseline in Bezug auf die durch das Verhältnis korrekter Pfade (CP%) angezeigte Korrektheit immer noch deutlich und erhöhte sie um 8 Punkte. Diese Ergebnisse legen nahe, dass TOOLDEC auch die Generalisierbarkeit der Verwendung von kontextbezogenen Lerntools in realen Webanwendungen verbessern kann.


Ergebnisse aus allen drei Einstellungen zeigen, dass TOOLDEC nicht nur dabei hilft, Tool-LLMs ohne zusätzliche Trainingsdaten zu verallgemeinern, sondern auch dabei, Tool-LLMs im Kontextlernen ohne kontextbezogene Dokumentation zu verallgemeinern. Diese Fähigkeit von TOOLDEC wurde in drei verschiedenen Bereichen nachgewiesen.