Autoren:
(1) Kexun Zhang, UC Santa Barbara und gleicher Beitrag;
(2) Hongqiao Chen, Northwood High School und gleicher Beitrag;
(3) Lei Li, Carnegie Mellon Universität;
(4) William Yang Wang,UC Santa Barbara.
Feinabstimmung von Sprachmodellen zur Verwendung von Tools. Sprachmodelle können zur Verwendung von Tools mit Daten feinabgestimmt werden, die verschachtelten Text und Tool-Einsatz enthalten. Frühere Studien haben Sprachmodelle durch Feinabstimmung dazu gebracht, ein einzelnes Tool wie ein Abrufmodul (Borgeaud et al., 2022; Guu et al., 2020) oder eine Suchmaschine (Nakano et al., 2021) zu verwenden. Jüngste Fortschritte bei toolerweiterten Sprachmodellen, die mehrere Tools verwenden (Schick et al., 2023; Parisi et al., 2022), optimieren Sprachmodelle ebenfalls zur Verwendung von Tools wie QA-Modellen, Übersetzungsmodellen, Rechnern und Suchmaschinen. ToolkenGPT (Hao et al., 2023) schlägt vor, mehrere spezielle Token zur Darstellung von Tools zu verwenden und stimmt nur die Einbettungen der Token ab, damit die Einführung neuer Tools effizienter erfolgen kann. Feinabstimmungsansätze für die Tool-Nutzung erfordern jedoch immer noch neue Daten und zusätzliche Feinabstimmung, um ein Modell an neue Tools anzupassen. Die Unterschiede zwischen der Finite-State-Decodierung und den beiden vorherigen Paradigmen sind in Tabelle 1 aufgeführt.
Kontextbezogenes Lernen für die Verwendung von Werkzeugen. Sprachmodelle können aus kontextbezogenen Beispielen lernen (Brown et al., 2020) und Anweisungen befolgen (Ouyang et al., 2022). Dadurch ist es möglich, die Beschreibungen von Werkzeugen einfach in die Eingabeaufforderung einzufügen und Sprachmodelle aufzufordern, diese zu verwenden. Neuere Arbeiten haben diese Möglichkeit genutzt, um neuronale Modelle (Shen et al., 2023), RESTful-APIs (Qin et al., 2023; Song et al., 2023), Programminterpreter (Chen et al., 2022; Gao et al., 2023) und viele andere Werkzeuge zur Problemlösung einzusetzen. Kontextbezogenes Lernen erfordert keine zusätzliche Modelloptimierung, um neue Werkzeuge verwenden zu können. Die Beschreibung und Dokumentation neuer Werkzeuge muss jedoch weiterhin in der Eingabeaufforderung enthalten sein, was den Rechenaufwand erhöht und das Kontextbudget für das Modell begrenzt, um tatsächlich über die Aufgabe nachzudenken.
Eingeschränkte Dekodierung und Finite-State-Maschinen. Bisherige Methoden der eingeschränkten Dekodierung konzentrieren sich hauptsächlich auf lexikalische Einschränkungen (Anderson et al., 2017). Sie reduzieren den großen Suchraum der lexikalisch eingeschränkten Dekodierung mit Finite-State-Maschinen (Anderson et al., 2017), indem sie ähnliche Kandidaten zusammenfassen (Hokamp & Liu, 2017) und bessere Suchalgorithmen entwickeln (Miao et al., 2019; Lu et al., 2021; 2022). Lexikalische Einschränkungen sind jedoch nicht ausdrucksstark genug, um Tool-Aufrufe zu regulieren. Während Finite-State-Maschinen gewichtet und probabilistisch sein müssen, um mit den weichen Einschränkungen in der natürlichen Sprache umzugehen (Eisner, 2002; Rastogi et al., 2016), sind die Einschränkungen für syntaktische Tool-Aufrufe harte Einschränkungen, die für FSMs viel einfacher sind. Daher schlagen wir TOOLDEC vor, um die syntaktischen Einschränkungen eines gültigen Tool-Aufrufs zu erfüllen.
Dieses Dokument ist auf arxiv unter der CC 4.0 DEED-Lizenz verfügbar .