paint-brush
ToolTalk: Benchmarking der Zukunft werkzeugnutzender KI-Assistentenvon@botbeat
125 Lesungen

ToolTalk: Benchmarking der Zukunft werkzeugnutzender KI-Assistenten

Zu lang; Lesen

ToolTalk ist ein Maßstab für die Bewertung von KI-Assistenten bei der komplexen Werkzeugnutzung durch Dialog. Es verdeutlicht die überlegene Leistung von GPT-4 gegenüber GPT-3.5, weist aber auch auf anhaltende Herausforderungen wie halluzinierte Argumente und missverstandene Dokumentationen hin.
featured image - ToolTalk: Benchmarking der Zukunft werkzeugnutzender KI-Assistenten
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Autoren:

(1) Nicholas Farn, Microsoft Corporation {Microsoft Corporation {[email protected]};

(2) Richard Shin, Microsoft Corporation {[email protected]}.

Linktabelle

Zusammenfassung und Einleitung

Datensatzdesign

Bewertungsmethodik

Experimente und Analyse

Ähnliche Projekte

Schlussfolgerung, Reproduzierbarkeit und Referenzen

A. Vollständige Liste der Werkzeuge

B. Szenario-Eingabeaufforderung

C. Unrealistische Anfragen

D. Nuancen beim Vergleich früherer Arbeiten

ABSTRAKT

Große Sprachmodelle (LLMs) haben massive Verbesserungen bei Argumentations- und Entscheidungsfähigkeiten gezeigt und können natürliche Gespräche mit Benutzern führen. Viele neuere Arbeiten versuchen, LLM-basierte Assistenten mit externen Tools zu erweitern, damit sie auf private oder aktuelle Informationen zugreifen und Aktionen im Namen der Benutzer ausführen können. Um die Leistung dieser Assistenten besser messen zu können, stellt dieses Dokument ToolTalk vor, einen Benchmark, der aus komplexen Benutzerabsichten besteht, die eine mehrstufige, durch Dialoge festgelegte Verwendung von Tools erfordern. ToolTalk enthält 28 Tools, die in 7 Plugins gruppiert sind, und beinhaltet eine vollständige simulierte Implementierung jedes Tools, wodurch eine vollautomatische Bewertung von Assistenten ermöglicht wird, die auf Ausführungsfeedback angewiesen sind. ToolTalk betont auch Tools, die die Welt von außen beeinflussen, und nicht nur Tools zum Referenzieren oder Suchen von Informationen. Wir bewerten GPT-3.5 und GPT-4 mit ToolTalk und erzielen Erfolgsraten von 26 % bzw. 50 %. Unsere Analyse der Fehler zeigt drei Hauptkategorien und schlägt einige zukünftige Verbesserungsrichtungen vor.

Wir veröffentlichen ToolTalk unter https://github.com/microsoft/ToolTalk.

1. EINLEITUNG

Große Sprachmodelle (LLMs) können beeindruckende Leistungen beim Verstehen und Generieren natürlicher Sprache sowie bei anderen Aufgaben im Zusammenhang mit der Textbearbeitung vollbringen. Mit entsprechenden Anpassungen nach dem Vortraining können sie fließende und natürliche Gespräche mit Benutzern führen. Der Umfang solcher Gespräche ist jedoch immer noch begrenzt, da LLMs keinen Zugriff auf Wissen außerhalb ihrer Trainingsdaten haben, nur über begrenzte mathematische Denk- und Rechenfähigkeiten verfügen und auch sonst nicht in der Lage sind, mit der Außenwelt zu interagieren.


Um diese Einschränkungen zu überwinden, wurde in verschiedenen früheren Arbeiten vorgeschlagen, LLM-gestützte Chatbots mit der Fähigkeit zu integrieren, Tools wie Suchmaschinen (Nakano et al., 2022), Taschenrechner oder Web-APIs (Mialon et al., 2023) zu verwenden. Um sinnvolle Fortschritte bei der Verwendung von Tools zu erzielen, sind relevante Benchmarks und Bewertungsdatensätze erforderlich, die diese Systeme mit realistischen und herausfordernden Gesprächen vollständig testen können. In diesem Artikel stellen wir ToolTalk als Schritt in Richtung dieses Ziels vor. ToolTalk besteht aus 78 Gesprächen mit insgesamt 178 Gesprächsrunden, bei denen 28 einzigartige Tools verwendet werden, die in 7 Kategorien gruppiert sind, sowie einer Bewertungsmethode, die auf die Messung der genauen Tool-Nutzung zugeschnitten ist.


Bei unserem Design von ToolTalk haben wir uns auf mehrere Überlegungen gestützt, um typische Gespräche, die ein Benutzer mit einem LLM-basierten Assistenten führen möchte, bestmöglich zu simulieren. Erstens wollten wir sicherstellen, dass ToolTalk konversationsorientiert ist und mehrere Dialogrunden zwischen dem Benutzer und dem Assistenten für eine einzelne Absicht ermöglicht. Dabei berücksichtigen wir, dass Benutzer ihre vollständige Anfrage nicht immer in einer Äußerung formulieren möchten und nach dem Erhalt von Feedback vom Assistenten zusätzliche Qualifizierer hinzufügen oder Korrekturen vornehmen können. Dadurch können wir Benutzerabsichten einbeziehen, die eine komplexe Reihe von Toolaufrufen erfordern, ohne unnatürlich lange Äußerungen zu haben. Zweitens schließen wir einen Satz von Toolaufrufen ein, die für jede Benutzeräußerung hätten erfolgen sollen, und der für eine automatische Bewertung geeignet ist, die mit den von einem Assistenten vorhergesagten Toolaufrufen verglichen wird. Drittens enthält ToolTalk ausführbare Implementierungen jedes im Datensatz enthaltenen Tools, um die Bewertung von Assistenten zu erleichtern, die möglicherweise Ergebnisse aus vorherigen Toolaufrufen berücksichtigen, um zu entscheiden, welche als nächstes ausgeführt werden sollen. Viertens enthält ToolTalk Tools, die Nebeneffekte haben sollen (wie das Senden von E-Mails oder das Hinzufügen/Löschen von Kalenderereignissen), die wir als „Aktionstools“ bezeichnen, anstatt nur Datenbankabfragen durchzuführen (wie das Suchen nach E-Mails, die ein bestimmtes Schlüsselwort enthalten). Solche Aktionstools sind notwendig, wenn der Assistent die Aufgaben des Benutzers automatisieren soll.


Wir passen unsere Bewertungsmethodik an die Besonderheiten unseres Datensatzdesigns an und gehen über gängige Kennzahlen wie die Genauigkeit exakter Übereinstimmungen hinaus. Insbesondere berücksichtigen wir Aufrufe von Aktions- und Nicht-Aktionstools separat, da falsche Aufrufe von Aktionstools, wie das Senden einer Nachricht an die falsche Person, besonders negative Auswirkungen auf den Benutzer haben können. Wenn der Assistent andererseits sowohl korrekte Nicht-Aktionstool-Aufrufe als auch einige falsche irrelevante Aufrufe vornimmt, können die irrelevanten Aufrufe dem Benutzer dennoch nützliche Informationen liefern (selbst wenn es nicht das ist, was der Benutzer direkt angefordert hat). Daher verwenden wir die Rückrufrate von Toolaufrufen und die Rate falscher Aktionen als primäre Kennzahlen innerhalb eines einzelnen Gesprächsverlaufs und definieren einen Erfolgsbegriff auf Gesprächsebene.


Wir wenden ToolTalk auf zwei Assistenten an, die mithilfe der Funktionsaufrufunterstützung der Chat Completions API von OpenAI mit den Modellen GPT-3.5 und GPT-4 implementiert wurden. Wir haben festgestellt, dass gpt-3.5-turbo-0613 und gpt-4-0613 eine Erfolgsrate auf Konversationsebene von 26 % bzw. 50 % erreichen, was zeigt, dass die Verwendung von Tools in einer Konversationsumgebung selbst für einige der modernsten Modelle immer noch eine schwierige Aufgabe ist. Anschließend führen wir weitere Analysen durch, um die Gründe zu ermitteln, warum GPT-3.5 und GPT-4 bei Konversationen versagen. Wir stellen fest, dass sowohl GPT-3.5 als auch GPT-4 Argumente halluzinieren, Dokumentationen nicht verstehen und sogar direkt behaupten können, eine Aufgabe erledigt zu haben, ohne Tools aufzurufen.


Unser Papier liefert folgende Beiträge:


• Wir stellen einen Konversationsdatensatz für toolnutzende LLM-gestützte Assistenten vor, der eine breite Palette an Tools und Beispielkonversationen mit Ground-Truth-Annotationen für Toolaufrufe enthält, die eine automatisierte Auswertung ermöglichen.


• Wir stellen sicher, dass der Datensatz mehrstufige Konversationen enthält, die die Verwendung mehrerer Tools erfordern, einschließlich Tools mit Nebenwirkungen, um besser zu simulieren, wie Benutzer mit einem Tool-verwendenden Assistenten interagieren können.


• Wir entwickeln eine Bewertungsmethodik, die die Unterschiede zwischen Tools mit und ohne Nebenwirkungen berücksichtigt.


• Wir bewerten mit GPT-3.5 und GPT-4 erstellte Assistenten anhand unseres Datensatzes und analysieren ihre Fehler. Dabei finden wir Probleme wie halluzinierte Argumente und missverstandene Dokumentation.