paint-brush
Ein tiefer Einblick in LLaMA v2 für Chat-Anwendungenvon@mikeyoung44
1,200 Lesungen
1,200 Lesungen

Ein tiefer Einblick in LLaMA v2 für Chat-Anwendungen

von Mike Young5m2023/07/19
Read on Terminal Reader
Read this story w/o Javascript

Zu lang; Lesen

A16z-infras Implementierung des neuen Chat-Modells [llama13b-v2-chat] von Meta. Das Modell wird auf Replicate gehostet, einem Hosting-Dienst für KI-Modelle, der Ihnen die Interaktion mit komplizierten Modellen mit nur wenigen Codezeilen oder einem einfachen API-Aufruf ermöglicht. Mit satten 13 Milliarden Parametern wurde dieses Modell deutlich auf Chat-Anwendungen zugeschnitten.

People Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Ein tiefer Einblick in LLaMA v2 für Chat-Anwendungen
Mike Young HackerNoon profile picture
0-item
1-item
2-item


Denken Sie über die Komplexität der Generierung menschenähnlicher Antworten in Online-Chat-Anwendungen nach. Wie können Sie die Infrastruktur effizient und die Reaktionen realistisch gestalten? Die Lösung sind KI-Sprachmodelle. In diesem Leitfaden befassen wir uns mit der Implementierung des neuen llama13b-v2-chat LLM von Meta durch a16z-infra, einem Sprachmodell mit 13 Milliarden Parametern, das speziell für Chat-Anwendungen optimiert wurde. Dieses Modell wird auf Replicate gehostet, einem Hosting-Dienst für KI-Modelle, der Ihnen die Interaktion mit komplizierten und leistungsstarken Modellen mit nur wenigen Codezeilen oder einem einfachen API-Aufruf ermöglicht.


In diesem Leitfaden besprechen wir, worum es beim Modell llama13b-v2-chat geht, wie man über seine Ein- und Ausgänge nachdenkt und wie man es zum Erstellen von Chat-Abschlüssen verwendet. Wir zeigen Ihnen auch, wie Sie mit AIModels.fyi ähnliche Modelle finden, um Ihre KI-Anwendungen zu verbessern. Lassen Sie uns also den KI-Jargon durchgehen und zum Kern kommen.


Abonnieren Sie mich oder folgen Sie mir auf Twitter für weitere Inhalte wie diesen!

Über das LLaMA-v2-Chat-Modell

Das auf Replicate verfügbare LLaMA13b-v2-Chat- Modell wurde vom a16z-infra-Team erstellt und basiert auf dem neuen LLaMA v2-Modell von Meta. Meta hat LLaMA mit dem Ziel erstellt, menschliche Sprache besser zu verstehen und zu generieren, und das Chat-Modell, das wir untersuchen werden, wurde weiter verfeinert, um die Interaktionen zwischen menschlichen Benutzern und KI-Chatbots zu verbessern. Mit satten 13 Milliarden Parametern wurde dieses Modell deutlich auf diesen speziellen Anwendungsfall zugeschnitten. Weitere Details zu diesem Modell und den anderen Modellen von a16z-infra finden Sie auf der Seite des Erstellers auf AIModels.fyi .


Die Replicate-Implementierung des llama13b-v2-chat-Modells nutzt die leistungsstarke Nvidia A100 (40 GB) GPU für Vorhersagen mit einer durchschnittlichen Laufzeit von 7 Sekunden pro Vorhersage. Der Preis beträgt lediglich 0,014 US-Dollar pro Lauf, wodurch es für Projekte mit geringerem Budget oder Startups allgemein zugänglich ist.

Verstehen der Eingaben und Ausgaben des LLaMA v2-Chats

Um seine Fähigkeiten effektiv nutzen zu können, ist es wichtig zu verstehen, was in ein Modell hineingeht und was daraus hervorgeht. Machen wir uns also mit den Ein- und Ausgängen des Modells vertraut.

Eingaben

Das Modell akzeptiert die folgenden Eingaben:


  1. prompt (string): Die Eingabeaufforderung zum Senden an Llama v2.


  2. max_length (Ganzzahl): Die maximale Anzahl der zu generierenden Token. Bedenken Sie, dass ein Wort im Allgemeinen aus 2-3 Token besteht. Der Standardwert ist 500.


  3. temperature (Zahl): Passt die Zufälligkeit der Ausgaben an. Größer als 1 ist zufällig und 0 ist deterministisch. Ein guter Startwert ist 0,75.


  4. top_p (Zahl): Während der Textdekodierung wird der oberste p-Prozentsatz der wahrscheinlichsten Token abgetastet. Senken Sie diesen Wert, um weniger wahrscheinliche Token zu ignorieren. Der Standardwert ist 1.


  5. repetition_penalty (Zahl): Stellt eine Strafe für wiederholte Wörter im generierten Text bereit. 1 ist keine Strafe. Werte über 1 verhindern eine Wiederholung, Werte unter 1 begünstigen sie.


  6. debug (boolean): Wird verwendet, um Debugging-Ausgaben in Protokollen bereitzustellen.


Beachten Sie, dass die Ersteller des Modells empfehlen, beim Erstellen Ihrer Eingabeaufforderung dieser Struktur zu folgen:

 User: <your prompt goes here> Assistant:


Zum Beispiel...

 User: give me tips on things to do in Maine Assistant:

Ausgaben des Modells

Das Modell erzeugt die folgende Ausgabe:


  1. Ein rohes JSON-Schema, das die Ausgabestruktur katalogisiert – ein Array von Zeichenfolgen, die für weitere Berechnungen oder die Benutzeroberfläche verwendet werden. Hier ist ein Beispiel für das Ausgabeschema:
 { "type": "array", "items": { "type": "string" }, "title": "Output", "x-cog-array-type": "iterator", "x-cog-array-display": "concatenate" }


Kommen wir nun zu den Einzelheiten der Verwendung dieses Modells.

Verwenden von LLaMA v2 Chat zum Generieren natürlicher Chat-Abschlüsse

Egal, ob Sie ein Neuling sind, der sich mit Code beschäftigt, oder ein erfahrener Veteran, die Verwendung des llama13b-v2-chat-Modells zum Erstellen realistischer Chat-Abschlüsse kann ziemlich viel Spaß machen.


Verwenden Sie diesen Demo-Link , um mit der Benutzeroberfläche des Modells zu interagieren und seine Funktionsweise zu verstehen, wenn Sie nur herumspielen und ein Gefühl dafür bekommen möchten, wie es funktioniert. Wenn Sie bereit sind, es in Ihr Projekt zu implementieren, führen Sie die folgenden Schritte aus.


Zunächst müssen Sie Ihre Umgebung einrichten, indem Sie den Node.js-Client installieren:

 npm install Replicate


Als nächstes authentifizieren Sie Ihr API-Token und legen es als Umgebungsvariable fest. Dieses Token ist persönlich und sollte daher vertraulich behandelt werden:

 export REPLICATE_API_TOKEN=r8_******


Anschließend können Sie das Modell mit dem folgenden Skript ausführen:

 import Replicate from "replicate"; const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); const output = await replicate.run( "a16z-infra/llama13b-v2-chat:df7690f1994d94e96ad9d568eac121aecf50684a0b0963b25a41cc40061269e5", { input: { prompt: "..." } } );


Sie können auch einen Webhook festlegen, der aufgerufen wird, wenn Ihre Vorhersage abgeschlossen ist. Dies kann bei der Protokollführung oder der Einrichtung automatischer Warnungen hilfreich sein.

 const prediction = await replicate.predictions.create({ version: "df7690f1994d94e96ad9d568eac121aecf50684a0b0963b25a41cc40061269e5", input: { prompt: "..." }, webhook: "https://example.com/your-webhook", webhook_events_filter: ["completed"] });

Weitere Einzelheiten finden Sie jederzeit in der Dokumentation zu Replicate .

Gehen Sie noch einen Schritt weiter: Finden Sie andere Text-zu-Text-Modelle mit AIModels.fyi

Möchten Sie weitere Chatbots für Ihre Anwendung kennenlernen? Mit AIModels.fyi ist es einfach, ähnliche Modelle wie llama13b-v2-chat zu finden.


Hier ist eine Schritt-für-Schritt-Anleitung, die Ihnen dabei hilft, andere KI-Modelle zu finden, die Ihren spezifischen Anforderungen entsprechen:

Schritt 1: Besuchen Sie AIModels.fyi

Gehen Sie zu AIModels.fyi , um mit der Erkundung zu beginnen.

Schritt 2: Verwenden Sie die Suchleiste

Geben Sie Schlüsselbegriffe wie „Text-zu-Text“, „Sprachmodelle“ usw. ein. Die Suchmaschine liefert eine Liste mit Modellen, die zu Ihrer Suchanfrage passen.

Schritt 3: Filtern Sie die Ergebnisse

Filter zur Eingrenzung Ihrer Suche finden Sie auf Ihrer Suchergebnisseite. Sie können die Modelle nach Typ, Kosten, Beliebtheit oder sogar nach bestimmten Erstellern filtern und sortieren. Wenn Sie beispielsweise nach einem preisgünstigen Text-zu-Text-Modell suchen, können Sie die Modelle nach Preis sortieren, um die günstigste Option zu finden.

Abschluss

In diesem Leitfaden haben wir das Potenzial von LLaMA v2 untersucht, einem funktionsreichen, kostengünstigen Sprachmodell. Es ist das potenzielle Rückgrat für Ihre nächste Chat-Anwendung und ermöglicht differenzierte und realistische Gespräche. Sie wissen jetzt, wie Sie dieses Modell implementieren, seine Ein-/Ausgaben verstehen und relevante Chat-Abschlüsse effektiv generieren.


Diese anderen Leitfäden könnten für Sie hilfreich sein, wenn Sie Ihr Wissen weiter ausbauen:


Indem Sie Ihrer Fantasie freien Lauf lassen und sie mit diesen KI-Tools verschmelzen, tauchen Sie ein in das riesige Universum der künstlichen Intelligenz und schaffen neue und aufregende Projekte. Wir sind gespannt, wohin es als nächstes geht. Vergessen Sie nicht, weitere Tutorials zu abonnieren, um über neue und verbesserte KI-Modelle auf dem Laufenden zu bleiben und Ihrer Kreativität für Ihr nächstes KI-Projekt freien Lauf zu lassen. Bis dahin viel Spaß beim KI-Abenteuer und denkt daran, auf meinem Twitter Hallo zu sagen.


Abonnieren Sie mich oder folgen Sie mir auf Twitter für weitere Inhalte wie diesen!