Die Veröffentlichung der neuen Version der GPT-Modelle, GPT-4, hat den – bereits berühmten – OpenAI-Sprachmodellen zusätzliche Aufmerksamkeit verschafft. Kein Wunder!
Das GPT-4 wurde als das fortschrittlichste System von OpenAI eingeführt, das dank seines breiteren Allgemeinwissens und seiner Problemlösungsfähigkeiten komplexe Probleme mit größerer Genauigkeit lösen kann.
In diesem Artikel vergleiche ich den GPT-3 mit dem GPT-4 und dem GPT-3.5, die zwischen den beiden Modellgruppen lagen.
Bereit?
GPT-3 ist ein von OpenAI entwickeltes Sprachmodell. Es wurde im Juni 2020 veröffentlicht und erlangte aufgrund seiner bemerkenswerten Fähigkeiten zur Sprachgenerierung schnell Aufmerksamkeit.
GPT-3 gibt es in mehreren Basismodellen mit unterschiedlicher Anzahl an Parametern und erforderlichen Rechenressourcen. Die bekanntesten sind Ada, Babbage, Curie und Davinci.
Am 15. März 2022 veröffentlichte OpenAI die neue Version von GPT-3 mit dem Namen „text-davinci-003“. Dieses Modell wurde als leistungsfähiger als frühere Versionen von GPT beschrieben. Darüber hinaus wurde es auf Daten bis Juni 2021 trainiert, wodurch es wesentlich aktueller ist als die vorherigen Versionen der Modelle (trainiert auf Daten bis Oktober 2019). Acht Monate später, im November 2022, begann OpenAI, dieses Modell als zur „GPT-3.5“-Serie gehörend zu bezeichnen. Aber lassen Sie uns die Zeitleiste überspringen.
Heute haben wir 5 verschiedene Modellvarianten, die zur GPT-3.5-Serie gehören. Vier davon sind für Textvervollständigungsaufgaben optimiert und einer ist für Codevervollständigungsaufgaben optimiert.
Die neueste Version des GPT-3.5-Modells, der gpt-3.5-turbo
, wurde am 1. März 2023 veröffentlicht – und hat sofort für einen sprunghaften Anstieg des Interesses an GPT-3.5 gesorgt. Nur um das Publikum vor der Veröffentlichung von GPT-4 aufzuwärmen.
GPT-4 ist die neueste – und fortschrittlichste – Version der OpenAI-Sprachmodelle. Es wurde am 14. März 2023 eingeführt und gilt als neuer Meilenstein in der Deep-Learning-Entwicklung.
GPT-4 soll in der Lage sein, sachlich genauere Aussagen zu generieren als GPT-3 und GPT-3.5, was für eine höhere Zuverlässigkeit und Vertrauenswürdigkeit sorgt. Es ist außerdem multimodal, das heißt, es kann Bilder als Eingaben akzeptieren und Bildunterschriften, Klassifizierungen und Analysen generieren.
Nicht zuletzt hat es etwas an Kreativität gewonnen. Wie wir im offiziellen Produktupdate lesen können, „kann es mit Benutzern kreative und technische Schreibaufgaben generieren, bearbeiten und iterieren, wie zum Beispiel das Komponieren von Liedern, das Schreiben von Drehbüchern oder das Erlernen des Schreibstils eines Benutzers.“
Vorerst, im März 2023, gibt es den GPT-4 in zwei Modellvarianten:
gpt-4-8K
gpt-4-32K
die sich durch die Größe ihres Kontextfensters unterscheiden. Obwohl GPT-4 bereits kommerziell genutzt wird, müssen die meisten Benutzer einige Zeit warten , bis sie Zugriff auf die GPT-4-API erhalten und ihre eigenen GPT-4-basierten Anwendungen und Dienste erstellen.
Lohnt es sich zu warten? Mal sehen!
Als Greg Brockman, einer der Mitbegründer von OpenAI und sein Präsident, gebeten wurde, GPT-4 mit GPT-3 zu vergleichen , hatte er ein Wort: Anders . Wie er Techcrunch sagte:
Es gibt immer noch viele Probleme und Fehler, die [das Modell] macht … aber man kann wirklich den Sprung in den Fähigkeiten in Dingen wie Infinitesimalrechnung oder Recht erkennen, wo es sich von wirklich schlecht in bestimmten Bereichen zu tatsächlich ziemlich gut im Vergleich zu Menschen entwickelt hat.
Versuchen wir, dies etwas näher zu erläutern. Zumal die von OpenAI veröffentlichte GPT-4-Forschung überraschend viele Details zu den neuen Modellen preisgibt.
Einer der größten Unterschiede zwischen GPT-3 und GPT-4 sind ihre Fähigkeiten. GPT-4 soll zuverlässiger, kreativer, kollaborativer und in der Lage sein, viel differenziertere Anweisungen zu verarbeiten als GPT-3.5.
Um den Unterschied zwischen den beiden Modellen zu verstehen, haben OpenAI-Entwickler sie anhand verschiedener Benchmarks getestet, einschließlich der Simulation von Prüfungen, die ursprünglich für Menschen entwickelt wurden.
Wir fuhren fort, indem wir die neuesten öffentlich zugänglichen Tests verwendeten (im Fall der Olympiaden und AP-Fragen mit kostenloser Antwort) oder indem wir die Editionen 2022–2023 der Übungsprüfungen kauften. Für diese Prüfungen haben wir keine spezielle Schulung absolviert. Ein kleiner Teil der Prüfungsprobleme wurde vom Modell während des Trainings festgestellt, wir glauben jedoch, dass die Ergebnisse repräsentativ sind.
(Quelle: OpenAI )
Die Ergebnisse sind atemberaubend!
Während GPT-3 bei der AP Calculus BC-Prüfung nur 1 von 5 Punkten erzielte, erzielte GPT-4 4 Punkte. Bei einer simulierten Anwaltsprüfung bestand GPT-4 mit einer Punktzahl von rund 10 % der Testteilnehmer, während GPT-3,5 – die fortschrittlichste Version der GPT-3-Serie – lag bei den unteren 10 %.
Darüber hinaus ist GPT-4… ein echter Polyglott. Während die Englischkenntnisse von GPT bereits in den GPT-3- und GPT-3.5-Versionen hoch waren (mit einer Schussgenauigkeit von 70,1 %), stieg die Genauigkeit in der neuesten Version auf über 85 %. Tatsächlich spricht es 25 Sprachen besser als sein Vorfahre Englisch – darunter Mandarin, Polnisch und Suaheli. Das ist ziemlich beeindruckend, wenn man bedenkt, dass die meisten existierenden ML-Benchmarks auf Englisch verfasst sind.
Als ob das noch nicht genug wäre, kann GPT-4 dank der höheren Kontextlänge viel längeren Text auf einmal verarbeiten.
Die Kontextlänge ist ein Parameter, der beschreibt, wie viele Token in einer einzelnen API-Anfrage verwendet werden können. Die ursprünglichen GPT-3-Modelle, die im Jahr 2020 veröffentlicht wurden, legten den maximalen Anforderungswert auf 2.049 Token fest. In GPT-3.5 wurde dieses Limit auf 4.096 Token erhöht (das sind ca. 3 Seiten einzeiliger englischer Text). GPT-4 gibt es in zwei Varianten. Einer davon (GPT-4-8K) hat eine Kontextlänge von 8.192 Token, und der zweite (GPT-4-32K) kann bis zu 32.768 Token verarbeiten, was etwa 50 Textseiten entspricht.
Davon abgesehen können wir über alle neuen Anwendungsfälle für GPT-4 nachdenken. Mit ihrer Fähigkeit, 50 Textseiten zu verarbeiten, wird es möglich sein, mit den neuen OpenAI-Modellen längere Textabschnitte zu erstellen, größere Dokumente oder Berichte zu analysieren und zusammenzufassen oder Gespräche zu führen, ohne den Kontext zu verlieren. Wie von Greg Brockman im Interview für Techcrunch dargestellt:
Zuvor wusste das Model nicht, wer Sie sind, wofür Sie sich interessieren usw. Eine solche Historie [mit dem größeren Kontextfenster] wird es auf jeden Fall leistungsfähiger machen … Es wird die Möglichkeiten der Menschen steigern.
Doch das ist noch nicht alles, denn neben der Verarbeitung von Texteingaben kann GPT-4 auch andere Eingabetypen interpretieren.
Während die Modelle GPT-3 und GPT-3.5 auf einen Eingabetyp (Text oder Code – um genau zu sein) beschränkt waren, akzeptiert der GPT-4 einen zusätzlichen Eingabetyp: Bilder. Konkret generiert es Textausgaben aus Eingaben, die aus Text und Bildern bestehen.
Je nachdem, was Sie vom GPT-4-Modell verlangen, kann es Bildunterschriften generieren, sichtbare Elemente klassifizieren oder das Bild analysieren. Unter den in der GPT-4-Forschungsdokumentation vorgestellten Beispielen können wir die Modelle sehen, die die Diagramme analysieren, Memes erklären und sogar die aus Text und Bildern bestehenden Arbeiten zusammenfassen. Wir müssen zugeben, dass die Bildverständnisfähigkeiten von GPT-4 beeindruckend sind.
Mal schauen!
Die Fähigkeit, Bilder zu verarbeiten, kombiniert mit den höheren Token-Limits, eröffnet neue Möglichkeiten für den Einsatz von GPT-4 – von der akademischen Forschung bis hin zu Personal Training oder Einkaufsassistenten. Seien Sie jedoch nicht zu aufgeregt, denn es kann einige Zeit dauern, bis Sie diese neue Fähigkeit von GPT-4 nutzen können.
Wie wir auf der OpenAI-Website lesen können, sind Bildeingaben immer noch eine Forschungsvorschau und nicht öffentlich verfügbar.
Ein weiterer großer Unterschied zwischen GPT-3 und GPT-4 besteht darin, wie wir den Ton, den Stil und das Verhalten des Modells bestimmen können.
In der neuesten Version von GPT ist es möglich, dem Modell die Anweisungen auf API-Ebene bereitzustellen, indem sogenannte „System“-Nachrichten eingebunden werden (innerhalb der in der Nutzungsrichtlinie von OpenAI ausführlich beschriebenen Grenzen). Diese Anweisungen geben den Ton der Nachrichten vor und beschreiben, wie sich das Modell verhalten soll (z. B. „Sie geben dem Schüler nie die Antwort, sondern versuchen immer, genau die richtige Frage zu stellen, damit er lernt, selbstständig zu denken“).
Darüber hinaus legen sie Grenzen für die Interaktionen von GPT-4 fest und können als „Leitplanken“ fungieren, um zu verhindern, dass GPT-4 sein Verhalten auf Wunsch des Benutzers ändert – genau wie im folgenden Beispiel:
Wie Sie sehen, bleibt der GPT-4 trotz der Anfragen des Benutzers in seiner Rolle – definiert in der Systemmeldung.
In gewisser Weise konnten wir die Fähigkeiten eines ähnlichen Modells bereits im kürzlich veröffentlichten GPT-3.5-Turbo erleben. Durch die Definition der Rolle des Modells in einer Systemaufforderung könnten wir eine andere Antwort erhalten. Sehen Sie, wie sich die Nachricht unterscheidet, je nachdem, für wen sich das GPT-Modell ausgibt:
Bis zur Veröffentlichung des GPT-3.5-Turbo im März 2023 war es nicht möglich, das Modell mit der Systemmeldung zu versehen. Die Kontextinformationen müssen innerhalb der Eingabeaufforderung angegeben werden und können sich im Laufe des Gesprächs leicht ändern.
Die Fähigkeit des neuen GPT-4 ermöglicht ihm ein konsistenteres Verhalten und eine bessere Anpassung an externe Vorgaben (z. B. Ihre Markenkommunikationsrichtlinien).
Natürlich hat das alles seinen Preis. Während die GPT-3-Modelle zwischen 0,0004 und 0,02 US-Dollar pro 1.000 Token kosten und der neueste GPT-3.5-Turbo zehnmal günstiger war (0,002 US-Dollar pro 1.000 Token) als das leistungsstärkste GPT-Davinci-Modell, lassen die Kosten für die Verwendung von GPT-4 keine Wünsche offen Illusionen: Wenn Sie die fortschrittlichsten Modelle verwenden möchten, müssen Sie einen Aufpreis zahlen.
Das GPT-4 mit einem 8K-Kontextfenster kostet 0,03 $ pro 1K-Eingabeaufforderungstoken und 0,06 $ pro 1K-Abschlusstoken. Das GPT-4 mit einem 32K-Kontextfenster hingegen kostet 0,06 US-Dollar pro 1K-Eingabeaufforderungstoken und 0,12 US-Dollar pro 1K-Abschlusstoken.
Wenn die Verarbeitung von 100.000 Anfragen mit einer durchschnittlichen Länge von 1.500 Eingabeaufforderungs-Tokens und 500 Abschluss-Tokens mit text-davinci-003
4.000 $ und mit gpt-3.5-turbo
400 $ kosten würde, würde es mit GPT-4 7.500 $ mit dem 8K-Kontextfenster und 15.000 $ mit gpt-3.5-turbo kosten das 32K-Kontextfenster.
Es ist nicht nur teurer, sondern auch komplizierter in der Berechnung . Das liegt daran, dass sich die Kosten für die Eingabeaufforderungs-Tokens von den Kosten für die Abschluss-Tokens (Ausgabe) unterscheiden. Wenn Sie sich an unserGPT-3-Preisexperiment erinnern, wissen Sie bereits, dass die Schätzung der Token-Nutzung schwierig ist, da zwischen Eingabe- und Ausgabelänge eine sehr geringe Korrelation besteht. Aufgrund der höheren Kosten der Ausgabe-(Abschluss-)Tokens werden die Kosten für die Verwendung von GPT-4-Modellen noch weniger vorhersehbar sein.
Erinnern Sie sich, wie wir den Kontext in der Systemnachricht für GPT-4 und GPT-3.5-Turbo definiert haben? Die Feinabstimmung ist im Grunde eine Umgehungsmethode, um den Ton, den Stil und das Verhalten des Modells zu definieren und die GPT-Modelle an eine bestimmte Anwendung anzupassen.
Um das Modell zu verfeinern, trainieren Sie es anhand von viel mehr Beispielen, als in die Eingabeaufforderung passen. Sobald ein Modell verfeinert ist, müssen Sie in der Eingabeaufforderung keine Beispiele mehr angeben. Dies spart Kosten (jedes 1K-Token zählt!) und ermöglicht Anfragen mit geringerer Latenz. Klingt großartig, nicht wahr? Es ist jedoch schade, dass die einzigen OpenAI-Modelle, die derzeit zur Feinabstimmung verfügbar sind, die ursprünglichen GPT-3-Basismodelle (Davinci, Curie, Ada und Cabbage) sind.
Als verschiedene Gerüchte über GPT-4 aufkamen (z. B. über die Anzahl der verwendeten Parameter), kommentierte der CEO von OpenAI Folgendes:
Die GPT-4-Gerüchteküche ist eine lächerliche Sache. Ich weiß nicht, woher das alles kommt. Die Menschen betteln darum, enttäuscht zu werden, und das werden sie auch sein. (…) Wir haben kein wirkliches AGI, und so etwas wird auch von uns erwartet.
Auch wenn man GPT-4 angesichts seiner Kreativität und erstaunlichen Fähigkeiten kaum als enttäuschend bezeichnen kann, ist es wichtig, sich seiner Grenzen bewusst zu sein. Und wie wir in der Produktforschungsdokumentation lesen können: Sie haben sich im Vergleich zu den Vorgängerversionen des Modells nicht wesentlich verändert.
Genau wie seinen Vorgängern mangelt es GPT-4 an Kenntnissen über Ereignisse, die nach September 2021 stattgefunden haben. Darüber hinaus ist ChatGPT, egal wie intelligent es zu sein scheint, immer noch nicht völlig zuverlässig – selbst wenn es mit GPT-4 betrieben wird. Auch wenn behauptet wird, dass es Halluzinationen im Vergleich zu früheren Modellen erheblich reduziert (in deren internen Bewertungen eine um 40 % höhere Punktzahl als GPT-3,5), „halluziniert“ es immer noch Fakten und macht Denkfehler. Es kann immer noch schädliche Ratschläge (obwohl es viel wahrscheinlicher ist, dass die Antwort verweigert wird), fehlerhafter Code oder ungenaue Informationen generiert werden. Aus diesem Grund sollte es nicht in Bereichen mit hohen Fehlerkosten verwendet werden.
Als fortschrittlichstes System von OpenAI übertrifft GPT-4 ältere Versionen der Modelle in fast allen Vergleichsbereichen. Es ist kreativer und kohärenter als GPT-3. Es kann längere Texte oder sogar Bilder verarbeiten. Es ist genauer und es ist weniger wahrscheinlich, dass „Fakten“ erfunden werden. Dank seiner Fähigkeiten schafft es viele neue mögliche Anwendungsfälle für generative KI .
Bedeutet das, dass GPT-4 GPT-3 und GPT-3.5 ersetzen wird? Wahrscheinlich nicht. Obwohl GPT leistungsfähiger ist als die Vorgängerversionen von OpenAI-Modellen, ist die Nutzung auch deutlich teurer. In vielen Anwendungsfällen, in denen Sie kein Modell benötigen, um mehrseitige Dokumente zu verarbeiten oder sich lange Gespräche zu „erinnern“, reichen die Funktionen von GPT-3 und GPT-3.5 gerade aus.
Auch hier veröffentlicht.