Anthropic, das Unternehmen hinter der Claude-Modellreihe, hat Claude 3.5 Sonnet veröffentlicht. Dies kommt zu einem Zeitpunkt, an dem wir alle GPT-4o als das beste Standardmodell für die meisten Aufgaben wie logisches Denken, Zusammenfassen usw. akzeptiert haben. Anthropic erhebt die kühne Behauptung, dass sein Modell den neuen „Industriestandard“ für Intelligenz setzt.
Darüber hinaus ist es kostenlos auf claude.ai verfügbar, wenn Sie es ausprobieren möchten. Wir waren also begeistert und wollten das Modell testen und mit GPT-4o vergleichen. Dieser Artikel beginnt mit einem Überblick über die mit Claude 3.5 veröffentlichten Funktionen und testet es mit GPT-4o bei der Codegenerierung sowie bei logischen und mathematischen Denkaufgaben.
Das Modell verfügt über drei Hauptfunktionen bzw. Neuheiten, aufgrund derer es angeblich GPT-4o bei den meisten Aufgaben schlägt.
Lassen Sie uns tiefer in die Funktionen eintauchen und sie mit dem langjährigen König der LLMs, GPT-4o, vergleichen.
Um zu beginnen, müssen wir uns auf der Website claude.ai anmelden und die Artefakte-Funktion aktivieren. Da es sich um eine experimentelle Funktion handelt, müssen wir sie aktivieren. Wir müssen zur Funktionsvorschau gehen und von dort aus Artefakte aktivieren, wie unten gezeigt.
Nach der Aktivierung zeigt das Modell an der Seite ein dediziertes Fenster für Aufgaben an, die diese benötigen, wie Codierung oder Animationen.
Um die verbesserte Fähigkeit zum visuellen Denken zu testen, haben wir die folgenden beiden Diagramme in das Claude-Sonnet-Modell hochgeladen und die Frage gestellt: „Was können Sie aus diesen Daten erkennen?“.
Plots als Bilder zum Testen des visuellen Denkens
Die Antwort von Claude Sonnet war verblüffend. Er fasste die Fortschritte im Bereich Deep Learning präzise zusammen und sagte: „Diese Daten veranschaulichen den schnellen Fortschritt bei Deep-Learning-Architekturen und der Modellskalierung und zeigen einen Trend zu größeren, leistungsfähigeren Modellen.“ Eine ähnliche Antwort erhielten wir auch von GPT-4o. Um also besser zu verstehen, welches Modell besser ist, begannen wir, beide Modelle systematisch in vier Aufgaben zu vergleichen – Codierung, Codierung mit UI, logisches Denken und mathematisches Denken.
Nachdem wir uns nun einen Überblick verschafft haben, wollen wir tiefer eintauchen und das Modell ausprobieren. Lassen Sie uns die Codegenerierung, das logische Denken und das mathematische Denken testen.
Zur Codegenerierung werde ich beide Modelle bitten, Code zum Spielen des bekannten Sudoku-Spiels zu generieren. Ich habe beide Modelle mit der genauen Eingabeaufforderung „Schreiben Sie Python-Code, um das Sudoku-Spiel zu spielen“ aufgefordert. Mit dieser Eingabeaufforderung generieren sowohl Claude 3.5 als auch GPT-4o Code, mit dem wir nur über die Eingabeaufforderung interagieren können. Dies ist zu erwarten, da wir nicht angegeben haben, wie UI-Code generiert werden soll. Einige erste Beobachtungen:
Da die Interaktion mit der Eingabeaufforderung nicht jedermanns Sache ist, wollte ich, dass die Modelle Code mit Benutzeroberfläche generieren. Dazu habe ich die Eingabeaufforderung geändert in „Schreiben Sie Code, um ein Sudoku-Spiel zu spielen“. Dieses Mal habe ich „Python“ aus der Eingabeaufforderung entfernt, da ich der Meinung war, dass es nur den Backend-Code erzeugen würde. Wie erwartet hat Claude 3.5 dieses Mal eine funktionale Benutzeroberfläche wie unten gezeigt erstellt. Obwohl die Benutzeroberfläche nicht ganz robust und ansprechend war, war sie funktional.
Leider hat GPT-4o keine ähnliche Benutzeroberfläche erstellt. Es wurde weiterhin Code mit einer interaktiven Eingabeaufforderung generiert.
Für das erste Rätsel habe ich die folgende Frage gestellt:
Jane besuchte Jill. Jill ist die einzige Tochter des einzigen Mannes von Janes einzigem Schwiegervater, der einzige Mann der einzigen Tochter. In welcher Beziehung steht Jane zu Jill?
Beide Modelle haben eine Abfolge von Denkschritten entwickelt und die Frage richtig beantwortet. In diesem Fall muss es also ein Unentschieden zwischen Claude 3.5 und GPT-4o geben.
Für das zweite Rätsel habe ich die folgende Frage gestellt:
Welches der Wörter ähnelt den anderen am wenigsten? Der Unterschied hat nichts mit Vokalen, Konsonanten oder Silben zu tun. MEHR, PAARE, ETCHERS, ZIPPER\
Dafür entwickelten beide Modelle unterschiedliche logische Denkschritte, um zu unterschiedlichen Antworten zu gelangen. Claude schlussfolgerte, dass Reißverschluss das einzige Wort ist, das sowohl als Substantiv als auch als Verb fungieren kann. Andere sind jedoch entweder nur Substantive oder Adjektive. Daher wurde ZIPPER als Antwort identifiziert. GPT-4o hingegen identifizierte MORE und schlussfolgerte, dass es sich weder um ein konkretes Objekt noch um einen bestimmten Personentyp handelt.
All dies deutet darauf hin, dass wir die Eingabeaufforderung spezifischer gestalten müssen, was in diesem Fall zu einem Unentschieden führen würde.
Kommen wir nun zu einem bekannten visuellen Denkrätsel, das mit einer Formel berechnet werden kann. Daher habe ich die folgende Abbildung zusammen mit der folgenden Eingabeaufforderung als Eingabe für beide Modelle bereitgestellt.
Die folgenden 3 Kreise haben alle blaue Punkte auf ihrem Umfang, die durch gerade Linien verbunden sind. Der erste Kreis hat zwei blaue Punkte, die ihn in zwei Bereiche unterteilen. Gegeben sei ein Kreis mit 7 Punkten an beliebiger Stelle auf seinem Umfang. In wie viele Bereiche kann der Kreis maximal unterteilt werden?
In diesem Fall kam GPT-4o mit der absolut richtigen Antwort von 57. Aber Claude 3.5 kam mit der Antwort 64, die nicht ganz korrekt ist. Beide Modelle lieferten logische Argumentationsschritte, warum sie zu dieser Antwort kamen. Die Formatierung der mathematischen Formeln in GPT-4o ist der von Claude 3.5 vorzuziehen.
Basierend auf unseren Tests kommen wir zu dem Schluss, dass der Gewinner bei Codegenerierungsaufgaben, sei es reiner Backed-Code oder GUI-Code, Claude 3.5 Sonett ist. Bei Aufgaben zum logischen Denken ist es ein knappes Unentschieden. Aber wenn es um Aufgaben zum mathematischen Denken geht, ist GPT-4o immer noch führend und Claude muss noch aufholen.
In Bezug auf die Generierungsgeschwindigkeit ist Claude zweifellos der Gewinner, da es Text oder Code viel schneller erzeugt als GPT-4o. Schauen Sie sich unsere
Wenn Ihnen dieser Artikel gefallen hat, folgen Sie mir doch auf
Bitte abonnieren Sie auch meinen