Anthropic, das Unternehmen hinter der Claude-Modellreihe, hat Claude 3.5 Sonnet veröffentlicht. Dies kommt zu einem Zeitpunkt, an dem wir alle GPT-4o als das beste Standardmodell für die meisten Aufgaben wie logisches Denken, Zusammenfassen usw. akzeptiert haben. Anthropic erhebt die kühne Behauptung, dass sein Modell den neuen „Industriestandard“ für Intelligenz setzt.  Darüber hinaus ist es kostenlos auf claude.ai verfügbar, wenn Sie es ausprobieren möchten. Wir waren also begeistert und wollten das Modell testen und mit GPT-4o vergleichen. Dieser Artikel beginnt mit einem Überblick über die mit Claude 3.5 veröffentlichten Funktionen und testet es mit GPT-4o bei der Codegenerierung sowie bei logischen und mathematischen Denkaufgaben.  Haupteigenschaften  Das Modell verfügt über drei Hauptfunktionen bzw. Neuheiten, aufgrund derer es angeblich GPT-4o bei den meisten Aufgaben schlägt.      Das Modell bietet laut den unten veröffentlichten Ergebnissen bei 4 von 5 Sehaufgaben eine hochmoderne Leistung. Verbesserte Sehaufgaben.    Im Vergleich zu GPT-4o oder seinen Vorgängern wie Claude Opus verfügt Claude Sonnet über die doppelte Generierungsgeschwindigkeit. Doppelte Geschwindigkeit.    – eine neue Benutzeroberfläche für Aufgaben wie Codegenerierung und Animation. Artefakte  Lassen Sie uns tiefer in die Funktionen eintauchen und sie mit dem langjährigen König der LLMs, GPT-4o, vergleichen.  Erste Schritte  Um zu beginnen, müssen wir uns auf der Website claude.ai anmelden und die Artefakte-Funktion aktivieren. Da es sich um eine experimentelle Funktion handelt, müssen wir sie aktivieren. Wir müssen zur Funktionsvorschau gehen und von dort aus Artefakte aktivieren, wie unten gezeigt.  Nach der Aktivierung zeigt das Modell an der Seite ein dediziertes Fenster für Aufgaben an, die diese benötigen, wie Codierung oder Animationen.  Sehaufgaben – Visuelles Denken  Um die verbesserte Fähigkeit zum visuellen Denken zu testen, haben wir die folgenden beiden Diagramme in das Claude-Sonnet-Modell hochgeladen und die Frage gestellt: „Was können Sie aus diesen Daten erkennen?“.   Plots als Bilder zum Testen des visuellen Denkens  Die Antwort von Claude Sonnet war verblüffend. Er fasste die Fortschritte im Bereich Deep Learning präzise zusammen und sagte: „Diese Daten veranschaulichen den schnellen Fortschritt bei Deep-Learning-Architekturen und der Modellskalierung und zeigen einen Trend zu größeren, leistungsfähigeren Modellen.“ Eine ähnliche Antwort erhielten wir auch von GPT-4o. Um also besser zu verstehen, welches Modell besser ist, begannen wir, beide Modelle systematisch in vier Aufgaben zu vergleichen – Codierung, Codierung mit UI, logisches Denken und mathematisches Denken.  Im Vergleich zu GPT-4o – Was ist besser?  Nachdem wir uns nun einen Überblick verschafft haben, wollen wir tiefer eintauchen und das Modell ausprobieren. Lassen Sie uns die Codegenerierung, das logische Denken und das mathematische Denken testen.  Codegenerierung  Zur Codegenerierung werde ich beide Modelle bitten, Code zum Spielen des bekannten Sudoku-Spiels zu generieren. Ich habe beide Modelle mit der genauen Eingabeaufforderung „Schreiben Sie Python-Code, um das Sudoku-Spiel zu spielen“ aufgefordert. Mit dieser Eingabeaufforderung generieren sowohl Claude 3.5 als auch GPT-4o Code, mit dem wir nur über die Eingabeaufforderung interagieren können. Dies ist zu erwarten, da wir nicht angegeben haben, wie UI-Code generiert werden soll. Einige erste Beobachtungen:  Beide Modelle produzieren fehlerfreien Code.  Claude generiert Code mit der Funktion, den Schwierigkeitsgrad auszuwählen. GPT-4o hingegen nicht!  Mit der Geschwindigkeit der Codegenerierung schlägt Claude GPT-4o ohne Zweifel  GPT-4o neigt dazu, Code mit unnötigen Paketen zu generieren  Codegenerierung mit UI  Da die Interaktion mit der Eingabeaufforderung nicht jedermanns Sache ist, wollte ich, dass die Modelle Code mit Benutzeroberfläche generieren. Dazu habe ich die Eingabeaufforderung geändert in „Schreiben Sie Code, um ein Sudoku-Spiel zu spielen“. Dieses Mal habe ich „Python“ aus der Eingabeaufforderung entfernt, da ich der Meinung war, dass es nur den Backend-Code erzeugen würde. Wie erwartet hat Claude 3.5 dieses Mal eine funktionale Benutzeroberfläche wie unten gezeigt erstellt. Obwohl die Benutzeroberfläche nicht ganz robust und ansprechend war, war sie funktional.  Leider hat GPT-4o keine ähnliche Benutzeroberfläche erstellt. Es wurde weiterhin Code mit einer interaktiven Eingabeaufforderung generiert.  Rätsel 1 – Logisches Denken  Für das erste Rätsel habe ich die folgende Frage gestellt:   Jane besuchte Jill. Jill ist die einzige Tochter des einzigen Mannes von Janes einzigem Schwiegervater, der einzige Mann der einzigen Tochter. In welcher Beziehung steht Jane zu Jill?  Beide Modelle haben eine Abfolge von Denkschritten entwickelt und die Frage richtig beantwortet. In diesem Fall muss es also ein Unentschieden zwischen Claude 3.5 und GPT-4o geben.  Rätsel 2 – Logisches Denken  Für das zweite Rätsel habe ich die folgende Frage gestellt:   Welches der Wörter ähnelt den anderen am wenigsten? Der Unterschied hat nichts mit Vokalen, Konsonanten oder Silben zu tun. MEHR, PAARE, ETCHERS, ZIPPER\  Dafür entwickelten beide Modelle unterschiedliche logische Denkschritte, um zu unterschiedlichen Antworten zu gelangen. Claude schlussfolgerte, dass Reißverschluss das einzige Wort ist, das sowohl als Substantiv als auch als Verb fungieren kann. Andere sind jedoch entweder nur Substantive oder Adjektive. Daher wurde ZIPPER als Antwort identifiziert. GPT-4o hingegen identifizierte MORE und schlussfolgerte, dass es sich weder um ein konkretes Objekt noch um einen bestimmten Personentyp handelt.  All dies deutet darauf hin, dass wir die Eingabeaufforderung spezifischer gestalten müssen, was in diesem Fall zu einem Unentschieden führen würde.  Rätsel 3 – Mathematisches Denken  Kommen wir nun zu einem bekannten visuellen Denkrätsel, das mit einer Formel berechnet werden kann. Daher habe ich die folgende Abbildung zusammen mit der folgenden Eingabeaufforderung als Eingabe für beide Modelle bereitgestellt.     Die folgenden 3 Kreise haben alle blaue Punkte auf ihrem Umfang, die durch gerade Linien verbunden sind. Der erste Kreis hat zwei blaue Punkte, die ihn in zwei Bereiche unterteilen. Gegeben sei ein Kreis mit 7 Punkten an beliebiger Stelle auf seinem Umfang. In wie viele Bereiche kann der Kreis maximal unterteilt werden?  In diesem Fall kam GPT-4o mit der absolut richtigen Antwort von 57. Aber Claude 3.5 kam mit der Antwort 64, die nicht ganz korrekt ist. Beide Modelle lieferten logische Argumentationsschritte, warum sie zu dieser Antwort kamen. Die Formatierung der mathematischen Formeln in GPT-4o ist der von Claude 3.5 vorzuziehen.  Unser Urteil  Basierend auf unseren Tests kommen wir zu dem Schluss, dass der Gewinner bei Codegenerierungsaufgaben, sei es reiner Backed-Code oder GUI-Code, Claude 3.5 Sonett ist. Bei Aufgaben zum logischen Denken ist es ein knappes Unentschieden. Aber wenn es um Aufgaben zum mathematischen Denken geht, ist GPT-4o immer noch führend und Claude muss noch aufholen.  In Bezug auf die Generierungsgeschwindigkeit ist Claude zweifellos der Gewinner, da es Text oder Code viel schneller erzeugt als GPT-4o. Schauen Sie sich unsere  wenn Sie die Geschwindigkeit der Textgenerierung in Echtzeit vergleichen möchten.   Video Ausruf     Wenn Ihnen dieser Artikel gefallen hat, folgen Sie mir doch auf   Þjórsárden wo ich an jedem einzelnen Tag der Woche Forschungsupdates von Top-KI-Laboren teile?     Bitte abonnieren Sie auch meinen   Youtube Kanal wo ich KI-Konzepte und -Dokumente visuell erkläre.  

This story contains new, firsthand information uncovered by the writer.

Opus

Puzzle

YouTube

Why not checkout more about AI Bites!

Read My Stories

Dieses Audio ist in der Originalsprache der Geschichte produziert!

Claude 3.5 Sonnet vs. GPT-4o – Ein ehrlicher Test

About Author

KOMMENTARE

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN

Related Stories

HackerNoon Decoded 2024: Celebrating Our Management Community!

HackerNoon Decoded 2024: Celebrating Our Life Hacking Community!

Meet Deepgram: HackerNoon Company of the Week

HackerNoon Decoded 2024: Celebrating Our Data Science Community!

HackerNoon Decoded 2024: Celebrating Our Management Community!

HackerNoon Decoded 2024: Celebrating Our Life Hacking Community!

Meet Deepgram: HackerNoon Company of the Week

HackerNoon Decoded 2024: Celebrating Our Data Science Community!

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps