Claude シリーズのモデルを開発している Anthropic 社が、Claude 3.5 Sonnet をリリースしました。これは、推論、要約などのほとんどのタスクで GPT-4o がデフォルトのベスト モデルであると誰もが認めるようになった時期に登場しました。Anthropic 社は、自社のモデルがインテリジェンスの新しい「業界標準」を設定すると大胆に主張しています。
さらに、試してみたい場合は、claude.ai で無料で入手できます。そこで、私たちは興奮して、モデルをテストし、GPT-4o と比較したいと考えました。この記事では、Claude 3.5 でリリースされた機能の概要から始め、コード生成、論理的および数学的推論タスクで GPT-4o と比較してテストします。
このモデルには、ほとんどのタスクで GPT-4o を上回ると主張する 3 つの主な機能または新機能が搭載されています。
機能を詳しく見ていき、長年 LLM の王者として君臨してきた GPT-4o と比較してみましょう。
開始するには、claude.ai Web サイトにログインし、アーティファクト機能を有効にする必要があります。これは実験的な機能なので、有効にする必要があります。以下に示すように、機能プレビューに移動して、そこからアーティファクトを有効にする必要があります。
有効にすると、コーディングやアニメーションなど、必要なタスク用の専用ウィンドウがモデルの横に表示されます。
視覚的推論能力の向上をテストするために、以下の 2 つのプロットを Claude Sonnet モデルにアップロードし、「このデータから何がわかりますか?」という質問をしました。
視覚的推論をテストするための画像としてのプロット
クロード・ソネット氏からの反応は驚くべきものでした。「このデータは、ディープラーニングのアーキテクチャとモデルのスケーリングが急速に進歩していることを示しており、より大規模で強力なモデルへの傾向を示しています」と述べ、ディープラーニングの進歩を正確に要約していました。GPT-4o からも同様の反応がありました。そこで、どちらが優れているかをより深く理解するために、コーディング、UI を使用したコーディング、論理的推論、数学的推論の 4 つのタスクで両方のモデルを体系的に比較し始めました。
概要を確認したので、モデルを詳しく調べて実際に試してみましょう。コード生成、論理的推論、数学的推論をテストしてみましょう。
コード生成では、両方のモデルに、よく知られている数独ゲームをプレイするためのコードを生成するように依頼します。両方のモデルに、「数独ゲームをプレイするための Python コードを記述してください」という正確なプロンプトを出しました。このプロンプトでは、Claude 3.5 と GPT-4o の両方が、コマンド プロンプトからのみ操作できるコードを生成します。UI コードの生成方法を指定しなかったため、これは予想どおりです。いくつかの初期の観察結果:
コマンド プロンプトの操作は誰でもできるわけではないので、モデルで UI 付きのコードを生成するようにしたいと考えました。このため、プロンプトを「数独ゲームをプレイするためのコードを記述してください」に変更しました。今回は、バックエンド コードのみを生成するようにプロンプトに指示すると感じたため、プロンプトから「python」を削除しました。予想どおり、Claude 3.5 は今回、以下のように機能的な UI を生成しました。UI は完全に堅牢で魅力的ではありませんでしたが、機能的でした。
しかし、残念ながら、GPT-4o は同様の UI を生成しませんでした。対話型のコマンド プロンプトを使用してコードを生成しました。
最初のパズルでは、以下の質問をしました。
ジェーンはジルを訪ねに行きました。ジルはジェーンの唯一の夫の義母の唯一の夫の唯一の娘の唯一の娘です。ジェーンとジルの関係はどのようなものですか?
どちらのモデルも一連の推論手順を導き出し、質問に正しく答えました。したがって、この場合は Claude 3.5 と GPT-4o が同点になります。
2 番目のパズルでは、以下の質問をしました。
どの単語が他の単語と最も似ていないか。違いは母音、子音、音節とは関係ありません。MORE、PAIRS、ETCHERS、ZIPPER\
これに対して、両方のモデルは異なる論理的推論手順を考案し、異なる答えを導き出しました。クロードは、ジッパーは名詞としても動詞としても機能できる唯一の単語であると推論しました。しかし、他の単語は単なる名詞か形容詞です。そのため、ジッパーが答えであると特定しました。一方、GPT-4o は、それが具体的な物体でも特定のタイプの人物でもないという MORE 推論を特定しました。
これらすべては、プロンプトをより具体的にする必要があることを示しており、この場合は同点になります。
数式で計算できる、よく知られている視覚的推論パズルに移りましょう。そこで、下の図と下のプロンプトを両方のモデルへの入力として与えました。
以下の 3 つの円の円周上には青い点があり、直線で結ばれています。最初の円には 2 つの青い点があり、円周を 2 つの領域に分けます。円周上の任意の場所に 7 つの点がある円の場合、円を分割できる領域の最大数はいくつですか。
この場合、GPT-4o は 57 という正解を導き出しました。しかし、Claude 3.5 は 64 という正解を導き出しましたが、これはあまり正確ではありません。どちらのモデルも、なぜその答えにたどり着いたかについて論理的な推論手順を示しました。GPT-4o の数式のフォーマットは、Claude 3.5 のものよりも優れています。
私たちのテストに基づいて、コード生成タスクの勝者は、それが純粋なバックコードであれ GUI コードであれ、Claude 3.5 sonnet であると結論付けました。論理的推論タスクでは僅差です。しかし、数学的推論タスクに関しては、GPT-4o が依然としてリードしており、Claude はまだ追いついていません。
生成速度の点では、ClaudeはGPT-4oよりもはるかに速くテキストやコードを生成するので、間違いなく勝者です。
この記事が気に入ったら、ぜひフォローしてください
また、私のチャンネルを購読してください