2025 年の初め以来、AI ラボから非常に多くの新しいモデルが大量に発表されており、追いつくのに苦労しています。 しかし、トレンドは誰も気にしていないと言っています!ChatGPT だけです: どうして? 新しいモデルは素晴らしいですが、名前の付け方がまったくおかしなことです。さらに、ベンチマークでモデルを区別することさえできなくなりました。単純に「これが最高だから、みんな使ってるよ」という言い方はもう通用しません。 つまり、市場には本当に素晴らしい AI モデルが数多く存在するのですが、実際にそれを使用している人はほとんどいません。 それは残念なことだ! 命名混乱の意味を理解し、ベンチマーク危機について説明し、ニーズに合った適切なモデルを選択する方法に関するヒントを共有したいと思います。 モデルが多すぎる、名前がひどい ダリオ・アモデイは、モデルに明確な名前を付けられるようになる前に、AGI が作られるかもしれないとずっと冗談を言っていた。Google は伝統的に混乱のゲームをリードしている。 公平に言えば、それはある程度理にかなっています。各「ベース」モデルには、現在、多くのアップデートがあります。それらは、必ずしも各アップデートを新しいバージョンとして正当化するほど画期的ではありません。これらすべてのプレフィックスは、ここから来ています。 物事を簡素化するために、不要な詳細をすべて削除して、主要なラボのモデル タイプの表を作成しました。 では、これらのタイプのモデルとは何でしょうか? 巨大で強力な モデルがあります。それらは印象的ですが、規模が大きくなると遅くなり、コストがかかります。 基本 そのため、私たちは 発明しました。つまり、基本モデルを取得し、その回答に基づいてよりコンパクトなモデルをトレーニングすると、ほぼ同じ機能をより高速かつ安価に得ることができます。 蒸留を これは モデルにとって特に重要です。現在、最も優れたパフォーマンスを発揮するモデルは、ソリューションの計画、実行、結果の検証という複数ステップの推論チェーンに従っています。効果的ですが、コストがかかります。 推論 専門モデルもあります。検索用、単純なタスク用の超安価なモデル、医学や法律などの特定の分野用のモデルなどです。さらに、画像、ビデオ、オーディオ用の別のグループもあります。混乱を避けるために、これらすべてを含めませんでした。また、できるだけシンプルにするために、他のモデルやラボを意図的に無視しました。 場合によっては、詳細を多くすると事態が悪化するだけです。 すべてのモデルは基本的に同等です 明確な勝者を選ぶのは難しくなってきた。アンドレイ・カルパシー氏は最近、これを「評価の危機」と呼んだ。 現時点では、どの指標に注目すればよいのかは不明です。MMLU は時代遅れで、SWE-Bench は範囲が狭すぎます。Chatbot Arena は非常に人気があるため、ラボはそれを「ハッキング」する方法を習得しました。 現在、モデルを評価する方法はいくつかあります。 狭いベンチマークでは、Python コーディングや幻覚率など、非常に具体的なスキルを測定します。しかし、モデルはより賢くなり、より多くのタスクを習得しているため、1 つの指標だけでそのレベルを測定することはもはやできません。 包括的なベンチマークは、多数の指標を使用して複数の側面を捉えようとします。ただし、これらすべてのスコアを比較すると、すぐに混乱が生じます。人々はこれらの複雑なベンチマークを複数因数分解しようとしていることに注意してください。一度に 5 つまたは 10 個です。ここでは 1 つのモデルが勝ち、あちらでは別のモデルが勝ちます。理解するのは難しいでしょう。 アリーナでは、人間が個人の好みに基づいてモデルの回答を盲目的に比較します。モデルは、チェス プレイヤーのように ELO 評価を受けます。より頻繁に勝つと、より高い ELO が得られます。しかし、モデルが互いに近づきすぎるまでは、これは素晴らしいことでした。 35 ポイントの差は、モデルが 55% の場合にのみ優れていることを意味します。 チェスと同様、ELO が低いプレイヤーでも勝つ可能性は十分にあります。100 ポイントの差があっても、3 分の 1 のケースでは「劣った」モデルの方が優れたパフォーマンスを発揮します。 繰り返しになりますが、タスクによっては、あるモデルで解決した方がよいものもあれば、別のモデルで解決した方がよいものもあります。リストの上位にあるモデルを選択すると、10 件のリクエストのうち 1 つがより適切に解決される可能性があります。どのモデルが適切で、どの程度適切でしょうか。 知るか。 それで、どうやって選びますか? より良い選択肢がないため、カルパシー氏はバイブチェックに頼ることを提案しています。 自分でモデルをテストして、どれが適切か確認してください。もちろん、自分を騙すのは簡単です。 それは主観的で偏見になりやすいですが、実用的です。 私の個人的なアドバイスは次のとおりです。 タスクが新しい場合は、異なるモデルの複数のタブを開いて結果を比較します。どのモデルの方が調整や編集が少なくて済むかは、直感に任せてください。 タスクがより馴染み深い場合は、最適なモデルのみを使用します。 ベンチマークの数字を追いかけるのはやめましょう。気に入った UX に焦点を当て、すでに支払ってもよいと思っているサブスクリプションを優先してください。 それでも数字が必要な場合は、 試してください。作成者は、ハッキング、陳腐化、狭さ、主観性などの一般的なベンチマークの問題を修正すると主張しています。 https://livebench.ai/#/ を 製品クリエイター向けに、独自のベンチマークを設定する方法については、HuggingFace による優れたガイドをご覧ください。https ://github.com/huggingface/evaluation-guidebook/ 一方、ChatGPT 以外のものを試すためのサインを待っていた場合は、次のサインがあります。 https://claude.ai/ https://gemini.google.com/ https://grok.com/ https://chat.deepseek.com/ https://сhаt.openai.сom 次に、各モデルの重要なハイライトを取り上げ、他の人の雰囲気チェックをまとめます。 この記事を気に入っていただき、次の記事を見逃したくない場合は、ぜひ購読してください。