LLM のパフォーマンスを測定するために使用される一般的なベンチマークを確認すると、AI がとても賢いと感じるでしょう。
これは表面的な印象としては妥当ですが、認知タスクに関して AI は本当に平均的な人間よりも優れているのでしょうか?
OpenAI の o1 や Anthropic の Claude 3.5 Sonnet などの最先端のモデルは、法律、コーディング、数学など、多くの分野で熟練した人間よりも優れたパフォーマンスを発揮します。では、なぜ ChatGPT は単純な空間推論タスクやばかげたひっかけ問題を解くことができないのでしょうか。それは、私たちがまだ「大規模言語モデル」について話しているからです。つまり、大量の文字を取り込み、特定のクエリに対してどの文字を吐き出すかを予測しようとするのです。
この方程式のどこにも実際の「思考」について言及されていないことに注意してください。モデルは一種の確率論的なオウムのようなもので、質問を実際に考慮するのではなく、トレーニング データセットから適切な情報を取得しようとします。少なくとも、OpenAI が o1-preview をリリースするまではそうでしたが、これについては後で詳しく説明します。
既存の LLM ベンチマークの関連性に疑問を持ち始めた人の中には、私が大ファンである人気の YouTube チャンネル「AI Explained」の著者がいます。Phillip (YouTuber の名前) は、業界標準のベンチマークには明確なスタイルの質問があり、そのほとんどは公開されていることに気付きました。つまり、それらの質問を正確にトレーニング データセットの一部にできるだけでなく、標準化により、モデルがトレーニング データ全体からパターンを見つけて適用しやすくなります。
簡単に言えば、画期的で複雑な技術を生み出す AI 研究者は、ベンチマークを行う前に、モデルに関連する質問と回答を「記憶」させる方法を必ず見つけることができるのです。
現在トップのモデルである OpenAI の o1 の結果を見ると、多くの専門分野で平均以上のスコアを獲得していることがわかります。これは事実ですが、この結果は、特定の分野に関連するトレーニング データと過去の例が利用可能であることに依存しています。誤解しないでください。モデルは教科書的な質問に教科書的な答えを出すのに驚異的であり、それ自体が驚くほど印象的です。
しかし、「人工知能」という用語は、単なる情報検索以上の意味を持ちます。実際の思考も含まれるはずです。したがって、上記の印象的な数字すべてに続く論理的な帰結は、そのような「AI」が、難しい推論の質問に答えられるかどうかです。空間知能を備えているのでしょうか? あるいは、一般的な社会的シナリオでうまくナビゲートできるのでしょうか? 答えは、時々です。
事前に定義された答えがある分野固有の質問とは異なり、人間が日常的に解決する問題では、自然言語を超えたコンテキストを理解することがしばしば必要になります (これは LLM が持つ唯一のものです)。
上記は、平均的な人が些細だと判断するが、モデルが必ずしもまだ答えられない問題を LLM に与える SIMPLE ベンチマークの最高得点者です。試験や専門的なベンチマークで AI が平均的な人間よりもはるかに優れた成績を収めるのはよく見かけますが、ここではトップモデルのパフォーマンスは実際には平均的な人間の 83.7% に対してわずか 41.7% (o1-preview) です。このベンチマークでは、時空間推論、社会的知性、ひっかけ問題に重点を置いた 200 の複数選択テキスト問題を使用します。
このベンチマークの最も重要な特徴は、これらの質問が公開されていないため、AI ラボがトレーニング データにそれらを追加できないことです。このベンチマークの詳細については、こちらをご覧ください。
LLM のパフォーマンスを測定するこの新しいアプローチは、すべてのモデルが平均的な人間の推論能力からどれだけ離れているかを示しています。今後数か月でこのギャップが早く埋まれば埋まるほど、私たちの見出しに対する答えは「はい」という明確なものになります。AI に熱心でありながら慎重な人にとっては、注目すべき興味深い新しい指標です。