想像してみてください。AI アシスタントに質問すると、数ミリ秒で中途半端な答えを返す代わりに、AI アシスタントが一時停止します。
それは考えます。それは推論します。
そして、非常によく考えられた応答を返すので、まるで…人間的であるように感じられます。
未来的な感じがしますよね?
さて、ゲームを完全に変えると約束されている OpenAI の最新作、 o3 モデルへようこそ。
AI は長年、より速い応答、より派手な出力、しかし必ずしもよりスマートではないというパターンに陥っていました。
OpenAI は o3 で、「ゆっくりやろう。ちゃんとやろう」と言っています。
OpenAI が 12 日間の「shipmas」イベントで o3 を発表したとき、それは混雑した AI 市場における単なる発表ではありませんでした。
このモデルは単に賢いだけでなく、より思慮深いものだと彼らは主張した。
本質的に、o3 は OpenAI の「推論モデル」ファミリーの一部です。
答えを出すために力ずくの計算力に頼ることが多い従来の AI とは異なり、o3 のような推論モデルは、より人間に近い方法で情報を処理するように設計されています。
しかし、o3 の特徴は何でしょうか?
OpenAIは、英国の通信事業者O2との商標権紛争のため、「o2」を省略した。
はい、その通りです。
OpenAIのCEOサム・アルトマン氏もライブストリーム中にこれを確認した。
テクノロジーの世界では、AI モデルに名前を付けるだけでも法的な問題が生じる可能性があります。
名前についてはこれくらいにして、このモデルが注目を集めている理由についてお話ししましょう。
データに興味があるなら、ここからが興味深いところです。
O3 の最も目覚ましい成果の 1 つは、 ARC AGI ベンチマークでのパフォーマンスです。これは、AI がトレーニング済みのスキルを単に繰り返すのではなく、新しいスキルを学習して一般化できるかどうかを測定するために設計されたテストです。
想像してみてください。一連の幾何学模様が与えられ、次の模様を予測するように求められます。
事前の例や記憶されたテンプレートはなく、生の推論だけです。
それが ARC AGI が AI に課す課題です。
ARC AGI は、AI が人間のように考える能力を評価するためのゴールド スタンダードと見なされているため、このマイルストーンは重要です。
このテストで、AI モデルが初めて人間レベルのパフォーマンスを上回りました。
ここで何が起こっているのですか?
カラフルな図形のグリッドが表示され、「これが入力の場合、出力はどのようになるでしょうか?」と尋ねられます。
AI には、入力グリッドが出力グリッドに変換される方法の例がいくつか示されます。
例は特定のロジックまたはルールに従います。
例えば:
目標?
なぜ AI にとってこれが難しいのでしょうか?
人間はいつもこれを行っています。
たとえば、「赤い点があるものにはすべて赤い輪郭線を追加してください」と言われたら、すぐに理解できます。
しかし、AI は赤や輪郭の概念を「理解」できず、データ内のパターンのみを処理するため、苦労しています。
ARC テストは、AI が事前に学習した回答を超えて考えるように促します。
各テストはそれぞれ異なるため、暗記しても役に立ちません。
最後のテスト(🤔絵文字付き)はどうですか?
ここからが本当に難しいところです。
テスト入力では、さまざまなものが混在しています。マゼンタのドットが付いた黄色の四角形があります。
AI はこれまでマゼンタを見たことがないので、どうすればいいでしょうか?
人間は「マゼンタ色の枠線を付けたほうがいいかもしれない」と推測するかもしれませんが、これには推論と論理の飛躍が必要です。
AIにとって、これは目隠しをして崖から飛び降りるよう求められるようなものです。
それは完全に訓練の範囲外です。
O3 は、ARC AGI テストで優秀な成績を収め、AI 推論における新たなベンチマークを確立しました。
低コンピューティング設定では、 O3 はセミプライベート ホールドアウト セットで 76% のスコアを獲得しました。これは、これまでのどのモデルよりもはるかに優れたパフォーマンスです。
しかし、本当のブレークスルーは、高コンピューティング設定でテストされたときに起こりました。O3 は驚異的な 88% を達成し、人間レベルのパフォーマンスとよく考えられている 85% のしきい値を超えました。
このグラフは、現実世界のソフトウェア エンジニアリング タスクをシミュレートするベンチマークである Bench VerifiedでO3 が 71.7% の精度を達成したことを示しています。
これは O1 に比べて46% の改善であり、開発者が日々直面する複雑で実用的な課題を解決する O3 の強みを示しています。
競技的なコーディングでは、その差はさらに劇的になります。
ELO スコア 2727 を誇る O3 は、O1 の 1891 を上回るだけでなく、トップクラスの人間のプログラマーに匹敵するリーグに参入します。
ちなみに、ELO が 2400 を超えると通常はグランドマスター レベルと見なされ、Codeforces の評価は 2727 で、人間のコーダーの上位 0.8%に位置付けられます。
2024年のアメリカ招待数学試験では、o3はたった1問しか間違えずに、驚異の96.7%の得点を獲得しました。
博士レベルの科学問題集である GPQA Diamond では、o3 は 87.7% の精度を達成しました。これは AI モデルとしては前例のない偉業です。
これらは単なる数字ではありません。かつては機械では解決不可能と思われていた課題に o3 が取り組んでいることの証拠です。
O3 は、ほとんどの AI のように単に応答するだけではなく、息を吸ったり、一時停止したり、考えたりします。
答えを口走ってしまうことと、話す前に選択肢を慎重に検討することの違いとして考えてみましょう。
これは、熟慮による調整と呼ばれるものによって可能になります。
それは、O3 に道徳的な羅針盤を与え、安全と倫理のルールをわかりやすい言葉で教え、ただ反応するのではなく困難な状況を乗り越える方法を教えるようなものです。
簡単な例
ROT13 暗号 (基本的にはスクランブルされたメッセージ) を使用して有害なリクエストをエンコードし、O3 を出し抜こうとする人がいると想像してください。
違法行為を隠すためのアドバイスを求めています。
あまり進歩していない AI は餌に食いつくかもしれないが、O3 はどうだろうか?
リクエストを解読し、それが怪しいものであることを認識し、OpenAI の安全ポリシーと照合します。
応答をブロックするだけではありません。
この要求が倫理的な境界を越える理由を説明し、明確に拒否します。
これは良心を持った AI です。あるいは、これまでに見た中でそれに最も近い AI です。
O3 の思考プロセスは次のようになります。
1 - ルールを読む
O3 は、何が正しいか、何が間違っているかを推測するのではなく、わかりやすい言葉で書かれた実際の安全ガイドラインを使用してトレーニングを受けます。
動作を推測するために例に頼るだけでなく、事前にルールブックを学習します。
2 - 段階的に考える
難しい、または微妙な問題に直面しても、O3 は結論を急ぎません。
これは、 思考連鎖推論と呼ばれる手法を使用して、問題を段階的に分解し、最善の対応策を見つけ出します。
3 - 状況に応じて適応する
すべての状況が同じというわけではありません。
素早い回答が必要なタスクもあれば、深い考察が必要なタスクもあります。
O3 は問題の複雑さに応じて取り組みを調整するため、可能な場合には効率的に、必要な場合には徹底的に取り組みます。
OpenAI は O3 と並行して、その上位機種の全パワーを必要としないタスク向けに設計されたコスト効率の高いバージョンである O3 Mini を発表しました。
O3 Miniの何が特別なのでしょうか?
適応型思考時間 ユーザーは、タスクの複雑さに基づいてモデルの推論作業を調整できます。
すぐに答えが必要ですか? 労力のかからない推論を行ってください。
複雑なコーディングの問題に取り組んでいますか? 努力モードに切り替えましょう。
コストパフォーマンスのバランス O3 Mini は、より単純なタスクでは O3 とほぼ同じレベルの精度を、わずかなコストで実現します。
この柔軟性により、O3 Mini は予算が限られている開発者や研究者にとって魅力的な選択肢となります。
ここからは哲学的な話になります。
AGI(汎用人工知能)とは、人間が実行できるあらゆるタスクを実行できる、多くの場合は人間よりも優れた AI を指します。
OpenAI は常に AGI をその北極星としてきましたが、o3 によって、その目標にさらに近づいているように感じます。
次のことを考慮してください。
そうは言っても、OpenAI でさえ、o3 はまだ AGI ではないことを認めています。
これは、AGI がどのようなものになるかを示すプロトタイプのようなものです。つまり、人間のような方法で学習し、適応し、推論する AI です。
今後の課題 o3 は素晴らしい機能を備えていますが、欠点がないわけではありません。
o3 は単なる AI モデルではなく、AI が将来どうなるかを垣間見ることができるものです。
完璧ではありませんが、機械が単に反応するだけではなく、人間らしい方法で推論し、学習し、適応する時代への一歩です。
AGI にはまだ程遠いですが、o3 は進歩が直線的ではなく指数関数的であることを思い出させてくれます。
さて、あなたはどう思いますか? 私たちは新たな AI 革命の始まりにいるのでしょうか? それとも、o3 はもっと長い道のりの単なるひとつのマイルストーンなのでしょうか?