At the end of February, Elon rolled out his latest model. Of course, it was "the best in the world." 本当に地球上で最も賢いAIなのか? いつものように、マスクはハイプトレインをもたらしたが、打ち上げ時には客観的なデータはあまりなかった。 それはまだベータ版であり、モデルは積極的に訓練されていたと述べました。 ブログ記事 彼らはGrok 3を前方に示すいくつかのベンチマークを明らかにしました。しかし、彼らはAPIへのアクセスを与えませんでした。 So, Elon claims Grok 3 is "scarily smart" and beats everything else. But the only ways to check were chatting with it yourself or looking at their benchmarks. ベンチマークは?見てください。 右側のより軽い領域を見る? それは、より一貫した答えを得るために、より多くのコンピューティングパワー(テストタイムコンピューティング)を持つことによってGrokが得た推進です。 あなたはおそらく知っているでしょう AI モデルは、しばしば少し異なる答えを提供します - 時にはより良い、時にはより悪い. ほとんどのベンチマークは、この変数を無視し、最初の応答 (pass@1) のみを評価します。 しかし、Grok の結果はすべて cons@64 を使用して示されました。つまり、各質問に 64 回の試みがあり、最も一般的な答えを選択しました。 一方で、彼らは次世代モデルであると主張し、他方で、彼らはかなり安価なトリックを使用しています。 公平に言えば、競争の激しい分野では、すべての研究所がルールを曲げ、ベンチマークを選ぶか、比較からより強力なモデルを除外するが、滅多に明らかにしない。 では、バンクマークは一方で、実際に使用した後に経験豊富なユーザーが何を言っているのか?一般的な合意は次のとおりです。 モデルは巨大ですが、進歩をもたらしませんでした. それはまだ幻覚を起こし、あまりにも長い反応に向かう傾向があります。 パフォーマンス面では、Grok 3はOpenAIのトップモデルに近い場所に着陸し、リリース当時のDeepSeekやGoogleのものよりも少し良いかもしれません。 しかし、2ヶ月後、ジェミニ2.5、クロード3.7、そして新しいGPT-4oが到着しました。我々はついにGrok 3とそのミニバージョンのための部分的なAPIアクセスを手に入れました。残念ながら、ミニバージョンだけがAPIで思考モードを受け取りました。 だから今日、我々はそれが高価で、絶対に最高ではないことを知っています。 しかし、続けてください、ストーリーにはまだまだあります。 モデルは興味深く、見る価値があり、あなたはそれを彼らに渡さなければなりません、エロンとxAIは急速に市場に飛び込んで、記録的な時間で重要なプレイヤーとなりました。 1.ハードウェア ここにある大きな物語は? 2024年、xAIは巨大なコンピューティングクラスターを構築しました. 我々はNvidia H100 GPUの10万台をわずか4カ月で稼働させていることを話しています. その後、彼らはそれを3カ月で2万枚に倍増しました. NVIDIAのCEO、Jensen Huang氏は、 通常は約4年かかります。 提言 これは巨大なエンジニアリングの業績で、今回は面白くないビジネスで、世界最大のデータセンターです。 通常、このようなクラスターは、高価なInfinibandケーブルでつながった複数の通常のデータセンターです。訓練中に、これらのセンターは常にトンのデータを交換する必要があります。 典型的なデータセンターは、10万〜20万個のGPUを持ち、20〜30メガワットの電力を吸収する可能性があります。 マイクロソフト(OpenAI)はアリゾナ州で10万個のGPUネットワークを運営し、Metaは128万個を運行している。 例えば 2つのH形の建物を見る? それは2つの標準的なメタデータセンターが隣接しています。 トップクラスターの電力需要は2022年以来10倍まで増加しており、今ではクラスターあたり150メガワットの電力を供給している。それは小さな都市に電力を供給するようなものだ。 だから、エロンは後ろからこの市場に突入し...「エロンのやり方」をやっている。ツイートを嫌い、その人は他の誰よりも工場を建てる方法を知っている。 彼はメンフィスの古いElectrolux工場を買収し、他の人と同じネットワークの代わりに巨大なデータセンターを構築することにしました。 予想通り、パワーは問題となった。 工場は地元のグリッドからわずか7MWしか持っていなかったが、わずか4000GPUに十分だった。地元のユーティリティ、テネシーバレー庁は、さらに50MWを約束したが、8月までにはなかった。 しかし、待つことはマスクのスタイルではない。 ディラン・パテル(Semianalysis) エロンがボルタグリッドから14台の巨大なモバイルディーゼル発電機を導入したばかりの衛星画像を介して、4台のモバイルサブステーションに接続し、データセンターに電力を供給した。 発見 Patel mentioned they might have bought up 30% of the entire US market for these generators (though I couldn't find anything on that). 驚くべきことに、データセンターは液体冷却も使用しています。Googleだけがこれまで実際に規模でこれを行ったことがあります。Nvidiaの次世代チップ、Blackwell B200sは液体冷却を必要としているため、これは大きな問題です。 You can check out the first few minutes of this video to see what it looks like inside. I got a chuckle out of how hyped the guy is about grey boxes and cables. あなたはこのビデオの最初の数分を見ることができます。 https://www.youtube.com/watch?v=Jf8EPSBZU7Y&embedable=true それは真剣にクールなエンジニアリング - ケーブル管理を見てください。 こんな短い時間でこんなに大規模な仕事をした人はいない。 2.ハードウェアを増やす! イーロン氏は2025年夏までに、ブラックウェルB200チップを搭載した300KのGPUクラスターを持つだろうと述べているが、マスクの誇張の習慣を考慮すると、2025年末までに200〜400Kの新しいチップの間に現実的であると仮定する。 マスク氏は、専用2.2GWの発電所を建設する計画を立てているが、これは中規模の都市が消費するより多くの電力である。 そして、彼は一人ではない――すべての大きなプレーヤーが同じようなことをしている。 ♪ ♪ ♪ ♪ メタはルイジアナ州に2つのガス工場を建設している。 オープンAI/マイクロソフトはテキサスで同様のものを構築している。 Amazon and Google are also building gigawatt-scale data centers. なぜ核? それは電力を持っているが、原子力発電所の建設にはあまりにも時間がかかる. あなたは単にあなたのデータセンターの隣に1年で1つだけポップすることはできません. 風力と太陽光の農場とバッテリーは有望ですが、彼らはまた、必要な規模で展開するにはあまりにも時間がかかります。 As a result, both Microsoft and Meta have already had to backtrack on their green renewable energy promises. 彼らは背中を折り、モロッコを天国に引き上げた! Grok 3 is Huge(グロック3は巨大) だから、エロンはこの巨大で高価な箱を建てた。 推定によると、Grok 2 は ~20k H100s で訓練され、Grok 3 は 100k を超え、GPT-4 は約 90-100 日間 ~25k 古い A100 チップで訓練され、H100 は約 2.25 倍速い。 Grok 2はGPT-4と比べると約2倍のコンピューティングパワーを手に入れ、Grok 3はGrok 2の5倍を手に入れました。 基本的には、総 for Grok 3 is an order of magnitude (10 times!) higher than its closest competitor. 残念ながら、我々はGPT-4.5 or Gemini 2.5のための公開データを持っていない。 コンピュータ料金 したがって、彼らはこのメガクラスターの建設に狂った資源を注ぎ込んだし、結果としてのモデルは...現行のモデルと同等です。 トレーニングにおけるxAIの専門知識は依然としてOpenAI、Google、またはAnthropicに遅れているように見えます. 彼らは本質的にトップレベルへの道を強制的に強制しました. 魔法のトリックは示されていません。 しかし、そのアプローチには捕獲がある。Epoch AI 過去10年間で、アルゴリズムの改善はモデル能力の進歩の約3分の1を占め、残りの3分の2は単により大きなモデルにハードウェアとデータを投げ込むことから来た。 推定 ブルートフォースは今回Grok 3で働いたが、コストは膨大に増加し、改善はますます少なくなる。xAIはアルゴリズム側に追いつく必要がある。 4 - グロックの何が良いのか? ♪ ♪ 完全無料(おそらく完全リリースまで)。 And without Anthropic's tight limits, DeepSeek's disruptions, or OpenAI's paid levels. アントロピックの厳しい限界、DeepSeekの中断、またはOpenAIの有料レベルがありません。 過去数ヶ月ですべての新しいモデルが落とされたにもかかわらず、Grokはまだトップに近づいている。 リーダーボード チャットボットアリーナ また、独立したベンチマークも行っています。 : : 時代 そして、 by : : ライブベンチ ♪ Reasoning & Deep Research モード 2月には、無料のDeep Research機能はほとんどがPerplexityを除くものであり、現在、GoogleとOpenAIは基本的なレベルでいくつか提供しています。 このモードは、30〜100のリンクを自動的に解析します(Googleはそれ以上のことを行うかもしれません)数分で、あなたがスカイムし、事実を確認する必要があります詳細な(および膨らんだ)概要を吐き出します。それはゼロから何かを研究するよりも簡単です。私はGrokのバージョンが他のものよりも速く動作することを発見しました。 ♪ ♪ Xとの統合 これは彼の殺し屋の機能かもしれない:キーワードだけでなく、あなたが意図したものだけでなく、セマンティックな検索です。 Twitterはリアルタイムの情報プラットフォームに最も近いので、それは素晴らしいです。しかし、これまでのところ、Grokはしばしば遅れており、その代わりに過去数日からのデータを抽出しています。 ♪ ♪ The Unfiltered Thing(フィルターされていないもの) そして、グランドファイナルのために、 18+ モードです。 Grok はあまりにも多くの努力なしにジャイルブレイクするのが有名です。 あなたはそれを実行することができます ... あなたが望むかもしれない何でも、フリートな声から疑わしいレシピまで。 声のモードの例は確かに野生です。 https://x.com/goodside/status/1893932239718691167?embedable=true 最後まで聴いて、ハイライト! 皮肉なことに、グロック自身はマスク(またはトランプ)を高く評価していないようだ。これが出た時、xAIは修正を試みた――グロックがエロンを批判できないルールを文字通りハードコードした。 実際の問題は、グロックの意見は訓練データ(すなわち、インターネット)の反映にすぎず、意図的な偏見ではありません。 5 あなたは試すべきですか? 絶対に試してみるけど、第二のパイロットとして。 TLDR : ♪ ♪ ♪ ♪ ♪ ♪ ♪ 競争相手のモデルよりはるかに費用がかかる。 それにもかかわらず、パフォーマンスはほとんど最高のものと同等です。 しかし、それは超高速で無料です(現時点で)。 Deep Research モードは本当に役に立つ - 試してみてはいけません。 幻覚を起こし、あまりにも速く結論に飛び込む。 答えは通常、よく構造化されていますが、しばしば腫れを感じます。 ツイッターのデータへの独自のアクセス xAIは前例のないスピードで世界クラスのインフラストラクチャを構築することができると証明したが、実際のAI能力では、彼らは基本的に純粋なコンピューティングパワーでトップに進んでいる。 これにより、OpenAI、Google、Anthropicを圧迫し、AI業界を商品化へと推し進めるもう一つの強いプレーヤーが加わります。 気に入りましたか? 投票またはサブスクリプション 評価します! 私のニュースレター