「コンピュータ使用エージェント」を見たことがあるなら、あなたは2つの事実に気付きました。 すべての新しいモデルは、何かに「SOTA」です。 ほぼ、その数字のどれも並びません。 で、 で、 で、 で、 で、 で、 で、 で、 トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > トップ > OSWorld CUB, Web Bench Westworld REAL Mind2Web ScreenSpot GroundUI Showdown-Clicks WebClick It feels more and more like early web frameworks. Too many options and not enough direction. この投稿は、現在の生態系を一貫したイメージに置く試みです:そこに何があるのか、ベンチマークがどのように異なっているのか、そしてこれらすべてがどこに向かっているのか。 「コンピュータ使用」の3つの層 ほぼすべての「コンピュータ使用」ベンチマークは、以下の3つの層のうちの1つに分けられます。 1. – スクリーンショットからのインターフェイス要素のロケーションと識別 Low-level UI grounding 2. ブラウザ環境内の複数のステップタスクの完了 Web task execution 3. 完全なオペレーティングシステムにおけるクロスアプリケーションワークフロー Full OS / multi-app computer use レイヤー1 - UI Grounding これらのベンチマークは、スクリーンショットと指示をとり、モデルに正しい場所(ピクセル、ボックス、UI要素)を指さなければならない。 主要な例としては、 , which serves as the workhorse of GUI grounding. オリジナル Web、モバイル、デスクトップ UI をカバーします。 cleans up the labeling; 複数の業界やOSをカバーする高解像度のプロのアプリケーションをターゲットにします。 ScreenSpot family ScreenSpot ScreenSpot-v2 ScreenSpot-Pro 「Maching Up」で違うアプローチをとる で、 で、 and friends into an ~18k-example multi-platform dataset, plus a standard 1k-example eval subset. GroundUI ScreenSpot Mind2Web OmniACT macOS デスクトップ環境でタスクを実行する人々から 5,679 人のヒューマンクリックを提供し、クリック予測基準として使用されます。 Showdown-Clicks その間、 から Holo1/Holo1.5 が小型 UI ローカライゼーションを示すために使用する 1,600 以上の Web スクリーンショットと「ここをクリック」タグを提供します。 WebClick H会社 あなたがエージェントの「目」を訓練している場合(画面を読み取ることができ、ウィジェットを選ぶことができるビジョン言語モデル)、ベンチマークはここです。 / / / / / / ナンバー ScreenSpot ScreenSpot-Pro GroundUI Showdown-Clicks Layer 2 – Web-based agents ここで、エージェントは実際のブラウザ(または高い忠誠度のシミュレータ)を取得し、「夏の間に、ニューヨーク市のホテルを250ドル以下に予約してください」または「この製品の返品ポリシーを見つけて、最近のアイテムの返品を要求してください」などのタスクを完了しなければなりません。 THE オフラインデータセットには、137の実際のウェブサイトと31のドメインで2350のタスクが含まれており、アクションシーケンスがあります。 これは、実際の136のウェブサイトで300のタスクで、正確さ、コスト、および実行を追跡するリーダーボードです。 これを130の長期的な、研究スタイルの検索タスクで拡張し、答えの正確性と割り当てのための「エージェントとして裁判官」を追加します。 Mind2Web Online Mind2Web Mind2Web 2 takes a different approach: it's a self-hosted web environment built from realistic mock sites (e-commerce, forums, GitLab-style repos, CMS, etc.) with hundreds of tasks that mimic everyday web tasks. from AmazonやDoorDashなどの主要サイトのレプリカで112のタスクを提供し、「正しい情報を得たか?」と「正しい行動をとったか?」のための別々の報酬機能を提供します。 WebArena REAL アジ、Inc。 from スケールに集中する: 452の実際のサイトで5750のタスクを処理し、 検証可能な報酬を持つ現実的なブラウザ合成シミュレータのより小さいスイートです。 Web Bench & Westworld ハロウィン Web Bench Westworld 最後に、 15の人気のあるライブウェブサイトでタスクを定義し、GPT-4Vを使用してオープンエンドの行動を判断する自動評価プロトコルを搭載。 WebVoyager Web ベースのエージェントは、アクションスペースが次のレイヤー、フル OS コンピュータ使用よりも小さいため、自動化タスクにおける彼らの約束のために人気を高めています。 Layer 3 – Full computer use 最後の層は、エージェントに完全なOSを提供します:複数のアプリ、ファイルシステム、コピーペストなど。 ここでは、本物のUbuntu / Windows / macOSマシンで369のタスクをアンカーとして機能し、ブラウザ、Officeアプリ、ファイルエクスプレーヤー、IDEs、メール、メディアプレーヤー、その他をカバーします。 ♪ The extensions provide a cleaned-up harness plus human trajectories for all tasks, which let you measure not just if the agent succeeds but how many steps and how much time it burns compared to humans. OSWorld Humans hit ~72% success; early best agents were around 12% OSWorld-Verified & OSWorld-Human from A は for long-horizon desktop + browser workflows. トップ AI エージェント企業 展示 The leaderboard scores alongside numbers from 一般的なAIエージェントベンチマークで、いくつかのブラウザワークフローがあります。 CUB (Computer Use Benchmark) Theta クロスベンチマーク Cross Vertical Benchmark マニュアル AI CUB GAIA from Salesforce は異なるアプローチをとる:これは、管理、販売、サービスタスクをカバーする 300 回の実際の CRM ワークフローから構築された Salesforce 内部ベンチマークです。 SCUBA この最後の層は、知識労働者として行動するエージェントに最も近いように感じます。それゆえに、それはまた、これまでで最も困難な層です。 ) because of the varied environments and edge cases in a full OS environment. 低2桁の成功率 Harness > model 本・アンダーソン 残酷で公平な点を挙げる:多くの「SOTA」は、実際にはスピードエンジニアリングとスカッフォリングです。 post on computer-use evals 人気ベンチマーク たとえば、オリジナル紙のレポート . Showdown-Clicks ~20%の正確さは、大型のオフ・ザ・シェルモデルで、小型のフィンタウンドモデルは ~70-80%を得ます。 ベンが見つけた 彼はわずか20%のスコアを獲得しますが、それから彼はより単純な「クリックだけ」XMLプロンプトに交換し、彼の小さな小さな名前を見ます。 同じベンチマークで約50%にジャンプ. ここでは、より小さいモデルにもかかわらず、スコアの250%の増加のために使用された短いプロンプトベンです。 Qwenの72Bモデル 3BQWENモデル Determine where to click in the UI to complete the instruction/task. Report the click location in XML like '<points x1="x" y1="y">click</points>.' Image size [{w}, {h}], (0, 0) is the top-left and ({w}, {h}) is the bottom-right. [IMAGE] {instruction} Similar stories show up elsewhere. uses its own harness and reward functions for information and action tasks. 視野だけの設定が意味するということを明確に警告する。 スタイルスコアは、DOMベースのエージェントと直接比較できない。 REAL ScreenSuite Mind2Web 今日のコンピュータ使用基準では、リーダーボードで見るパフォーマンス格差の大きな部分は、モデル重量ではなく、ハーネス(プロンプト、ツール、終了ルール、リトリ、審査員)です。 「アンカー」ベンチマークの小さなセットへの konvergence 混乱にもかかわらず、あなたはすでにいくつかのアンカーの周りにフィールドの標準化を見ることができます。 (プロも含めて) , , and . For the web layer: the trio of (オフライン + オンライン + v2) and one of / / . For the OS layer: (検証された人と人間のバリエーションを加えて、 そして、 その上に、 from Hugging Faceは、これらの多くを1つのフレームワークに包み込む傘のハネスとして機能します。 ScreenSpot GroundUI WebClick Showdown-Clicks Mind2Web WebArena Web Bench WebVoyager OSWorld CUB SCUBA ScreenSuite コンピュータ使用エージェントのリリースは、通常、1〜2の地形スコアを報告することを期待します( で、 で、 で、 トップページ > トップページ > トップページ > ( で、 , (※1~2個のスコア) , で、 ( ) ScreenSpot-v2/Pro GroundUI WebClick Showdown-Clicks Online Mind2Web, Web Bench REAL Westworld OSWorld-Verified CUB SCUBA The shift from measurement to production 初期のベンチマークは「成功か失敗か」と尋ねただけで、それはすでに奇妙に見え始めている。 強力なエージェントでさえ、 これらのタスクで人間よりも多くのステップを踏み出し、いくつかの微妙な行動(テキストの改訂など)は、人間が秒を必要とするエージェントの数分を要する。 ランズ間でコスト(API支出)と信頼性を追跡します。 複数の報酬機能を明らかにし、さまざまなステッカーの強度を強調しています. スコアボードは単一の数字(「精度」)からプロファイル(「能力」、「信頼性」、「コスト」、「遅延」)に移行しています。 OSWorld-Human 1.4−2.7× Online Mind2Web REAL 研究レベルの思考から生産レベルへの根本的な転換は、「コンピュータ使用代理人」が健全に進歩しているという早期の指標かもしれない。 から have been publicized. In a recent blog, the lab shared Nova Actは、複雑なフォームの記入や長い行政プロセスなどの企業におけるワークフローを処理することを示しています。 新法 Amazon AGI’s SF lab 顧客ストーリー いわゆる「ブランド」はどこにありますか? from 単一のスクリーンショット駆動エージェントで、番号をレポートする and すべての3つのレイヤーを伸ばす。 UI-TARS バイテナンス ScreenSpot-Pro OSWorld H Company は、地付けに特化し、結果を表示します。 で、 , , , and its very own benchmark. ScreenSpot-v2 ScreenSpot-Pro GroundUI-Web Showdown-Clicks WebClick AGI, Inc. focuses on the web and OS layers via their own and the established leaderboards. REAL OSWorld ThetaはOSとブラウザレイヤーに集中します。 . CUB ベンチマークが市場チャンネルとして倍増 これらのベンチマークの多くは、配布およびデータエンジンとしても機能します。 and then an それを取り巻くエージェントのプラス; "#1 on REAL" であることは、研究の主張と彼らの製品へのフンネルです。 「Humanity's Last Examination for Computer Use Agents」と位置づけられています。 そして as both benchmarks and infrastructure for running browser agents at scale. REAL SDK CUB Westworld Web Bench ベンチマークは、パーツの測定、パーツの配布、パーツのデータのフローウェイとなっています. If you are choosing which ones to invest in, you are also choosing which ecosystems you want to plug into. ベンチマークは、パーツの測定、パーツの配布、パーツのデータのフローウェイとなっています。 ライブサイトから合成サンドボックスへの移行 多くのファーストウェブベンチマークは、ライブサイトで直接エージェントを評価しました。 そして 100以上の人気サイトからリアルで変化するウェブページでタスクを実行します。 そして 同様に、Amazon、Apple、Google Flightsなどの実際のウェブサイトでタスクを使用し、他の多くのトラフィックが高いドメインでも現実主義を与えますが、評価は脆弱になります:サイトの変更、DOMのドライブ、信頼性の高い自動報酬信号は規模で維持することが困難です。 Mind2Web Online Mind2Web WebVoyager Web Bench The emerging alternative is high-fidelity synthetic environments with built-in, programmatic rewards. 完全に機能するサイト(電子商取引、フォーラム、プロジェクトツール、CMS)の自社ホスト「ミニウェブ」を提供し、その状態は完全に観察可能で再現可能である。 positions itself as “Humanity’s Last Exam for Computer and Browser Use Agents,” highlighting the complexity of tasks that can be made in these realistic environments. (AGI, Inc. から) は 11 つの広く使用されているウェブサイトの決定的なレプリカを構築し、プログラマチックな州検査と分類ベースの判断を通じてエージェントを評価します。 経済的に有意義なワークフローのためのブラウザ環境の「完全にシミュレートされたインターネット」を提供し、その機能を補完する。 benchmark on live sites. In fact Halluminate’s first benchmark ライブサイトで使われており、民間の合成サイトに移った。 , their most recent benchmark. Moreover, goes further by with programmatic reward functions. WebArena CUB REAL Westworld Web Bench Web Bench Westworld WARC-Bench ダイナミックで現実的な Web ページをインタラクティブ Web ARChive ファイルに記録する シミュレートされたアマゾンまたはフライトサイトは、実際のウェブ上で見る稀なエッジケースを見逃す可能性があり、“sim-to-real”の格差を研究することに積極的な関心があります。 . But in return, these sandboxes offer stable tasks, precise ground truth, and safe, massively parallel evaluation. たとえば、Westworld スタイルのシミュレータを実際の Google Flights でのタスクと比較することで これを考慮すると、軌道は明確である:ライブウェブベンチマークは現実世界のパフォーマンスをチェックするために不可欠であるが、日常のエージェント評価の重心は、明確な報酬機能と完全な観察可能性を持つ現実的な、機器化されたサンドボックスに向かっている。 あなたがビルディングエージェントである場合にこれを使用する方法 エージェントを派遣しようとしている場合は、ここに実践的なチェックリストがあります。 すべての評価では、単一のベンチマークに最適化されたカスタマイズされたハネスを作成しないでください. To ensure meaningful results beyond launch announcements, use established public harnesses and document your implementation choices. Now on to specific patterns per agent type: GUI-aware モデルを構築している場合 あなたの優先順位は、トレーニング + より + スタイルデータ、その後レポート / / / / / / 理想的には、the harness where applicable for standardization. You're optimizing for localization accuracy and robustness to varied UI skins. ScreenSpot GroundUI WebClick ScreenSpot-v2 ScreenSpot-Pro GroundUI-1K WebClick Showdown-Clicks ScreenSuite If you're building a web agent スタート with (オフライン) to debug basic behavior. Move to + 生活習慣とコスト曲線を考慮 (リアルウェブ、幅広いカバー)および / / (自己ホスト、シミュレート、しかし現実的な環境) あなたが配布の転換と強力性に気をつけるとき あなたの北の星は:成功率と信頼性とタスクあたりのコストになります。 Mind2Web Online Mind2Web REAL Web Bench WebArena Westworld あなたが完全な「コンピュータ使用エージェント」を構築している場合 Use as the standard ability check. Study あなたが人間よりもはるかに遅く、または脆弱である場所を理解するために、もしあなたが企業に販売しているなら、考えてください。 and relevant vertical benchmarks like . OSWorld-Verified OSWorld-Human CUB SCUBA ベンチマークはエージェントよりも速く成熟していますが、それでも破損しています。 A year ago, "computer-use" benchmarks were fragmented. Today we have a more complete benchmark stack. Grounding benchmarks that stress-test vision models on every UI imaginable. Web benchmarks spanning thousands of real sites. OS benchmarks that replicate actual knowledge work. ベストエージェントはまだ戦っています 低成功率 . Step counts 2x longer than humans. Costs that turn deployment into a CFO problem. OSWorld But there's a deeper issue. As Anderson showed, half the performance gap on these benchmarks is scaffolding, not model quality. A 3B model with the right prompt can beat a 72B model with a naive one. The "everyone is SOTA on something" problem hasn't been solved. It's just moved from benchmark selection to harness engineering. The chaos is starting to resolve around / 地面に、 / for web tasks, and / for full OS execution. But more importantly, people are catching on. When production deployments start, scaffolding tricks stop working. The benchmarks that survive will be the ones where performance actually predicts real-world behavior. ScreenSpot GroundUI Mind2Web REAL OSWorld CUB 今、重要なのは厳格さです。標準的な評価を公共のハネスで実行します。ベンチマークのパフォーマンスと生産の現実の間のギャップは、すべての実際の仕事が生きている場所です。 測定インフラストラクチャは存在し、ただ良くなるだけです。 監視が来ており、あなたはこの世界ではなく、その世界のために建設すべきです。 References Layer 1 – UI grounding ScreenSpot– オリジナル マルチプラットフォーム GUI ベンチマーク (モバイル、デスクトップ、ウェブ)。https://llm-stats.com/benchmarks/screenspot ScreenSpot-v2 – よりクリーンなラベルとより広いカバーで更新されたGUIのベンチマーク。https://huggingface.co/datasets/Voxel51/ScreenSpot-v2 – High-resolution professional GUI grounding benchmark (23 apps, 5 industries, 3 OSes). ScreenSpot-Pro https://arxiv.org/abs/2504.07981 – Multi-platform (web / desktop / mobile) grounding dataset with a 1K eval subset. Project / dataset: GroundUI / GroundUI-1K https://huggingface.co/datasets/agent-studio/GroundUI-1K – 5,679 human clicks from macOS desktop tasks for click prediction and low-level control. Showdown-Clicks https://huggingface.co/datasets/generalagents/showdown-clicks WebClick– 「ここをクリックする」ラベルを持つ 1,600+ ウェブスクリーンショット; H Company’s benchmark for web localizers.https://huggingface.co/datasets/Hcompany/WebClick ScreenSuite– ハッキング フェイスの傘 GUI-エージェント ベンチマーク ハーネスカバー感覚 + シングル/マルチステップタスク.https://github.com/huggingface/screensuite レイヤ2 - Web ベースのエージェント Mind2Web (オフライン) - 137 つの実際のウェブサイトと 31 つのドメインで 2,350 件のタスク アクション シーケンス.https://osu-nlp-group.github.io/Mind2Web/ オンライン Mind2Web– 136 ライブサイトで 300 タスク; 実際のサイトでウェブエージェントのための公共のリーダーボード.https://huggingface.co/spaces/osunlp/Online_Mind2Web_Leaderboard Mind2Web 2 - エージェントとして裁判官としてのフレームワークで 130 の長期的なリアルタイムのブラウジングタスク。https://osu-nlp-group.github.io/Mind2Web-2/ WebArena – 機能的なタスク完了のためのベンチマークを持つ現実的なマックサイトの自社ホスト「ミニウェブ」https://webarena.dev/ – AGI, Inc.’s “mini-Internet” of replicated major sites with programmatic rewards and rubric-based judging. REAL Bench (REAL) Blog post: https://www.theagi.company/blog/introducing-real-bench Leaderboard / evals: https://www.realevals.xyz – 5,570 tasks across 452 high-traffic live sites; Halluminate’s large-scale browser-agent benchmark. GitHub: Web Bench https://github.com/Halluminate/WebBench – Suite of highly realistic browser simulators with verifiable rewards for web-agent benchmarking. Blog post: Westworld https://halluminate.ai/blog/westworld WebVoyager – End-to-End ウェブ ナビゲーション エージェントのためのダイナミック ライブ ウェブサイトのタスク ベンチマーク.https://arxiv.org/abs/2401.13919 – Web-archive–based benchmark of 438 GUI subtasks on dynamic, realistic archived webpages (via Web ARChive files). WARC-Bench https://arxiv.org/abs/2510.09872 レイヤー3 - フルコンピュータ/マルチアプリケーション使用 OSWorld - 実際の Ubuntu / Windows / macOS アプリケーションとファイル I/O.Site:https://os-world.github.io OSWorld-Human / OSWorld-Verified – 人間の軌道と清潔なハーネスで効率性に焦点を当てた拡張機能。OSWorld-Human:https://mlsys.wuklab.io/posts/oshuman/ – Theta’s cross-vertical benchmark for long-horizon desktop + browser workflows (“Humanity’s Last Exam for Computer and Browser Use Agents”). CUB (Computer Use Benchmark) Blog post: https://thetasoftware.com/blog/introducing-cub/ Announcement: https://x.com/trytheta/status/1923169553497866568 SCUBA (Salesforce Computer Use Benchmark) - サンドボックス環境における admin / sales / service personas を通じて 300 回の Salesforce CRM ワークフロー: https://sfrcua.github.io/SCUBA/ Cross-layer/general agent benchmarks を参照 GAIA - 一般AIアシスタントのベンチマーク(ツール、ブラウジング、およびマルチモダルな推論を必要とする3つの難易度レベルの450の現実世界の質問): https://arxiv.org/abs/2311.12983 ベン・アンダーソンのブログ記事「Computer-Use Evals Are A Mess」 https://benanderson.work/blog/computer-use-benchmarks/ Disclaimer: I am currently working at Theta