Hvis du har set "computer-use agenter", har du bemærket to fakta: Hver ny model er "SOTA" på noget. Næsten ingen af disse tal linjer op. , , der , der , der , der , der , der , der ... plus et dusin sælger-drevne leaderboards. OSWorld CUB, Web Bench Westworld REAL Mind2Web ScreenSpot GroundUI Showdown-Clicks WebClick Det føles mere og mere som tidlige webframeworks. for mange muligheder og ikke nok retning. Dette indlæg er et forsøg på at sætte det nuværende økosystem i et sammenhængende billede: hvad der er derude, hvordan benchmarks adskiller sig, og hvor alt dette går hen. De tre lag af "Computer-Use" Næsten hver "computer-use" benchmark falder ind i et af tre lag: 1. Lokalisering og identifikation af interfaceelementer fra skærmbilleder Low-level UI grounding 2. Fuldførelse af opgaver i flere trin i browsermiljøer Web task execution 3. – Cross-application arbejdsprocesser på komplette operativsystemer Full OS / multi-app computer use Layer 1 - UI Grounding Disse benchmarks tager et skærmbillede og en instruktion og beder modellen om at pege på det rigtige sted (pixel, boks eller UI-element). Vigtige eksempler er blandt andet den , som tjener som arbejdshest for GUI jording. den oprindelige dækker web, mobil og desktop UI; rensning af mærket; Målretter professionelle apps med høj opløsning i flere brancher og systemer. ScreenSpot family ScreenSpot ScreenSpot-v2 ScreenSpot-Pro tager en anden tilgang ved at mash up , der , der og venner ind i et ~18k-eksempel multiplatformdatasæt, plus et standard 1k-eksempel eval-undersæt. GroundUI ScreenSpot Mind2Web OmniACT tilbyder 5,679 menneskelige klik fra personer, der udfører opgaver i et macOS-skrivebordsmiljø, der bruges som et benchmark for klik-forudsigelse. Showdown-Clicks Meanwhile, fra giver 1.600+ webskærmbilleder med "klik her" etiketter, der bruges af Holo1/Holo1.5 til at vise små-model UI lokalisering. WebClick H selskab Hvis du træner "øjnene" af en agent (en Vision-Language Model, der kan læse skærme og vælge widgets), er benchmark her. / af / af / af numre. ScreenSpot ScreenSpot-Pro GroundUI Showdown-Clicks Layer 2 – Webbaserede agenter Her får agenten en reel browser (eller en high-fidelity simulator) og skal udføre opgaver som "I løbet af sommeren, book et hotel i New York City under $ 250" eller "find returpolitikken for dette produkt og foretage en returforespørgsel for min nyeste vare." Den Den offline datasæt indeholder 2350 opgaver på tværs af 137 virkelige websteder og 31 domæner, med handlingssekvenser. er den levende ækvivalent: 300 opgaver på 136 virkelige websteder, med et tabell, der sporer nøjagtighed, omkostninger og kører. extends this with 130 long-horizon, research-style search tasks and adds "agent-as-a-judge" for answer correctness and attribution. Mind2Web Online Mind2Web Mind2Web 2 tager en anden tilgang: det er et selvhostet webmiljø bygget af realistiske mock sites (e-handel, fora, GitLab-stil repos, CMS osv.) med hundredvis af opgaver, der efterligner daglige webopgaver. fra tilbyder 112 opgaver på tværs af replikker af store websteder som Amazon og DoorDash, med separate belønningsfunktioner for "har du fået de rigtige oplysninger?" og "har du taget de rigtige handlinger?" WebArena REAL af AGI, Inc. from Fokus på skalaen: is 5,750 tasks across 452 real sites, while er en meget mindre suite af realistiske browser syntetiske simulatorer med verificerbare belønninger. Web Bench & Westworld Hallucinationer Web Bench Westworld Endelig definerede opgaver på 15 populære live-websteder, plus en automatisk evalueringsprotokol ved hjælp af GPT-4V til at bedømme open-end adfærd. WebVoyager Web-baserede agenter er voksende i popularitet for deres løfte i automatisering opgaver på grund af handlingsrummet er mindre end det næste lag, fuld OS computer brug. Kapitel 3 - Fuld brug af computeren The final layer gives the agent a full OS: multiple apps, file system, copy-paste, etc. tjener som ankeret her, med 369 opgaver på rigtige Ubuntu / Windows / macOS-maskiner spænder browsere, Office-apps, filudforskere, IDEs, e-mail, medieafspillere og mere. De Udvidelser giver en renset armatur plus menneskelige baner for alle opgaver, som giver dig mulighed for at måle ikke kun, om agenten lykkes, men hvor mange trin og hvor meget tid det brænder i forhold til mennesker. OSWorld Mennesker nåede ~ 72% succes; tidlige bedste agenter var omkring 12% OSWorld-Verified & OSWorld-Human fra er a for lange horisonter desktop + browser arbejdsprocesser. Ledende AI agent virksomheder som Udstille den Lederbøger ved siden af tal fra , a general AI agent benchmark with a few browser workflows. CUB (Computer Use Benchmark) Theta Cross vertikale benchmarks Håndværker AI CUB GAIA fra Salesforce tager en anden tilgang: det er en Salesforce-intern benchmark bygget ud af ~300 rigtige CRM-arbejdsprocesser, der dækker administration, salg og serviceopgaver. SCUBA This final layer feels closest to an agent acting as a knowledge worker to the fullest. Accordingly, it is also the most difficult layer by far. Agents often perform poorly on these benchmarks (often ) because of the varied environments and edge cases in a full OS environment. Lav dobbeltcifret succesrate Harness > Model Ben Anderson's gør en brutal men retfærdig pointe: en masse "SOTA" er faktisk prompt engineering plus stabling. Anmeldelse af Computer-Use Evalues On popular benchmark Eksempelvis de oprindelige dokumenter . Showdown-Clicks ~20% nøjagtighed for en stor off-the-shelf model, mens små finetuned modeller får ~70-80% Ben finds that får score på blot ~20%. men så bytter han i en meget enklere "kun-klik" XML prompt og ser hans lille hop til omkring 50% på nøjagtig samme benchmark. Her er den korte prompt Ben brugt til 250% stigning i score på trods af den meget mindre model: Qwen’s 72B model 3B Qwen model Determine where to click in the UI to complete the instruction/task. Report the click location in XML like '<points x1="x" y1="y">click</points>.' Image size [{w}, {h}], (0, 0) is the top-left and ({w}, {h}) is the bottom-right. [IMAGE] {instruction} Lignende historier dukker op andre steder. bruger sin egen harness og belønningsfunktioner til information og handling opgaver. udtrykkeligt advarer om, at dets vision-kun opsætning betyder -Style score er ikke direkte sammenlignelige med DOM-baserede agenter. REAL ScreenSuite Mind2Web For computer brug benchmarks i dag, en betydelig del af den ydeevne kløft, du ser på leaderboards er harness (prompts, værktøjer, ophør regler, retries, dommere), ikke model vægte. Konvergens til et lille sæt "ankør" benchmarks På trods af kaoset kan du allerede se feltet standardiseret omkring et par anker. (Inkluderet af Pro) , der , and For det weblag: trioen af (offline + online + v2), plus Og en af / af . For the OS layer: (plus Verified and Human variants), og På toppen af det, fra Hugging Face fungerer som et paraplyarm, der pakker mange af disse ind i en ramme. ScreenSpot GroundUI WebClick Showdown-Clicks Mind2Web WebArena Web Bench WebVoyager OSWorld CUB SCUBA ScreenSuite Any "computer-use agent" release is normally expected to report 1–2 grounding scores ( , der , der , der ), 1–2 webscore ( , der , der 1 og 2 ( , , der ) af ScreenSpot-v2/Pro GroundUI WebClick Showdown-Clicks Online Mind2Web, Web Bench REAL Westworld OSWorld-Verified CUB SCUBA Overgangen fra måling til produktion Early benchmarks just asked "success or failure." That's already starting to look quaint. viser, at selv stærke agenter tager Flere skridt end mennesker på disse opgaver; nogle trivielle handlinger (som omformatering af tekst) tager agenter minutter, hvor et menneske har brug for sekunder. Sporer omkostningsmetrikken (API-udgifter) og pålideligheden på tværs af løb. exposes multiple reward functions and emphasizes robustness across different scaffolds. The scoreboard is moving from single numbers ("accuracy") to profiles (“capability”, “reliability”, “cost”, “latency”). OSWorld-Human 1.4 til 2,7× Online Mind2Web REAL The fundamental shift from research-grade thinking to production-level may be an early indicator that the “computer-use agent” is healthily progressing. In fact, early production deployments of the “computer-use agent” fra har været offentliggjort.I en nylig blog delte laboratoriet viser, at Nova Act håndterer arbejdsprocesser i virksomheden, såsom kompleks formularudfyldning og lange administrative processer. Nova Act Amazon AGI’s SF laboratorium Kundehistorier Hvor sidder de såkaldte ”brands”? fra er en enkelt skærmbillede-drevet agent, der rapporterer tal på og Spænd alle tre lag. UI-TARS Udskiftning ScreenSpot-Pro OSWorld H Company har specialiseret sig i jordning og viser resultater på , der , der , der og dens helt egen af benchmark. ScreenSpot-v2 ScreenSpot-Pro GroundUI-Web Showdown-Clicks WebClick AGI, Inc. focuses on the web and OS layers via their own Den etablerede Ledere af ledelse. REAL OSWorld Theta koncentrerer sig om OS og browser lag via . CUB Benchmarks fordoblet som go-to-market kanaler Mange af disse benchmarks fungerer også som distributions- og datamotorer. Og så en plus agenter omkring det; at være "#1 på REAL" er både et forskningskrav og en funnel i deres produkt. er placeret som "Menneskehedens sidste eksamen for computer brug agenter." and as both benchmarks and infrastructure for running browser agents at scale. REAL SDK CUB Westworld Web Bench Benchmarks bliver til delmåling, deldistribution og deldata flywheel. Hvis du vælger, hvilke du skal investere i, vælger du også, hvilke økosystemer du vil tilslutte. Overgangen fra live sites til syntetiske sandkasser Mange første bølge web benchmarks evalueret agenter direkte på live sites. og køre opgaver på rigtige, skiftende websider fra over 100 populære websteder. og på samme måde bruge opgaver på rigtige hjemmesider som Amazon, Apple, Google Flights og hundredvis af andre højt trafikerede domæner. Dette giver realisme, men gør evalueringen skrøbelig: websteder ændrer sig, domæner drift, og pålidelige automatiske belønningssignaler er vanskelige at opretholde på skala. I praksis kan storskala parallel evaluering løbe ind i satsgrænser eller webstedets servicebetingelser begrænsninger. Mind2Web Online Mind2Web WebVoyager Web Bench Det nye alternativ er syntetiske miljøer med høj troværdighed med indbyggede, programatiske belønninger. giver en selvhostet "mini web" af fuldt funktionelle websteder (e-handel, fora, projektværktøjer, CMS), hvis tilstand er fuldt observerbar og reproducerbar. positionerer sig selv som "Humanity's Last Exam for Computer and Browser Use Agents", der fremhæver kompleksiteten af opgaver, der kan udføres i disse realistiske miljøer. (fra AGI, Inc.) opbygger deterministiske replikaer af 11 almindeligt anvendte websteder og evaluerer agenter via programmatisk statskontrol plus rubrikbaseret bedømmelse. offers a “fully simulated internet” of browser environments for economically meaningful workflows, complementing their benchmark on live sites. In fact Halluminate’s first benchmark blev brugt på levende steder og de flyttede til at gøre private syntetiske steder i , their most recent benchmark. Moreover, Går videre ved med programmatisk belønningsfunktion. WebArena CUB REAL Westworld Web Bench Web Bench Westworld WARC-Bench recording dynamic, realistic webpages into interactive Web ARChive files Synthetic setups trade some realism for measurement quality. A simulated Amazon or flights site may miss rare edge cases you’d see on the real web, and there is an active interest in studying the “sim-to-real” gap, Men til gengæld tilbyder disse sandkasser stabile opgaver, nøjagtig grundig sandhed og sikker, massiv parallel evaluering. For eksempel ved at sammenligne Westworld-stil simulatorer med opgaver på rigtige Google Flights Given this, the trajectory is clear: live-web benchmarks remain essential for checking real-world performance, but the center of gravity for day-to-day agent evaluation is moving toward realistic, instrumented sandboxes with explicit reward functions and full observability. Especially as there is a shift towards private websites for enterprise use cases. How to use this if you're building agents If you're trying to ship an agent, here's a pragmatic checklist. For alle evalueringer skal du undgå at oprette brugerdefinerede armaturer, der er optimeret til et enkelt benchmark.For at sikre meningsfulde resultater ud over lanceringsannoncer, skal du bruge etablerede offentlige armaturer og dokumentere dine implementeringsvalg. Hvis du opbygger en GUI-bevidst model Dine prioriteter bør være at træne på + + data, og derefter rapportere til / af / af / af / af Ideelt set via Du optimerer for lokalisering nøjagtighed og robusthed til varierede UI skins. ScreenSpot GroundUI WebClick ScreenSpot-v2 ScreenSpot-Pro GroundUI-1K WebClick Showdown-Clicks ScreenSuite If you're building a web agent Start with (offline) to debug basic behavior. Move to + af for live behavior and cost curves. Consider (real web, bred dækning) og / af (selvhostede, simulerede men realistiske miljøer) når du er bekymret for distribution skift og robusthed. din nordstjerne bliver: succesrate og pålidelighed og omkostninger pr. opgave. Mind2Web Online Mind2Web REAL Web Bench WebArena Westworld Hvis du opbygger en fuld "computer-use agent" Brug af as the standard ability check. Study for at forstå, hvor du er meget langsommere eller mere skrøbelige end mennesker. og relevante vertikale benchmarks som . OSWorld-Verified OSWorld-Human CUB SCUBA The benchmarks are maturing faster than the agents, but they're still broken For et år siden blev "computer-use" benchmarks fragmenteret. I dag har vi en mere komplet benchmark stack. Grounding benchmarks, der stress-test vision modeller på hver UI tænkelig. Web benchmarks spænder tusindvis af virkelige websteder. OS benchmarks, der replikerer faktisk viden arbejde. De bedste agenter kæmper stadig. lav succesrate på . Step counts 2x longer than humans. Costs that turn deployment into a CFO problem. OSWorld Men der er et dybere problem. Som Anderson viste, er halvdelen af præstationsgapet på disse benchmarks stævning, ikke modelkvalitet. En 3B-model med den rigtige prompt kan slå en 72B-model med en naiv. Problemet med "alle er SOTA på noget" er ikke løst. Chaos begynder at løse sig / for grounding, / til webopgaver, og / Men endnu vigtigere, folk er i gang.Når produktionsudviklingen starter, stopper tricks med at fungere.De benchmarks, der overlever, vil være dem, hvor ydeevnen faktisk forudsiger virkelighedens adfærd. ScreenSpot GroundUI Mind2Web REAL OSWorld CUB What matters now is rigor. Run the standard evals with public harnesses. The gap between benchmark performance and production reality is where all the actual work lives. The measurement infrastructure exists and will only get better. Scrutiny is coming and you should build for that world, not this one. References Layer 1 - UI jording ScreenSpot– Original multi-platform GUI jordning benchmark (mobil, desktop, web).https://llm-stats.com/benchmarks/screenspot – Updated GUI grounding benchmark with cleaner labels and broader coverage. ScreenSpot-v2 https://huggingface.co/datasets/Voxel51/ScreenSpot-v2 ScreenSpot-Pro– High-resolution professionel GUI jording benchmark (23 apps, 5 industrier, 3 operativsystemer).https://arxiv.org/abs/2504.07981 GroundUI / GroundUI-1K– Multi-platform (web / desktop / mobil) jordning datasæt med en 1K eval subset.Project / dataset:https://huggingface.co/datasets/agent-studio/GroundUI-1K Showdown-Clicks – 5,679 menneskelige klik fra macOS desktop-opgaver til forudsigelse af klik og lavt niveau kontrol.https://huggingface.co/datasets/generalagents/showdown-clicks WebClick – 1600+ skærmbilleder med “klik her” etiketter; H selskabets benchmark for web localizers.https://huggingface.co/datasets/Hcompany/WebClick ScreenSuite– Hugging Face’s paraply GUI-agent benchmarking harness dækker opfattelse + single/multi-step tasks.https://github.com/huggingface/screensuite Layer 2 – Web-based agents – 2,350 tasks across 137 real websites and 31 domains with action sequences. Mind2Web (offline) https://osu-nlp-group.github.io/Mind2Web/ – 300 tasks on 136 live websites; public leaderboard for web agents on real sites. Online Mind2Web https://huggingface.co/spaces/osunlp/Online_Mind2Web_Leaderboard Mind2Web 2– 130 lange horisonter, realtid browsing opgaver med en Agent-as-a-Judge framework.https://osu-nlp-group.github.io/Mind2Web-2/ WebArena – Selvhostet “mini-web” af realistiske mock-websites med et benchmark for funktionel task completion.https://webarena.dev/ – AGI, Inc.’s “mini-Internet” of replicated major sites with programmatic rewards and rubric-based judging. REAL Bench (REAL) Blog post: https://www.theagi.company/blog/introducing-real-bench Leaderboard / evals: https://www.realevals.xyz – 5,570 tasks across 452 high-traffic live sites; Halluminate’s large-scale browser-agent benchmark. GitHub: Web Bench https://github.com/Halluminate/WebBench – Suite of highly realistic browser simulators with verifiable rewards for web-agent benchmarking. Blog post: Westworld https://halluminate.ai/blog/westworld WebVoyager – benchmark af opgaver på dynamiske live websites for end-to-end webnavigation agenter.https://arxiv.org/abs/2401.13919 WARC-Bench – Web-arkiv-baseret benchmark af 438 GUI underopgaver på dynamiske, realistiske arkiverede websider (via Web ARChive filer).https://arxiv.org/abs/2510.09872 Layer 3 – Fuld computer / multi-app brug – 369 multimodal computer-use tasks on real Ubuntu / Windows / macOS apps and file I/O. Site: OSWorld https://os-world.github.io OSWorld-Human / OSWorld-Verified– Effektivitetsfokuserede udvidelser med menneskelige baner og rensede harnesses.OSWorld-Human:https://mlsys.wuklab.io/posts/oshuman/ – Theta’s cross-vertical benchmark for long-horizon desktop + browser workflows (“Humanity’s Last Exam for Computer and Browser Use Agents”). CUB (Computer Use Benchmark) Blog post: https://thetasoftware.com/blog/introducing-cub/ Announcement: https://x.com/trytheta/status/1923169553497866568 SCUBA (Salesforce Computer Use Benchmark) – ~300 Salesforce CRM arbejdsprocesser på tværs af admin / sales / service personas i sandbox miljøer: https://sfrcua.github.io/SCUBA/ Cross-layer / general agent benchmarks mentioned GAIA – benchmark for generelle AI-assistenter (450 virkelige spørgsmål på tværs af tre sværhedsgrader, der kræver værktøjer, browsing og multimodal begrundelse): https://arxiv.org/abs/2311.12983 Ben Andersons blogindlæg "Computer-Use Evals er et rod" https://benanderson.work/blog/computer-use-benchmarks/ Disclaimer: I am currently working at Theta