Dacă ați văzut "agenți de utilizare a calculatorului", ați observat două fapte: Fiecare model nou este "SOTA" pe ceva. Aproape niciunul dintre aceste numere nu se încadrează. , , , , , , , , ... plus o duzină de lideri de vânzări. OSWorld CUB, Web Bench Westworld REAL Mind2Web ScreenSpot GroundUI Showdown-Clicks WebClick Se simte din ce în ce mai mult ca un cadru web timpuriu. prea multe opțiuni și nu suficientă direcție. Acest post este o încercare de a pune ecosistemul actual într-o singură imagine coerentă: ce este acolo, cum diferă indicatorii de referință și unde se îndreaptă toate acestea. Cele trei straturi ale "utilizării computerului" Aproape fiecare referință de utilizare a calculatorului se încadrează într-unul din cele trei straturi: 1. Localizarea și identificarea elementelor de interfață din capturi de ecran Low-level UI grounding 2. Finalizarea sarcinilor în mai multe etape în mediile de browser Web task execution 3. Fluxuri de lucru inter-aplicații pe sisteme de operare complete Full OS / multi-app computer use Nivelul 1 – UI Grounding Aceste benchmarks iau o captură de ecran și o instrucțiune și cer modelului să indice în locul potrivit (pixel, casetă sau element UI). Exemple de bază includ , care servește ca calul de lucru al îngrădirii GUI. acoperă UI web, mobil și desktop; curăță eticheta; vizează aplicații profesionale de înaltă rezoluție în mai multe industrii și sisteme de operare. ScreenSpot family ScreenSpot ScreenSpot-v2 ScreenSpot-Pro ia o abordare diferită prin mashing în sus , , și prieteni într-un set de date multi-platform ~18k-example, plus un subset standard 1k-example eval. GroundUI ScreenSpot Mind2Web OmniACT oferă 5.679 de clicuri umane de la persoane care efectuează sarcini într-un mediu desktop macOS, utilizat ca referință pentru predicția clicurilor. Showdown-Clicks Între timp, din oferă peste 1.600 de capturi de ecran web cu etichete "click here", utilizate de Holo1/Holo1.5 pentru a arăta localizarea UI a modelului mic. WebClick Compania H Dacă instruiți "oasele" unui agent (un model Vision-Language care poate citi ecrane și alege widget-uri), punctul de referință este aici. • / • numbers. ScreenSpot ScreenSpot-Pro GroundUI Showdown-Clicks Nivelul 2 – Agenții Web Here, the agent gets an actual browser (or a high-fidelity simulator) and has to complete tasks like "During the summer, book a hotel in New York City under $250" or "find the return policy for this product and make a return request for my most recent item.” pe Setul de date offline conține 2350 de sarcini pe 137 de site-uri web reale și 31 de domenii, cu secvențe de acțiuni. este echivalentul live: 300 de sarcini pe 136 de site-uri reale, cu un tablou de bord care urmărește acuratețea, costul și rulează. extinde acest lucru cu 130 de sarcini de căutare cu orizont lung, în stil de cercetare și adaugă "agent-ca-judecător" pentru corectitudinea răspunsului și atribuirea. Mind2Web Online Mind2Web Mind2Web 2 are o abordare diferită: este un mediu web auto-gazdă construit din site-uri realiste (comerț electronic, forumuri, repos în stil GitLab, CMS etc.) cu sute de sarcini care imită sarcinile web de zi cu zi. din oferă 112 de sarcini pe replicile site-urilor majore, cum ar fi Amazon și DoorDash, cu funcții de recompensă separate pentru "ați primit informațiile potrivite?" și "ați luat acțiunile potrivite?" WebArena REAL Înțelegerea, Inc. din focus on scale: is 5,750 tasks across 452 real sites, while este o suită mult mai mică de simulatoare sintetice de browser realiste cu recompense verificabile. Web Bench & Westworld halucinaţie Web Bench Westworld În sfârșit, sarcini definite pe 15 site-uri populare live, plus un protocol automat de evaluare folosind GPT-4V pentru a judeca comportamentul deschis. WebVoyager Agenții pe bază de web au crescut în popularitate pentru promisiunea lor în automatizarea sarcinilor datorită spațiului de acțiune fiind mai mic decât următorul strat, utilizarea computerului cu OS complet. Nivelul 3 – Utilizarea completă a computerului Stratul final oferă agentului un sistem de operare complet: mai multe aplicații, sistem de fișiere, copie-paste etc. servește ca ancoră aici, cu 369 de sarcini pe mașinile reale Ubuntu / Windows / macOS care acoperă browsere, aplicații Office, exploratoare de fișiere, IDEs, e-mail, media player și multe altele. • The extensiile oferă o armată curățată plus traiectorii umane pentru toate sarcinile, care vă permit să măsurați nu numai dacă agentul reușește, ci câți pași și cât timp arde în comparație cu oamenii. OSWorld Oamenii au avut ~ 72% succes; primii cei mai buni agenți au fost în jur de 12% OSWorld-Verified & OSWorld-Human din is a pentru desktop-ul cu orizont lung + fluxurile de lucru ale browser-ului. Companii de top de agenți AI cum ar fi Să arătăm leaderboard scores alongside numbers from , un benchmark general al agentului AI cu câteva fluxuri de lucru ale browserului. CUB (Computer Use Benchmark) Theta benchmark transversal Manus AI CUB GAIA de la Salesforce ia o abordare diferită: este un benchmark intern Salesforce construit din ~300 de fluxuri de lucru CRM reale care acoperă sarcinile de administrare, vânzări și servicii. SCUBA Acest strat final se simte cel mai aproape de un agent care acționează ca un lucrător al cunoașterii la maxim. Prin urmare, este, de asemenea, cel mai dificil strat de departe. ) din cauza mediilor variate și a cazurilor de margine într-un mediu OS complet. Rata scăzută de succes cu două cifre Harness > Modelul Despre Ben Anderson face un punct brutal, dar corect: o mulțime de "SOTA" este de fapt inginerie rapidă plus scaffolding. Articole despre computer-use evals Benchmark populară De exemplu, documentele originale . Showdown-Clicks ~20% accuracy for a big off-the-shelf model while small finetuned models get ~70–80% Ben găseşte acest obține un scor de doar ~20%. dar apoi schimbă într-o promptă XML mult mai simplă "doar cu clic" și vede micul său săriți la aproximativ 50% pe exact același punct de referință. Aici este scurtul Ben folosit pentru creșterea cu 250% a scorului, în ciuda modelului mult mai mic: Qwen’s 72B model 3B Qwen model Determine where to click in the UI to complete the instruction/task. Report the click location in XML like '<points x1="x" y1="y">click</points>.' Image size [{w}, {h}], (0, 0) is the top-left and ({w}, {h}) is the bottom-right. [IMAGE] {instruction} Povestiri similare apar în altă parte. utilizează propriile funcții de armare și recompensă pentru informații și sarcini de acțiune. avertizează în mod explicit că setarea sa vizuală înseamnă Scorurile de stil nu sunt comparabile direct cu agenții pe bază de DOM. REAL ScreenSuite Mind2Web Pentru indicatorii de referință de utilizare a calculatoarelor de astăzi, o parte semnificativă a decalajului de performanță pe care îl vedeți pe tablourile de bord este armura (prompte, instrumente, reguli de terminare, retrii, judecători), nu greutățile modelului. Convergence to a small set of "anchor" benchmarks În ciuda haosului, puteți vedea deja standardizarea câmpului în jurul câtorva ancore. (inclusiv în cazul pro) , şi Pentru stratul web: trioul de (offline + online + v2) și mai mult Şi unul din / În ceea ce privește OS Layer: (plus variante verificate și umane), şi Pe partea de sus a acestui lucru, din Hugging Face acționează ca o umbrelă care înfășoară multe dintre acestea într-un singur cadru. ScreenSpot GroundUI WebClick Showdown-Clicks Mind2Web WebArena Web Bench WebVoyager OSWorld CUB SCUBA ScreenSuite Orice "agent de utilizare a calculatorului" este de așteptat să raporteze în mod normal 1–2 puncte de împământare ( , , , , 1–2 scoruri web ( , , , și 1–2 scoruri OS ( , , ) din ScreenSpot-v2/Pro GroundUI WebClick Showdown-Clicks Online Mind2Web, Web Bench REAL Westworld OSWorld-Verified CUB SCUBA Trecerea de la măsurare la producție Referințele timpurii au întrebat doar "succes sau eșec". demonstrează că chiar și agenții puternici iau mai mulți pași decât oamenii pe aceste sarcini; unele acțiuni banale (cum ar fi reformatarea textului) iau agenți minute în cazul în care un om are nevoie de secunde. urmărește metrica costului (cheltuieli API) și fiabilitatea pe parcurs. evidențiază mai multe funcții de recompensă și subliniază robustețea pe diferite rafturi. Tabloul de bord se deplasează de la numere unice ("acuratețe") la profiluri ("capacitate", "fiabilitate", "cost", "latență"). OSWorld-Human 1.4–2.7× Online Mind2Web REAL Schimbarea fundamentală de la gândirea la nivel de cercetare la nivelul de producție poate fi un indicator timpuriu că „agentul de utilizare a computerului” progresează sănătos. from Într-un blog recent, laboratorul a publicat care arată că Nova Act se ocupă de fluxurile de lucru din întreprindere, cum ar fi completarea formularelor complexe și procesele administrative lungi. Nova Act Laboratorul SF al Amazon AGI Povestiri clienți Unde se află așa-numitele „marci”? din este un singur agent bazat pe captura de ecran care raportează numere pe şi Îndepărtează toate cele trei straturi. UI-TARS schimbare ScreenSpot-Pro OSWorld H Company specializes in grounding and shows results on , , , În plus, foarte propriul benchmark. ScreenSpot-v2 ScreenSpot-Pro GroundUI-Web Showdown-Clicks WebClick AGI, Inc. se concentrează pe web și pe straturile OS prin intermediul propriilor Cel care a stabilit Liderilor de tabără. REAL OSWorld Theta se concentrează pe OS și pe browser prin . CUB Benchmark-urile s-au dublat ca canale de intrare pe piață Multe dintre aceste benchmarks acționează, de asemenea, ca motoare de distribuție și date. AGI, Inc. construit Apoi un plus agenți în jurul valorii de ea; fiind "# 1 pe REAL" este atât o afirmație de cercetare și un funnel în produsul lor. este poziționat ca "Ultimul examen al umanității pentru agenții de utilizare a calculatoarelor." şi as both benchmarks and infrastructure for running browser agents at scale. REAL SDK CUB Westworld Web Bench Benchmark-urile devin măsurarea părților, distribuția părților și volanul de date al părților. Dacă alegeți în ce să investiți, alegeți și ecosistemele pe care doriți să le conectați. Trecerea de la site-uri live la sandbox-uri sintetice Many first-wave web benchmarks evaluated agents directly on live sites. şi executați sarcini pe pagini web reale și schimbătoare de la peste 100 de site-uri populare. and În mod similar, utilizați sarcini pe site-uri reale, cum ar fi Amazon, Apple, Google Flights și sute de alte domenii cu trafic ridicat. Acest lucru dă realism, dar face evaluarea fragilă: site-urile se schimbă, DOM-urile se deplasează și semnalele de recompensă automate de încredere sunt greu de menținut la scară. Mind2Web Online Mind2Web WebVoyager Web Bench The emerging alternative is high-fidelity synthetic environments with built-in, programmatic rewards. provides a self-hosted “mini web” of fully functional sites (e-commerce, forums, project tools, CMS) whose state is fully observable and reproducible. Theta’s Se poziționează ca "Ultimul examen al umanității pentru agenții de utilizare a computerelor și a browserelor", evidențiind complexitatea sarcinilor care pot fi efectuate în aceste medii realiste. (de la AGI, Inc.) construiește replicile deterministice ale a 11 site-uri web utilizate pe scară largă și evaluează agenții prin controale de stat programatice plus judecată bazată pe rubrici. oferă o „internet complet simulată” a mediilor de browser pentru fluxuri de lucru semnificative din punct de vedere economic, completând Benchmark pe site-urile live.De fapt, primul benchmark al lui Halluminate was used on live sites and they moved to doing private synthetic sites in cel mai recent punct de referință. în plus, merge mai departe de with programmatic reward functions. WebArena CUB REAL Westworld Web Bench Web Bench Westworld WARC-Bench înregistrarea paginilor web dinamice, realiste în fișiere interactive Web ARChive Synthetic setups trade some realism for measurement quality. A simulated Amazon or flights site may miss rare edge cases you’d see on the real web, and there is an active interest in studying the “sim-to-real” gap, Dar, în schimb, aceste cutii de nisip oferă sarcini stabile, adevăruri precise și evaluări sigure, masiv paralele. de exemplu prin compararea simulatoarelor de stil Westworld cu sarcinile de pe Google Flights reale Având în vedere acest lucru, traiectoria este clară: benchmarks live web rămân esențiale pentru verificarea performanței din lumea reală, dar centrul de gravitate pentru evaluarea agenților de zi cu zi se îndreaptă spre sandbox-uri realiste, instrumentate, cu funcții explicite de recompensă și observabilitate completă. Cum să utilizați acest lucru dacă sunteți un agent de construcție Dacă încercați să trimiteți un agent, aici este o listă de verificare pragmatică. For all evaluations, avoid creating custom harnesses optimized for a single benchmark. To ensure meaningful results beyond launch announcements, use established public harnesses and document your implementation choices. Now onto the specific patterns per agent type: If you're building a GUI-aware model Prioritatea ta ar trebui să fie să te antrenezi + + în stilul de date, apoi raportează / • • / În mod ideal, prin intermediul optimizați pentru precizia localizării și robustețea pentru piele UI variate. ScreenSpot GroundUI WebClick ScreenSpot-v2 ScreenSpot-Pro GroundUI-1K WebClick Showdown-Clicks ScreenSuite If you're building a web agent Începe cu (offline) to debug basic behavior. Move to + în pentru comportamentul live și curbele de cost. consideră (reale web, acoperire largă) și • (mediile auto-gazdă, simulate, dar realiste) odată ce vă faceți griji cu privire la schimbarea distribuției și robustețea. Mind2Web Online Mind2Web REAL Web Bench WebArena Westworld If you're building a full “computer-use agent” Utilizați ca test de capacitate standard. studiu pentru a înțelege unde ești mult mai lent sau mai fragil decât oamenii. Referinţe verticale precum . OSWorld-Verified OSWorld-Human CUB SCUBA Indicatorii de referință se maturizează mai repede decât agenții, dar sunt încă rupți Cu un an în urmă, criteriile de referință pentru utilizarea calculatoarelor au fost fragmentate. Astăzi avem un set de criterii de referință mai complet. Criteriile de referință de bază care testează modelele de viziune pe fiecare UI imaginabile. Criteriile de referință web care acoperă mii de site-uri reale. Criteriile de referință OS care replică activitatea reală a cunoștințelor. The best agents still struggle. Low success rates on . Step counts 2x longer than humans. Costs that turn deployment into a CFO problem. OSWorld Dar există o problemă mai profundă. După cum a arătat Anderson, jumătate din decalajul de performanță pe aceste benchmarks este scaffolding, nu calitatea modelului. Un model 3B cu promptul drept poate învinge un model 72B cu unul naiv. Problema "toată lumea este SOTA pe ceva" nu a fost rezolvată. Haosul începe să se rezolve în jurul / for grounding, / for web tasks, and / for full OS execution. But more importantly, people are catching on. When production deployments start, scaffolding tricks stop working. The benchmarks that survive will be the ones where performance actually predicts real-world behavior. ScreenSpot GroundUI Mind2Web REAL OSWorld CUB What matters now is rigor. Run the standard evals with public harnesses. The gap between benchmark performance and production reality is where all the actual work lives. The measurement infrastructure exists and will only get better. Scrutiny is coming and you should build for that world, not this one. References Nivelul 1 - Întinderea ScreenSpot– Original multi-platform GUI grounding benchmark (mobile, desktop, web).https://llm-stats.com/benchmarks/screenspot – Updated GUI grounding benchmark with cleaner labels and broader coverage. ScreenSpot-v2 https://huggingface.co/datasets/Voxel51/ScreenSpot-v2 – High-resolution professional GUI grounding benchmark (23 apps, 5 industries, 3 OSes). ScreenSpot-Pro https://arxiv.org/abs/2504.07981 GroundUI / GroundUI-1K– Set de date multi-platformă (web / desktop / mobil) cu un subset eval 1K.Proiect / set de date:https://huggingface.co/datasets/agent-studio/GroundUI-1K – 5,679 human clicks from macOS desktop tasks for click prediction and low-level control. Showdown-Clicks https://huggingface.co/datasets/generalagents/showdown-clicks – 1,600+ web screenshots with “click here” labels; H Company’s benchmark for web localizers. WebClick https://huggingface.co/datasets/Hcompany/WebClick – Hugging Face’s umbrella GUI-agent benchmarking harness covering perception + single/multi-step tasks. ScreenSuite https://github.com/huggingface/screensuite Layer 2 – Web-based agents – 2,350 tasks across 137 real websites and 31 domains with action sequences. Mind2Web (offline) https://osu-nlp-group.github.io/Mind2Web/ Online Mind2Web – 300 de sarcini pe 136 de site-uri live; public leaderboard pentru agenții web pe site-uri reale.https://huggingface.co/spaces/osunlp/Online_Mind2Web_Leaderboard – 130 long-horizon, real-time browsing tasks with an Agent-as-a-Judge framework. Mind2Web 2 https://osu-nlp-group.github.io/Mind2Web-2/ WebArena – Self-hosted “mini-web” de site-uri realiste de mock cu un punct de referință pentru completarea sarcinilor funcționale.https://webarena.dev/ – AGI, Inc.’s “mini-Internet” of replicated major sites with programmatic rewards and rubric-based judging. REAL Bench (REAL) Blog post: https://www.theagi.company/blog/introducing-real-bench Leaderboard / evals: https://www.realevals.xyz – 5,570 tasks across 452 high-traffic live sites; Halluminate’s large-scale browser-agent benchmark. GitHub: Web Bench https://github.com/Halluminate/WebBench Westworld – Suita de simulatoare de browser foarte realiste cu recompense verificabile pentru benchmarking-ul agentului web.Postare pe blog:https://halluminate.ai/blog/westworld WebVoyager– Benchmark al sarcinilor pe site-urile dinamice live pentru agenții de navigare web de la capăt la capăt.https://arxiv.org/abs/2401.13919 WARC-Bench – referință bazată pe arhive web a 438 de sub-tasks GUI pe pagini web arhivate dinamice și realiste (prin fișiere Web ARChive).https://arxiv.org/abs/2510.09872 Nivelul 3 – Utilizarea completă a computerului / multi-aplicații OSWorld – 369 de sarcini multimodale de utilizare a computerului pe aplicațiile reale Ubuntu / Windows / macOS și fișierul I/O.Site:https://os-world.github.io OSWorld-Human / OSWorld-Verified– Extensii axate pe eficiență cu traiectorii umane și armături curățate.OSWorld-Human:https://mlsys.wuklab.io/posts/oshuman/ – Theta’s cross-vertical benchmark for long-horizon desktop + browser workflows (“Humanity’s Last Exam for Computer and Browser Use Agents”). CUB (Computer Use Benchmark) Blog post: https://thetasoftware.com/blog/introducing-cub/ Announcement: https://x.com/trytheta/status/1923169553497866568 SCUBA (Salesforce Computer Use Benchmark) – ~300 de fluxuri de lucru Salesforce CRM în mediile de administrare / vânzări / servicii: https://sfrcua.github.io/SCUBA/ Cross-layer / general agent benchmarks mentioned – Benchmark for General AI Assistants (450 real-world questions across three difficulty levels requiring tools, browsing, and multimodal reasoning): GAIA https://arxiv.org/abs/2311.12983 Articolul următorBen Anderson: “Evalurile folosite de calculator sunt o prostie” https://benanderson.work/blog/computer-use-benchmarks/ Disclaimer: I am currently working at Theta