Ако сте виделе „агенти за користење на компјутер“, забележавте две факти: Секој нов модел е "SOTA" на нешто. Речиси никој од овие броеви не се вклопува. , на , на , на , на , на , на , на , на ... плус десетина продавачки лидерски табла. OSWorld CUB, Web Bench Westworld REAL Mind2Web ScreenSpot GroundUI Showdown-Clicks WebClick Се повеќе и повеќе се чувствува како рани веб рамки. Премногу опции и недостаток на насока. This post is an attempt to put the current ecosystem into one coherent picture: what's out there, how the benchmarks differ, and where this all is heading. Три слоеви на "Компјутерска употреба" Речиси секој бенчмарк за „користење на компјутер“ спаѓа во еден од трите слоја: 1. Локализација и идентификување на елементите на интерфејсот од екранот Low-level UI grounding 2. – Завршување на повеќе чекори во прелистувачот средини Web task execution 3. – Крос-примена работен тек на комплетни оперативни системи Full OS / multi-app computer use Ниво 1 – UI Grounding Овие бенчмаркови земаат екран и инструкција и го замолуваат моделот да укаже на вистинското место (пиксел, кутија или елемент на корисничкиот интерфејс). Клучни примери вклучуваат , кој служи како работен коњ на ГУИ заземјување. оригиналниот опфаќа веб, мобилни и десктоп интерфејси; чистење на етикетата; насочени кон професионални апликации со висока резолуција во повеќе индустрии и ОС. ScreenSpot family ScreenSpot ScreenSpot-v2 ScreenSpot-Pro зема поинаков пристап со маширање , на , на и пријатели во ~18k-пример мулти-платформен датотечен сет, плус стандарден 1k-пример eval подсет. GroundUI ScreenSpot Mind2Web OmniACT нуди 5.679 човечки кликови од луѓе кои вршат задачи во работната средина на macOS, која се користи како бенчмарк за прогнозирање на кликови. Showdown-Clicks Во меѓувреме, од обезбедува повеќе од 1.600 веб екрани со ознаки "кликни тука", кои се користат од страна на Holo1/Holo1.5 за да се покаже локализација на малите модели на корисничкиот интерфејс. WebClick H компанијата If you're training the "eyes" of an agent (a Vision-Language Model that can read screens and pick widgets), the benchmark is here. Almost every GUI agent paper now reports / / на / Број на бројки. ScreenSpot ScreenSpot-Pro GroundUI Showdown-Clicks Layer 2 – Веб-базирани агенти Тука, агентот добива вистински прелистувач (или симулатор со висока лојалност) и мора да заврши задачи како што се "Во текот на летото, резервирајте хотел во Њујорк под $ 250" или "најди ја политиката за враќање за овој производ и направете барање за враќање за мојата најнова ставка". на Офлајн сет на податоци содржи 2350 задачи низ 137 реални веб-сајтови и 31 домени, со секвенци на акции. е живо еквивалент: 300 задачи на 136 вистински веб-сајтови, со табела за рангирање која ги следи точноста, цената и извршувањата. го проширува ова со 130 долги хоризонти, задачи за пребарување во стилот на истражување и додава "агент-како-судија" за точност на одговорот и припишување. Mind2Web Online Mind2Web Mind2Web 2 има поинаков пристап: тоа е само-домаќин веб средина изградена од реалистични примамливи сајтови (е-трговија, форуми, GitLab-стил репо, CMS, итн) со стотици задачи кои имитираат секојдневни веб задачи. од нуди 112 задачи низ реплики на големи сајтови како Amazon и DoorDash, со одделни функции за наградување за "Дали сте ги добиле вистинските информации?" и "Дали сте ги презеле вистинските акции?" WebArena REAL Инаку, инк од Фокусирајте се на скалата: има 5.750 задачи на 452 реални локации, додека е многу помала сет на реални прелистувач синтетички симулатори со верификувани награди. Web Bench & Westworld халуминат Web Bench Westworld Finally, Дефинирани задачи на 15 популарни веб-сајтови во живо, плус автоматски протокол за евалуација со користење на GPT-4V за да се процени однесувањето на отворениот крај. WebVoyager Веб-базирани агенти се зголемуваат во популарност за нивното ветување за автоматизација на задачите, бидејќи просторот за акција е помал од следниот слој, компјутерската употреба на компјутер со целосна ОС. Layer 3 – Full computer use Последниот слој му дава на агентот целосен оперативен систем: повеќе апликации, датотечен систем, копирање-пастирање итн. 369 задачи на вистински Ubuntu / Windows / macOS машини кои опфаќаат прелистувачи, Office апликации, истражувачи на датотеки, IDEs, е-пошта, медиумски плеер и многу повеќе. на Проширенијата обезбедуваат исчистена ракавица плус човечки траектории за сите задачи, што ви овозможува да мерите не само дали агентот успева, туку колку чекори и колку време гори во споредба со луѓето. OSWorld Луѓето постигнале 72% успех; првите најдобри агенти биле околу 12% OSWorld-Verified & OSWorld-Human од е а за долги хоризонти десктоп + прелистувач работни процеси. Водечки компании за АИ агенти како Покажи го Лидерска табела резултати заедно со броеви од , општа ИИ агент бенчмарк со неколку прелистувач работни процеси. CUB (Computer Use Benchmark) Тета Кросвертикален бенчмарк Manus AI CUB GAIA од Salesforce зема поинаков пристап: тоа е внатрешен бенчмарк на Salesforce изграден од ~ 300 вистински CRM работни процеси кои ги покриваат задачите за администрација, продажба и услуга. SCUBA Овој последен слој се чувствува најблиску до агентот кој делува како работник на знаење до најмногу.Соодветно на тоа, тоа е исто така најтешкиот слој досега. ) поради разновидноста на животната средина и случаите на работ во целосна животна средина. Ниска двоцифрена стапка на успех Моделот на Харвард Бен Андерсон прави брутална, но фер точка: многу од "SOTA" е всушност брза инженеринг плус скокање. Пост на компјутерско користење евалуација Популарниот бенчмарк На пример, оригиналните извештаи . Showdown-Clicks ~20% accuracy for a big off-the-shelf model while small finetuned models get ~70–80% Ben finds that добива резултат од само ~20%. но тогаш тој се заменува во многу поедноставен "само клик" XML повик и го гледа својот мал скок до околу 50% на токму истиот бенчмарк. Еве го краткиот знак Бен кој се користи за зголемување на резултатот од 250% и покрај многу помалиот модел: Моделот на Qwen 72B 3B Qwen модел Determine where to click in the UI to complete the instruction/task. Report the click location in XML like '<points x1="x" y1="y">click</points>.' Image size [{w}, {h}], (0, 0) is the top-left and ({w}, {h}) is the bottom-right. [IMAGE] {instruction} Слични приказни се појавуваат и на друго место. користи своја сопствена опрема и функции за наградување за информации и задачи за акција. explicitly warns that its vision-only setup means -style scores aren't directly comparable to DOM-based agents. REAL ScreenSuite Mind2Web For computer-use benchmarks today, a sizeable chunk of the performance gap you see on leaderboards is harness (prompts, tools, termination rules, retries, judges), not model weights. If you're comparing numbers across papers without looking at scaffolding, you're mostly reading marketing. Convergence to a small set of "anchor" benchmarks И покрај хаосот, веќе може да се види стандардизирање на полето околу неколку анкери. (вклучувајќи го и Про) , , and За веб слојот: триото на (Офлајн + онлајн + v2) И еден од / За OS layer: (plus Verified and Human variants), и На врвот на тоа, from Hugging Face acts as an umbrella harness that wraps many of these into one framework. ScreenSpot GroundUI WebClick Showdown-Clicks Mind2Web WebArena Web Bench WebVoyager OSWorld CUB SCUBA ScreenSuite Секој "компјутер-употреба агент" издавање обично се очекува да се пријават 1-2 заземјување резултати ( , , , на , 1–2 резултати на веб-сајтови ( , на , ), and 1–2 OS scores ( , на , ) на ScreenSpot-v2/Pro GroundUI WebClick Showdown-Clicks Online Mind2Web, Web Bench REAL Westworld OSWorld-Verified CUB SCUBA The shift from measurement to production Ранните бенчмаркови само прашале "успех или неуспех." покажува дека дури и силните агенти земаат Повеќе чекори од луѓето на овие задачи; некои тривијални дејства (како што се реформирање на текстот) ги земаат агентите минути каде што човекот треба секунди. следење на метриката на трошоците (API трошоци) и доверливоста во текот. изложува повеќе функции за наградување и ја нагласува робусноста на различни столбови. Табелата на резултатите се движи од еден број ("прецизност") на профили ("способност", "поузданост", "цена", "латенција"). OSWorld-Human 1.4 – 2,7 × Online Mind2Web REAL The fundamental shift from research-grade thinking to production-level may be an early indicator that the “computer-use agent” is healthily progressing. In fact, early production deployments of the “computer-use agent” from се објавени.Во неодамнешниот блог, лабораторијата сподели покажувајќи дека Новиот закон се справува со работните процеси во претпријатието, како што се комплексно пополнување на формулари и долги административни процеси. Новиот закон Лабораторијата на Amazon AGI customer stories Каде се наоѓаат таканаречените „брендови“? од е еден екран-наменети агент кој известува броеви на and , spanning all three layers. UI-TARS Замена ScreenSpot-Pro OSWorld H компанијата е специјализирана за заземјување и покажува резултати на , на , , на и нејзината многу сопствена Бенчмарк ScreenSpot-v2 ScreenSpot-Pro GroundUI-Web Showdown-Clicks WebClick AGI, Inc. се фокусира на веб и OS слоеви преку сопствените и на утврдените Лидери на табла. REAL OSWorld Theta се концентрира на оперативниот систем и слојот на прелистувачот преку . CUB Бенчмарките се удвоија како канали за влез на пазарот Многу од овие бенчмаркови, исто така, дејствуваат како дистрибуција и податоци мотори. and then an плус агенти околу тоа; да се биде "# 1 на РЕАЛ" е и истражувачка тврдење и фуннел во нивниот производ. е позициониран како „последен испит на човештвото за агенти за компјутерско користење“. и како бенчмаркови и инфраструктура за извршување на прелистувач агенти на скала. REAL СДК CUB Westworld Web Bench Benchmarks are becoming part measurement, part distribution, and part data flywheel. If you're picking which ones to invest in, you're also picking which ecosystems you want to plug into. Премин од живи сајтови на синтетички песочни кутии Многу веб бенчмаркови од првиот бран ги оценуваат агентите директно на живи сајтови. и извршување на задачи на вистински, менување на веб-страници од повеќе од 100 популарни сајтови. and Слично на тоа, користете задачи на вистински веб-сајтови како Amazon, Apple, Google Flights и стотици други домени со висок сообраќај. Ова дава реализам, но ја прави проценката кршлива: сајтовите се менуваат, домените се дрифт, и сигурните автоматски наградни сигнали се тешки за одржување во скала. Mind2Web Online Mind2Web WebVoyager Web Bench Новата алтернатива е високо-верност синтетички средини со вградени, програмски награди. provides a self-hosted “mini web” of fully functional sites (e-commerce, forums, project tools, CMS) whose state is fully observable and reproducible. Theta’s Се позиционира како „Последен испит на човештвото за агенти за користење на компјутери и прелистувачи“, истакнувајќи ја комплексноста на задачите кои можат да се направат во овие реални средини. (од AGI, Inc.) гради детерминистички реплики на 11 широко користени веб-сајтови и ги оценува агентите преку програмски државни проверки плус судење врз основа на рубрики. нуди „целосно симулиран интернет“ на прелистувачки средини за економски значајни работни процеси, дополнувајќи ги benchmark on live sites. In fact Halluminate’s first benchmark се користеше на живи сајтови и тие се преселија да прават приватни синтетички сајтови во , their most recent benchmark. Moreover, goes further by со програмски функции за наградување. WebArena CUB REAL Westworld Web Bench Web Bench Westworld WARC-Bench Запишување на динамични, реални веб-страници во интерактивни Web ARChive датотеки Synthetic setups trade some realism for measurement quality. A simulated Amazon or flights site may miss rare edge cases you’d see on the real web, and there is an active interest in studying the “sim-to-real” gap, . But in return, these sandboxes offer stable tasks, precise ground truth, and safe, massively parallel evaluation. на пример, со споредување на симулатори во стилот на Westworld со задачите на вистински Google Flights Со оглед на ова, траекторијата е јасна: бенчмаркови во живо остануваат од суштинско значење за проверка на перформансите во реалниот свет, но центарот на гравитација за секојдневна евалуација на агентите се движи кон реални, инструментирани песочни кутии со експлицитни функции за наградување и целосна набљудуваност. Како да го користите ова ако сте градежни агенти If you're trying to ship an agent, here's a pragmatic checklist. For all evaluations, avoid creating custom harnesses optimized for a single benchmark. To ensure meaningful results beyond launch announcements, use established public harnesses and document your implementation choices. Now onto the specific patterns per agent type: If you're building a GUI-aware model Your priorities should be to train on + во + во style data, then report on / на / на / на / Идеално преку harness where applicable for standardization. You're optimizing for localization accuracy and robustness to varied UI skins. ScreenSpot GroundUI WebClick ScreenSpot-v2 ScreenSpot-Pro GroundUI-1K WebClick Showdown-Clicks ScreenSuite Ако сте градење на веб агент Започнете со (Офлајн) за да го дебитирате основното однесување. + во for live behavior and cost curves. Consider (real web, wide coverage) and / на (self-hosted, simulated but realistic environments) once you care about distribution shift and robustness. Your north star becomes: success rate and reliability and cost per task. Mind2Web Online Mind2Web REAL Web Bench WebArena Westworld If you're building a full “computer-use agent” Користете as the standard ability check. Study За да разберете каде сте многу побавни или поретки од луѓето. и релевантни вертикални бенчмаркови како . OSWorld-Verified OSWorld-Human CUB SCUBA The benchmarks are maturing faster than the agents, but they're still broken Пред една година, "користење на компјутер" бенчмаркови беа фрагментирани. Денес имаме поцелосен бенчмаркови стек. Основање бенчмаркови кои стрес-тестирање на визија модели на секој интерфејс замисли. Веб бенчмаркови опфаќаат илјадници вистински сајтови. ОС бенчмаркови кои реплицираат вистински знаење работа. Најдобрите агенти се уште се борат.Ниска стапка на успех на Чекор брои 2 пати подолго од луѓето. Трошоци кои го претвораат распоредувањето во проблем на ЦФО. OSWorld Но, постои подлабок проблем. Како што покажа Андерсон, половина од јазот во перформансите на овие бенчмаркови е скакање, а не квалитетот на моделот. 3Б моделот со вистинскиот повик може да го победи 72Б моделот со наивен. Проблемот "секој е СОТА на нешто" не е решен. Хаосот почнува да се решава околу / for grounding, / for web tasks, and / За целосно извршување на оперативниот систем. Но, што е уште поважно, луѓето се фаќаат натаму. Кога ќе започнат распоредувањата на производството, триковите престануваат да работат. Референците кои ќе преживеат ќе бидат оние каде што перформансите всушност го предвидуваат однесувањето во реалниот свет. ScreenSpot GroundUI Mind2Web REAL OSWorld CUB What matters now is rigor. Run the standard evals with public harnesses. The gap between benchmark performance and production reality is where all the actual work lives. The measurement infrastructure exists and will only get better. Scrutiny is coming and you should build for that world, not this one. Референци Ниво 1 – UI заземјување ScreenSpot– Оригинален мулти-платформа GUI заземјување бенчмарк (мобилен, десктоп, веб).https://llm-stats.com/benchmarks/screenspot – Updated GUI grounding benchmark with cleaner labels and broader coverage. ScreenSpot-v2 https://huggingface.co/datasets/Voxel51/ScreenSpot-v2 ScreenSpot-Pro– високо-резолуција професионален GUI заземјување бенчмарк (23 апликации, 5 индустрии, 3 ОС).https://arxiv.org/abs/2504.07981 GroundUI / GroundUI-1K– Мулти-платформа (веб / десктоп / мобилен) заземјување сет на податоци со 1K eval подсет.Project / dataset:https://huggingface.co/datasets/agent-studio/GroundUI-1K Showdown-Clicks– 5,679 човечки кликови од macOS десктоп задачи за предвидување на клик и контрола на ниско ниво.https://huggingface.co/datasets/generalagents/showdown-clicks WebClick– 1,600+ веб слики со етикети “кликни тука”; H Компанија референтна точка за веб localizers.https://huggingface.co/datasets/Hcompany/WebClick ScreenSuite– Hugging Face’s umbrella GUI-agent benchmarking harness покривање перцепција + еден/мулти-фаза задачи.https://github.com/huggingface/screensuite Layer 2 – Web-based agents Mind2Web (офлајн) – 2,350 задачи низ 137 вистински веб-сајтови и 31 домени со акција секвенци.https://osu-nlp-group.github.io/Mind2Web/ – 300 tasks on 136 live websites; public leaderboard for web agents on real sites. Online Mind2Web https://huggingface.co/spaces/osunlp/Online_Mind2Web_Leaderboard – 130 long-horizon, real-time browsing tasks with an Agent-as-a-Judge framework. Mind2Web 2 https://osu-nlp-group.github.io/Mind2Web-2/ WebArena – Само-домаќин “мини-веб” на реални измама сајтови со бенчмарк за функционална задача completion.https://webarena.dev/ – AGI, Inc.’s “mini-Internet” of replicated major sites with programmatic rewards and rubric-based judging. REAL Bench (REAL) Blog post: https://www.theagi.company/blog/introducing-real-bench Leaderboard / evals: https://www.realevals.xyz Веб бенч– 5,570 задачи на 452 високо-трафик живи сајтови; масовна прелистувач-агент бенчмарк на Halluminate.GitHub:https://github.com/Halluminate/WebBench Westworld– Suite на многу реални симулатори на прелистувач со верификувани награди за веб-агент бенчмаркинг.Блог пост:https://halluminate.ai/blog/westworld WebVoyager– Бенчмарк на задачи на динамични живи веб-сајтови за веб-навигациски агенти од крај до крај.https://arxiv.org/abs/2401.13919 WARC-Bench – веб-архив базиран бенчмарк на 438 GUI подзадачи на динамични, реални архивирани веб-страници (преку Web ARChive датотеки).https://arxiv.org/abs/2510.09872 Layer 3 – Full computer / multi-app use – 369 multimodal computer-use tasks on real Ubuntu / Windows / macOS apps and file I/O. Site: OSWorld https://os-world.github.io – Efficiency-focused extensions with human trajectories and cleaned harnesses. OSWorld-Human: OSWorld-Human / OSWorld-Verified https://mlsys.wuklab.io/posts/oshuman/ – Theta’s cross-vertical benchmark for long-horizon desktop + browser workflows (“Humanity’s Last Exam for Computer and Browser Use Agents”). CUB (Computer Use Benchmark) Blog post: https://thetasoftware.com/blog/introducing-cub/ Announcement: https://x.com/trytheta/status/1923169553497866568 – ~300 Salesforce CRM workflows across admin / sales / service personas in sandbox environments: SCUBA (Salesforce Computer Use Benchmark) https://sfrcua.github.io/SCUBA/ Cross-layer / general agent benchmarks mentioned GAIA – Бенчмарк за општите Асистенти за вештачка интелигенција (450 реалниот свет прашања низ три нивоа на потешкотии кои бараат алатки, прелистување и мултимодално размислување): https://arxiv.org/abs/2311.12983 Блогот на Бен Андерсон "Компјутерско користење на евалите е неред" https://benanderson.work/blog/computer-use-benchmarks/ Disclaimer: I am currently working at Theta