Если вы видели «агентов компьютерного использования», вы заметили два факта: Каждая новая модель является «SOTA» на чем-то. Почти ни одно из этих цифр не входит в линию. , , , , , , , , ... плюс десяток ведущих дистрибьюторов. OSWorld CUB, Web Bench Westworld REAL Mind2Web ScreenSpot GroundUI Showdown-Clicks WebClick Это все больше и больше похоже на ранние веб-рамки.Слишком много вариантов и недостаточно направления. Этот пост является попыткой поместить текущую экосистему в одну сплоченную картину: что там, как различаются эталоны, и куда все это направлено. Три слоя «Компьютерного использования» Практически каждый критерий «пользования компьютером» попадает в один из трех слоев: 1. Локализация и идентификация элементов интерфейса из скриншотов Low-level UI grounding 2. Многоступенчатое выполнение задач в браузерной среде Web task execution 3. Крос-прикладные рабочие процессы на полных операционных системах Full OS / multi-app computer use Шаг 1 - UI Grounding Эти показатели берут скриншот и инструкцию и просят модель указать на нужное место (пиксель, ящик или элемент интерфейса). Основные примеры включают в себя , which serves as the workhorse of GUI grounding. The original охватывает веб, мобильный и настольный интерфейс; очищает этикетки; targets high-resolution professional apps across multiple industries and OSes. ScreenSpot family ScreenSpot ScreenSpot-v2 ScreenSpot-Pro принимает другой подход, машируя , , и друзей в ~18k-примерный многоплатформенный набор данных, плюс стандартный 1k-примерный поднабор eval. GroundUI ScreenSpot Mind2Web OmniACT предлагает 5679 человеческих кликов от людей, выполняющих задачи в рабочей среде macOS, используемых в качестве показателя прогнозирования кликов. Showdown-Clicks Между тем, от предоставляет более 1600 веб-сканировок с тегами «нажмите здесь», используемыми Holo1/Holo1.5 для демонстрации локализации малого модельного интерфейса. WebClick H Компания Если вы тренируете «глаза» агента (модель Vision-Language, которая может читать экраны и выбирать виджеты), эталон здесь. / / / номеров . ScreenSpot ScreenSpot-Pro GroundUI Showdown-Clicks Шаг 2 — веб-агенты Здесь агент получает реальный браузер (или симулятор высокой верности) и должен выполнить такие задачи, как «В течение лета забронировать отель в Нью-Йорке за $250» или «найти политику возврата для этого продукта и сделать запрос на возврат для моего последнего предмета». ТЭ family dominates this space. The offline dataset contains 2,350 tasks across 137 real websites and 31 domains, with action sequences. Это живой эквивалент: 300 задач на 136 реальных сайтах, с таблицей, которая отслеживает точность, стоимость и ходы. расширяет это с помощью 130 долгого горизонта, поисковых задач в стиле исследований и добавляет «агент-как-судья» для корректности ответа и атрибуции. Mind2Web Online Mind2Web Mind2Web 2 использует другой подход: это веб-среда, созданная на основе реалистичных веб-сайтов (электронная коммерция, форумы, репо в стиле GitLab, CMS и т.д.) с сотнями задач, имитирующих повседневные веб-задачи. от предлагает 112 задач по репликам крупных сайтов, таких как Amazon и DoorDash, с отдельными функциями вознаграждения для «у вас есть правильная информация?» и «у вас есть правильные действия?» WebArena REAL АГИ, Инк от Сосредоточьтесь на масштабе: 5 750 задач на 452 реальных сайтах. Это гораздо меньший набор реалистичных браузерных синтетических симуляторов с проверяемыми наградами. Web Bench & Westworld галлюминаты Web Bench Westworld И наконец, Определены задачи на 15 популярных сайтах, а также автоматический протокол оценки с использованием GPT-4V для оценки поведения в открытом режиме. WebVoyager Веб-агенты растут в популярности за их обещание в автоматизации задач из-за того, что пространство действий меньше, чем следующий слой, использование компьютера полной ОС. Шаг 3 - Полный компьютер Последний слой дает агенту полную ОС: несколько приложений, файловую систему, копирование и т.д. Служит корнем здесь, с 369 задачами на реальных компьютерах Ubuntu / Windows / macOS, охватывающих браузеры, приложения Office, исследователи файлов, IDEs, электронную почту, медиаплееры и многое другое. • The Расширения обеспечивают очищенную шланг плюс человеческие траектории для всех задач, которые позволяют вам измерить не только, если агент успевает, но сколько шагов и сколько времени он сжигает по сравнению с людьми. OSWorld Люди достигли ~ 72% успеха; ранние лучшие агенты были около 12% OSWorld-Verified & OSWorld-Human от Это а для рабочих процессов для рабочего стола + браузера с длинным горизонтом. ведущие компании-агенты ИИ, такие как Показать The leaderboard scores alongside numbers from , общий бенчмарк агента ИИ с несколькими рабочими процессами браузера. CUB (Computer Use Benchmark) Тетя Кроссвертикальный бенчмарк Руководство AI CUB GAIA from Salesforce takes a different approach: it's a Salesforce-internal benchmark built from ~300 real CRM workflows covering admin, sales, and service tasks. Their approach is to take a deeply verticalized enterprise SaaS view of the benchmark. SCUBA Этот последний слой чувствует себя ближе всего к агенту, действующему в качестве работника знаний, в полном объеме.Соответственно, это также самый сложный слой на сегодняшний день. ) из-за разнообразной среды и краевых случаев в полной среде ОС. Низкие двузначные показатели успеха Харьков » Модель Ben Anderson's делает жестокую, но справедливую точку зрения: много "SOTA" на самом деле быстрое проектирование плюс скейтборд. Записи с меткой Computer-Use Evalus Популярный бенчмарк Например, оригинальные документы . Showdown-Clicks ~20% точность для большой модели, в то время как небольшие модели получают ~70-80% Бен обнаруживает это получает балл всего лишь ~20%. но потом он обменивается в гораздо более простой "только нажатием" XML-призыв и видит свою маленькую прыжок до около 50% по точному тому же показателю. Вот короткий промпт Бен, используемый для увеличения баллов на 250% несмотря на гораздо меньшую модель: Qwen’s 72B model Модель 3B Qwen Determine where to click in the UI to complete the instruction/task. Report the click location in XML like '<points x1="x" y1="y">click</points>.' Image size [{w}, {h}], (0, 0) is the top-left and ({w}, {h}) is the bottom-right. [IMAGE] {instruction} Similar stories show up elsewhere. использует свои собственные функции привязки и вознаграждения для информационно-деятельных задач. прямо предупреждает, что его видение-только настройка означает -style scores aren't directly comparable to DOM-based agents. REAL ScreenSuite Mind2Web For computer-use benchmarks today, a sizeable chunk of the performance gap you see on leaderboards is harness (prompts, tools, termination rules, retries, judges), not model weights. If you're comparing numbers across papers without looking at scaffolding, you're mostly reading marketing. Сближение с небольшим набором «анкорных» показателей Несмотря на хаос, вы уже можете видеть, как поле стандартизируется вокруг нескольких якорей. (в том числе и для , , и Для веб-слоя: трио (offline + online + v2), plus И один из / Для OS Layer: (плюс проверенные и человеческие варианты), , and На вершине этого, от Hugging Face действует как зонтик, который обволакивает многие из них в одну рамку. ScreenSpot GroundUI WebClick Showdown-Clicks Mind2Web WebArena Web Bench WebVoyager OSWorld CUB SCUBA ScreenSuite Ожидается, что любая версия "агента компьютерного использования" обычно сообщит о 1–2 баллах по заземлению ( , , , , 1–2 балла сайтов ( , , 1 или 2 балла ( , , ). ScreenSpot-v2/Pro GroundUI WebClick Showdown-Clicks Online Mind2Web, Web Bench REAL Westworld OSWorld-Verified CUB SCUBA The shift from measurement to production Ранние ориентиры просто спросили «успех или неудача». shows that even strong agents take more steps than humans on these tasks; some trivial actions (like reformatting text) take agents minutes where a human needs seconds. отслеживает метрику затрат (затраты API) и надежность по ходам. раскрывает многочисленные функции вознаграждения и подчеркивает надежность на разных площадках.Таблица результатов переходит от единичных чисел («точность») к профилям («способность», «надежность», «стоимость», «задержка»). OSWorld-Human 1.4 — 2,7× Online Mind2Web REAL The fundamental shift from research-grade thinking to production-level may be an early indicator that the “computer-use agent” is healthily progressing. In fact, early production deployments of the “computer-use agent” от были опубликованы.В недавнем блоге, лаборатория поделилась демонстрирует, что Nova Act справляется с рабочими процессами на предприятии, такими как заполнение сложных форм и длительные административные процессы. Nova Act Лаборатория Amazon AGI customer stories Where do the named "brands" sit? от is a single screenshot-driven agent that reports numbers on и Затягивает все три слоя. UI-TARS Битеданс ScreenSpot-Pro OSWorld H Company specializes in grounding and shows results on , , , , and its very own Бенчмарк ScreenSpot-v2 ScreenSpot-Pro GroundUI-Web Showdown-Clicks WebClick AGI, Inc. фокусируется на веб- и OS-слоях через свои собственные и установленных Лидерские доски . REAL OSWorld Theta концентрируется на OS и браузерном слое через . CUB Бенчмарки удвоились в качестве каналов выхода на рынок Многие из этих показателей также действуют как дистрибуционные и двигатели данных. AGI, Inc. А потом один Плюс агенты вокруг него; быть «#1 на REAL» является как исследовательским заявлением, так и фуннелем в их продукте. Он позиционируется как «последний экзамен человечества для агентов компьютерного использования». and as both benchmarks and infrastructure for running browser agents at scale. REAL SDK CUB Westworld Web Bench Benchmarks are becoming part measurement, part distribution, and part data flywheel. If you're picking which ones to invest in, you're also picking which ecosystems you want to plug into. The shift from live sites to synthetic sandboxes Many first-wave web benchmarks evaluated agents directly on live sites. и run tasks on real, changing webpages from over 100 popular sites. и similarly use tasks on real websites like Amazon, Apple, Google Flights and hundreds of other high-traffic domains. This gives realism, but makes evaluation brittle: sites change, DOMs drift, and reliable automatic reward signals are hard to maintain at scale. In practice, large-scale parallel evaluation can run into rate limits or website terms-of-service constraints. Mind2Web Online Mind2Web WebVoyager Web Bench Возникающей альтернативой являются синтетические среды высокой верности с встроенными, программирующими вознаграждениями. предоставляет самостоятельный «мини-веб» полностью функциональных сайтов (электронная коммерция, форумы, инструменты проекта, CMS), состояние которых полностью наблюдаемо и воспроизводимо. Он позиционирует себя как «Последний экзамен человечества для агентов использования компьютеров и браузеров», подчеркивая сложность задач, которые могут быть выполнены в этих реалистичных средах. (от AGI, Inc.) строит детерминистские реплики 11 широко используемых веб-сайтов и оценивает агентов посредством программных государственных проверок плюс суждения на основе рубрики. offers a “fully simulated internet” of browser environments for economically meaningful workflows, complementing their бенчмарк на живых сайтах. Фактически, первый бенчмарк Halluminate был использован на живых сайтах и они переехали на частные синтетические сайты в Это самый последний показатель, кроме того, Он идет дальше от Программные функции вознаграждения. WebArena CUB REAL Westworld Web Bench Web Bench Westworld WARC-Bench recording dynamic, realistic webpages into interactive Web ARChive files Synthetic setups trade some realism for measurement quality. A simulated Amazon or flights site may miss rare edge cases you’d see on the real web, and there is an active interest in studying the “sim-to-real” gap, Но, в свою очередь, эти песочницы предлагают стабильные задачи, точную наземную истину и безопасную, массивную параллельную оценку. for example by comparing Westworld-style simulators with tasks on real Google Flights Given this, the trajectory is clear: live-web benchmarks remain essential for checking real-world performance, but the center of gravity for day-to-day agent evaluation is moving toward realistic, instrumented sandboxes with explicit reward functions and full observability. Especially as there is a shift towards private websites for enterprise use cases. How to use this if you're building agents If you're trying to ship an agent, here's a pragmatic checklist. Для всех оценок избегайте создания настраиваемых галстуков, оптимизированных для одного этапа. Чтобы обеспечить значимые результаты за пределами объявлений о запуске, используйте установленные публичные галстуки и документируйте свои варианты реализации. Если вы строите модель GUI-aware Your priorities should be to train on + + + + стиля данных, а затем отчеты о / / / / , ideally via the Вы оптимизируете точность локализации и надежность для разнообразных покрытий интерфейса. ScreenSpot GroundUI WebClick ScreenSpot-v2 ScreenSpot-Pro GroundUI-1K WebClick Showdown-Clicks ScreenSuite Если вы создаете веб-агента Start with (оффлайн) для дебюта базового поведения. Перейти к + + for live behavior and cost curves. Consider (real web, wide coverage) and / (самохостинг, симулированные, но реалистичные среды) как только вы заботитесь о смене дистрибуции и прочности. ваша северная звезда становится: скорость успеха и надежность и стоимость на задание. Mind2Web Online Mind2Web REAL Web Bench WebArena Westworld Если вы строите полный «агент использования компьютера» Use как стандартная проверка способности. исследование чтобы понять, где вы гораздо медленнее или хрупче, чем люди.Если вы продаете предприятиям, подумайте и соответствующих вертикальных показателей, таких как . OSWorld-Verified OSWorld-Human CUB SCUBA Бенчмарки созревают быстрее, чем агенты, но они все еще нарушены Год назад, «компьютер-использование» бенчмарки были фрагментированы. Сегодня у нас есть более полный бенчмарк стек. Грундирование бенчмарки, которые стресс-тестирование модели зрения на каждом UI вообразимо. веб-бенчмарки, охватывающие тысячи реальных сайтов. ОС бенчмарки, которые воспроизводят реальные знания работы. The best agents still struggle. Low success rates on Шаг рассчитывается в 2 раза дольше, чем люди. затраты, которые превращают развертывание в проблему CFO. OSWorld But there's a deeper issue. As Anderson showed, half the performance gap on these benchmarks is scaffolding, not model quality. A 3B model with the right prompt can beat a 72B model with a naive one. The "everyone is SOTA on something" problem hasn't been solved. It's just moved from benchmark selection to harness engineering. Хаос начинает решаться вокруг / Для утепления , / для веб-задач и / Для полного выполнения ОС. Но, что еще более важно, люди набирают обороты.Когда начинаются развертывания производства, хитрости перестают работать.Основные показатели, которые выживают, будут теми, где производительность фактически предсказывает поведение в реальном мире. ScreenSpot GroundUI Mind2Web REAL OSWorld CUB What matters now is rigor. Run the standard evals with public harnesses. The gap between benchmark performance and production reality is where all the actual work lives. The measurement infrastructure exists and will only get better. Scrutiny is coming and you should build for that world, not this one. References Шаг 1 - UI заземление ScreenSpot– Оригинальный многоплатформенный ориентир заземления GUI (мобильный, настольный, веб).https://llm-stats.com/benchmarks/screenspot ScreenSpot-v2 – обновленный ориентир заземления GUI с более чистыми этикетками и более широким покрытием.https://huggingface.co/datasets/Voxel51/ScreenSpot-v2 ScreenSpot-Pro – профессиональный ориентир для заземления GUI высокого разрешения (23 приложения, 5 отраслей, 3 ОС).https://arxiv.org/abs/2504.07981 GroundUI / GroundUI-1K – многоплатформенный (веб / десктоп / мобильный) набор данных для заземления с подсчетом 1K eval.Project / dataset:https://huggingface.co/datasets/agent-studio/GroundUI-1K – 5,679 human clicks from macOS desktop tasks for click prediction and low-level control. Showdown-Clicks https://huggingface.co/datasets/generalagents/showdown-clicks – 1,600+ web screenshots with “click here” labels; H Company’s benchmark for web localizers. WebClick https://huggingface.co/datasets/Hcompany/WebClick – Hugging Face’s umbrella GUI-agent benchmarking harness covering perception + single/multi-step tasks. ScreenSuite https://github.com/huggingface/screensuite Шаг 2 — веб-агенты Mind2Web (оффлайн) – 2350 задач на 137 реальных сайтах и 31 доменах с последовательностью действий.https://osu-nlp-group.github.io/Mind2Web/ Онлайн Mind2Web – 300 задач на 136 живых сайтах; общественная таблица лидеров для веб-агентов на реальных сайтах.https://huggingface.co/spaces/osunlp/Online_Mind2Web_Leaderboard Mind2Web 2– 130 долгого горизонтальных задач в режиме реального времени с помощью Framework Agent-as-a-Judge.https://osu-nlp-group.github.io/Mind2Web-2/ – Self-hosted “mini-web” of realistic mock sites with a benchmark for functional task completion. / WebArena https://webarena.dev – AGI, Inc.’s “mini-Internet” of replicated major sites with programmatic rewards and rubric-based judging. REAL Bench (REAL) Blog post: https://www.theagi.company/blog/introducing-real-bench Leaderboard / evals: https://www.realevals.xyz – 5,570 tasks across 452 high-traffic live sites; Halluminate’s large-scale browser-agent benchmark. GitHub: Web Bench https://github.com/Halluminate/WebBench Westworld – пакет очень реалистичных симуляторов браузера с проверяемыми наградами за веб-агент бенчмаркинг.Блог пост:https://halluminate.ai/blog/westworld – Benchmark of tasks on dynamic live websites for end-to-end web navigation agents. WebVoyager https://arxiv.org/abs/2401.13919 WARC-Bench – веб-архивный ориентир 438 подзадач GUI на динамических, реалистичных архивных веб-страницах (через веб-файлы ARChive).https://arxiv.org/abs/2510.09872 Степень 3 – Полный компьютер / использование многоприложений OSWorld – 369 мультимодальных задач по использованию компьютера на реальных приложениях Ubuntu / Windows / macOS и файле I/O.Site:https://os-world.github.io OSWorld-Human / OSWorld-Verified– Эффективность-фокусированные расширения с траекториями человека и очищенными арнезами.OSWorld-Human:https://mlsys.wuklab.io/posts/oshuman/ – Theta’s cross-vertical benchmark for long-horizon desktop + browser workflows (“Humanity’s Last Exam for Computer and Browser Use Agents”). CUB (Computer Use Benchmark) Blog post: https://thetasoftware.com/blog/introducing-cub/ Announcement: https://x.com/trytheta/status/1923169553497866568 SCUBA (Salesforce Computer Use Benchmark) - ~300 рабочих процессов Salesforce CRM в admin / sales / service personas в песочных средах: https://sfrcua.github.io/SCUBA/ Перекрестные/общие показатели агента, упомянутые GAIA – Benchmark for General AI Assistants (450 реальных вопросов на трех уровнях сложности, требующих инструментов, просмотра и мультимодального мышления): https://arxiv.org/abs/2311.12983 Блог Бен Андерсона «Компьютерные эвалы — это беспорядок» https://benanderson.work/blog/computer-use-benchmarks/ Disclaimer: I am currently working at Theta