Se você viu "agentes de uso de computador", você notou dois fatos: Cada novo modelo é "SOTA" em algo. Quase nenhum desses números se encaixa. , em , , em , em , , em , em , em ...mais uma dúzia de lideranças de vendedores. OSWorld CUB, Web Bench Westworld REAL Mind2Web ScreenSpot GroundUI Showdown-Clicks WebClick Parece cada vez mais como os primeiros frameworks da web.Muitas opções e não direção suficiente. Este post é uma tentativa de colocar o ecossistema atual em um quadro coerente: o que está lá fora, como os índices de referência diferem e para onde tudo isso está indo. As três camadas de "Uso de Computador" Quase todos os benchmarks de "uso de computador" caem em uma das três camadas: 1. – Localizing and identifying interface elements from screenshots Low-level UI grounding 2. – Multi-step task completion within browser environments Web task execution 3. Fluxos de trabalho de aplicações cruzadas em sistemas operacionais completos Full OS / multi-app computer use Nível 1 – UI Grounding Esses benchmarks tiram uma captura de tela e uma instrução e pedem ao modelo para apontar para o lugar certo (pixel, caixa ou elemento de interface). Principais exemplos incluem o , que serve como o cavalo de trabalho do aterramento da GUI. cobre UI web, móvel e desktop; Limpar o rótulo; Aplicações profissionais de alta resolução em múltiplas indústrias e sistemas operacionais. ScreenSpot family ScreenSpot ScreenSpot-v2 ScreenSpot-Pro tomando uma abordagem diferente através do mashing up , em , em e amigos em um conjunto de dados multiplataforma de ~18k-exemplo, mais um subconjunto padrão de avaliação de 1k-exemplo. GroundUI ScreenSpot Mind2Web OmniACT Oferece 5.679 cliques humanos de pessoas que realizam tarefas em um ambiente de desktop do macOS, usado como um benchmark de previsão de cliques. Showdown-Clicks Meanwhile, de fornece mais de 1.600 capturas de tela da web com etiquetas "clique aqui", usadas pelo Holo1/Holo1.5 para mostrar a localização do UI de pequeno modelo. WebClick H Company If you're training the "eyes" of an agent (a Vision-Language Model that can read screens and pick widgets), the benchmark is here. Almost every GUI agent paper now reports / em / em / os números. ScreenSpot ScreenSpot-Pro GroundUI Showdown-Clicks Nível 2 – Agentes baseados na Web Aqui, o agente recebe um navegador real (ou um simulador de alta fidelidade) e tem que completar tarefas como "Durante o verão, reserve um hotel em Nova Iorque abaixo de US $ 250" ou "encontrar a política de devolução para este produto e fazer um pedido de devolução para o meu item mais recente". O family dominates this space. The offline dataset contains 2,350 tasks across 137 real websites and 31 domains, with action sequences. é o equivalente ao vivo: 300 tarefas em 136 sites reais, com um ranking que rastreia precisão, custo e execução. estende isso com 130 tarefas de pesquisa de estilo de pesquisa de longo horizonte e adiciona "agente-como um juiz" para a correção da resposta e atribuição. Mind2Web Online Mind2Web Mind2Web 2 É um ambiente web auto-hostado construído a partir de sites de mock realistas (comércio eletrônico, fóruns, repos em estilo GitLab, CMS, etc.) com centenas de tarefas que imitam tarefas da web diárias. de Oferece 112 tarefas em réplicas de grandes sites como Amazon e DoorDash, com funções de recompensa separadas para "você recebeu as informações certas?" e "você tomou as ações certas?" WebArena REAL Avaliação, Inc. de Foco na escala: is 5,750 tasks across 452 real sites, while é um conjunto muito menor de simuladores sintéticos de navegador realistas com recompensas verificáveis. Web Bench & Westworld HALLUMINAÇÃO Web Bench Westworld Por fim, Tarefas definidas em 15 sites populares ao vivo, além de um protocolo de avaliação automática usando o GPT-4V para julgar o comportamento aberto. WebVoyager Os agentes baseados na Web estão crescendo em popularidade por sua promessa em tarefas de automação devido ao espaço de ação sendo menor do que a próxima camada, uso de computador de sistema operacional completo. Nível 3 – Utilização completa do computador A camada final dá ao agente um sistema operacional completo: múltiplos aplicativos, sistema de arquivos, copie-paste, etc. serve como âncora aqui, com 369 tarefas em máquinas reais Ubuntu / Windows / macOS abrangendo navegadores, aplicativos do Office, exploradores de arquivos, IDEs, e-mail, media players e muito mais. • O As extensões fornecem uma armadura limpa e trajetórias humanas para todas as tarefas, o que permite medir não apenas se o agente consegue, mas quantos passos e quanto tempo queima em comparação com os humanos. OSWorld Os humanos atingiram ~ 72% de sucesso; primeiros melhores agentes eram cerca de 12% OSWorld-Verified & OSWorld-Human from É a para desktop de longo horizonte + fluxos de trabalho do navegador. empresas líderes de agentes de IA como Mostrar o A tabela de pontuação ao lado dos números de , um benchmark geral do agente de IA com alguns fluxos de trabalho do navegador. CUB (Computer Use Benchmark) Theta Benchmark Vertical Transversal Manus AI CUB GAIA da Salesforce adota uma abordagem diferente: é um benchmark interno da Salesforce construído a partir de ~300 fluxos de trabalho CRM reais que cobrem tarefas de administração, vendas e serviços. SCUBA Esta camada final se sente mais próxima de um agente atuando como um trabalhador de conhecimento ao mais completo. Consequentemente, é também a camada mais difícil de longe. ) because of the varied environments and edge cases in a full OS environment. Taxas de sucesso duplas Harness > Modelo A vida de Ben Anderson makes a brutal but fair point: a lot of "SOTA" is actually prompt engineering plus scaffolding. Postado em Utilização de Computadores Um benchmark popular Por exemplo, os documentos originais . Showdown-Clicks ~20% de precisão para um grande modelo fora da prateleira, enquanto modelos pequenos finamente ajustados obtêm ~70-80% Ben descobre isso obtém a pontuação de um mero ~20%.Mas então ele troca em um prompt XML muito mais simples "somente clique" e vê seu pequeno saltar para cerca de 50% no mesmo ponto de referência exato. Aqui está o prompt curto Ben usado para o aumento de 250% na pontuação, apesar do modelo muito menor: O modelo 72B da Qwen Modelo 3B Qwen Determine where to click in the UI to complete the instruction/task. Report the click location in XML like '<points x1="x" y1="y">click</points>.' Image size [{w}, {h}], (0, 0) is the top-left and ({w}, {h}) is the bottom-right. [IMAGE] {instruction} Histórias semelhantes surgem em outros lugares. usa suas próprias funções de engrenagem e recompensa para tarefas de informação e ação. explicitamente adverte que a sua configuração de visão significa apenas As pontuações de estilo não são diretamente comparáveis aos agentes baseados em DOM. REAL ScreenSuite Mind2Web For computer-use benchmarks today, a sizeable chunk of the performance gap you see on leaderboards is harness (prompts, tools, termination rules, retries, judges), not model weights. If you're comparing numbers across papers without looking at scaffolding, you're mostly reading marketing. Convergência para um pequeno conjunto de benchmarks "anchor" Apesar do caos, você já pode ver o campo padronizando em torno de algumas âncoras. (including Pro), , em , and Para a camada web: o trio de (offline + on-line + v2) mais E um dos / Para o OS Layer: (mais variantes verificadas e humanas), e . On top of that, Hugging Face atua como um guarda-chuva que enrola muitos deles em um único quadro. ScreenSpot GroundUI WebClick Showdown-Clicks Mind2Web WebArena Web Bench WebVoyager OSWorld CUB SCUBA ScreenSuite Qualquer lançamento de "agente de uso de computador" é normalmente esperado para relatar 1–2 pontuações de aterramento ( , em , em , em , 1 a 2 pontuações web ( , em , , e 1–2 OS pontuações ( , em , e) o ScreenSpot-v2/Pro GroundUI WebClick Showdown-Clicks Online Mind2Web, Web Bench REAL Westworld OSWorld-Verified CUB SCUBA The shift from measurement to production Os primeiros índices de referência simplesmente perguntaram "sucesso ou fracasso". Isso mostra que até os agentes fortes more steps than humans on these tasks; some trivial actions (like reformatting text) take agents minutes where a human needs seconds. rastreia a métrica de custo (despesas de API) e confiabilidade em todas as operações. expõe múltiplas funções de recompensa e enfatiza a robustez em diferentes estantes.O painel de avaliação está se movendo de números únicos ("precisão") para perfis ("capacidade", "fiabilidade", "custo", "latência"). OSWorld-Human 1.4 – 2,7× Online Mind2Web REAL A mudança fundamental do pensamento de nível de pesquisa para o nível de produção pode ser um indicador precoce de que o “agente de uso de computador” está progredindo de forma saudável. de Em um blog recente, o laboratório compartilhou Mostrando que a Nova Act lida com fluxos de trabalho na empresa, como preenchimento de formulários complexos e processos administrativos longos. Nova Act O laboratório SF da Amazon AGI customer stories Onde estão as chamadas “marcas”? de é um único agente guiado por captura de tela que relata números em e Enfrentando as três camadas. UI-TARS Mudança ScreenSpot-Pro OSWorld A H Company é especializada em aterramento e mostra resultados em , em , em , E a sua própria benchmark. ScreenSpot-v2 ScreenSpot-Pro GroundUI-Web Showdown-Clicks WebClick AGI, Inc. focuses on the web and OS layers via their own E o estabelecido dos líderes. REAL OSWorld Theta concentra-se no sistema operacional e na camada do navegador via . CUB Benchmarks duplicam como canais de acesso ao mercado Muitos desses benchmarks também atuam como motores de distribuição e dados. and then an plus agents around it; being "#1 on REAL" is both a research claim and a funnel into their product. Theta's é posicionado como "o último exame da humanidade para agentes de uso de computador." e as both benchmarks and infrastructure for running browser agents at scale. REAL SDK CUB Westworld Web Bench Os benchmarks estão se tornando part-measurement, part-distribuição e part-data flywheel.Se você está escolhendo quais investir, você também está escolhendo quais ecossistemas você quer se conectar. A mudança de sites ao vivo para sandboxes sintéticos Muitos benchmarks da primeira onda da web avaliaram agentes diretamente em sites ao vivo. and Execute tarefas em páginas web reais e em mudança de mais de 100 sites populares. e semelhante uso de tarefas em sites reais como Amazon, Apple, Google Flights e centenas de outros domínios de alto tráfego. Isso dá realismo, mas torna a avaliação frágil: os sites mudam, DOMs drift, e sinais de recompensa automática confiável são difíceis de manter em escala. Na prática, a avaliação paralela de grande escala pode correr em limites de taxa ou restrições de termos de serviço do site. Mind2Web Online Mind2Web WebVoyager Web Bench The emerging alternative is high-fidelity synthetic environments with built-in, programmatic rewards. fornece uma “mini web” auto-hostada de sites totalmente funcionais (e-commerce, fóruns, ferramentas de projeto, CMS) cujo estado é totalmente observável e reproduzível. posiciona-se como “O Último Exame da Humanidade para Agentes de Utilização de Computadores e Navegadores”, destacando a complexidade das tarefas que podem ser feitas nesses ambientes realistas. (da AGI, Inc.) constrói réplicas deterministas de 11 sites amplamente utilizados e avalia os agentes através de verificações de estado programáticas mais julgamento baseado em rubricas. offers a “fully simulated internet” of browser environments for economically meaningful workflows, complementing their benchmark on live sites. In fact Halluminate’s first benchmark foi usado em sites ao vivo e eles se mudaram para fazer sites sintéticos privados em , their most recent benchmark. Moreover, Vai mais longe por with programmatic reward functions. WebArena CUB REAL Westworld Web Bench Web Bench Westworld WARC-Bench recording dynamic, realistic webpages into interactive Web ARChive files Synthetic setups trade some realism for measurement quality. A simulated Amazon or flights site may miss rare edge cases you’d see on the real web, and there is an active interest in studying the “sim-to-real” gap, . But in return, these sandboxes offer stable tasks, precise ground truth, and safe, massively parallel evaluation. for example by comparing Westworld-style simulators with tasks on real Google Flights Dado isso, a trajetória é clara: os benchmarks da web ao vivo permanecem essenciais para verificar o desempenho do mundo real, mas o centro de gravidade para a avaliação diária do agente está se movendo para sandboxes realistas, instrumentados com funções de recompensa explícitas e total observabilidade. Como usar isso se você é um agente de construção Se você está tentando enviar um agente, aqui está uma lista de verificação pragmática. For all evaluations, avoid creating custom harnesses optimized for a single benchmark. To ensure meaningful results beyond launch announcements, use established public harnesses and document your implementation choices. Now onto the specific patterns per agent type: Se você está construindo um modelo GUI-consciente Your priorities should be to train on + + mais Dados de estilo, em seguida, relatório sobre / / / em / em Idealmente, através da harness where applicable for standardization. You're optimizing for localization accuracy and robustness to varied UI skins. ScreenSpot GroundUI WebClick ScreenSpot-v2 ScreenSpot-Pro GroundUI-1K WebClick Showdown-Clicks ScreenSuite Se você está construindo um agente web Start with (offline) to debug basic behavior. Move to + mais for live behavior and cost curves. Consider (real web, wide coverage) and / em (ambiente auto-hostado, simulado, mas realista) uma vez que você se importa com a mudança de distribuição e robustez. sua estrela do norte se torna: taxa de sucesso e confiabilidade e custo por tarefa. Mind2Web Online Mind2Web REAL Web Bench WebArena Westworld Se você está construindo um "agente de uso de computador" completo Use as the standard ability check. Study para entender onde você é muito mais lento ou mais frágil do que os humanos.Se você está vendendo para empresas, considere and relevant vertical benchmarks like . OSWorld-Verified OSWorld-Human CUB SCUBA Os benchmarks estão amadurecendo mais rápido do que os agentes, mas eles ainda estão quebrados A year ago, "computer-use" benchmarks were fragmented. Today we have a more complete benchmark stack. Grounding benchmarks that stress-test vision models on every UI imaginable. Web benchmarks spanning thousands of real sites. OS benchmarks that replicate actual knowledge work. Os melhores agentes ainda lutam. taxas de sucesso baixas em . Step counts 2x longer than humans. Costs that turn deployment into a CFO problem. OSWorld Mas há um problema mais profundo. Como Anderson mostrou, metade da lacuna de desempenho nesses critérios de referência é a escavação, não a qualidade do modelo. Um modelo 3B com a mensagem certa pode derrotar um modelo 72B com um ingênuo. O problema "todo mundo é SOTA em algo" não foi resolvido. O caos começa a se resolver / Para o aterramento, / para tarefas web, e / for full OS execution. But more importantly, people are catching on. When production deployments start, scaffolding tricks stop working. The benchmarks that survive will be the ones where performance actually predicts real-world behavior. ScreenSpot GroundUI Mind2Web REAL OSWorld CUB What matters now is rigor. Run the standard evals with public harnesses. The gap between benchmark performance and production reality is where all the actual work lives. The measurement infrastructure exists and will only get better. Scrutiny is coming and you should build for that world, not this one. References Nível 1 – UI aterrissagem ScreenSpot– Benchmark original multi-plataforma GUI de aterramento (móvel, desktop, web).https://llm-stats.com/benchmarks/screenspot ScreenSpot-v2 – Benchmark de aterramento da GUI atualizado com rótulos mais limpos e cobertura mais ampla.https://huggingface.co/datasets/Voxel51/ScreenSpot-v2 ScreenSpot-Pro– Benchmark de aterramento de GUI profissional de alta resolução (23 aplicativos, 5 indústrias, 3 OSes).https://arxiv.org/abs/2504.07981 GroundUI / GroundUI-1K– Multi-plataforma (web / desktop / mobile) base de dados com um subconjunto 1K eval.Project / dataset:https://huggingface.co/datasets/agent-studio/GroundUI-1K – 5,679 human clicks from macOS desktop tasks for click prediction and low-level control. Showdown-Clicks https://huggingface.co/datasets/generalagents/showdown-clicks – 1,600+ web screenshots with “click here” labels; H Company’s benchmark for web localizers. WebClick https://huggingface.co/datasets/Hcompany/WebClick ScreenSuite– Hugging Face’s umbrella GUI-agente benchmarking harness cobrindo percepção + single/multi-step tasks.https://github.com/huggingface/screensuite Nível 2 – Agentes baseados na Web Mind2Web (offline) – 2,350 tarefas em 137 sites reais e 31 domínios com sequências de ação.https://osu-nlp-group.github.io/Mind2Web/ – 300 tasks on 136 live websites; public leaderboard for web agents on real sites. Online Mind2Web https://huggingface.co/spaces/osunlp/Online_Mind2Web_Leaderboard – 130 long-horizon, real-time browsing tasks with an Agent-as-a-Judge framework. Mind2Web 2 https://osu-nlp-group.github.io/Mind2Web-2/ WebArena – Self-hosted “mini-web” de sites de mock realistas com um benchmark para tarefas funcionais completion.https://webarena.dev/ – AGI, Inc.’s “mini-Internet” of replicated major sites with programmatic rewards and rubric-based judging. REAL Bench (REAL) Blog post: https://www.theagi.company/blog/introducing-real-bench Leaderboard / evals: https://www.realevals.xyz – 5,570 tasks across 452 high-traffic live sites; Halluminate’s large-scale browser-agent benchmark. GitHub: Web Bench https://github.com/Halluminate/WebBench Westworld – Suite de simuladores de navegador altamente realistas com recompensas verificáveis para benchmarking de agentes da web.Post no Blog:https://halluminate.ai/blog/westworld WebVoyager – Benchmark de tarefas em sites dinâmicos ao vivo para agentes de navegação web de ponta a ponta.https://arxiv.org/abs/2401.13919 WARC-Bench – Benchmark baseado em arquivos da Web de 438 subtarefas GUI em páginas web arquivadas dinâmicas e realistas (via arquivos Web ARChive).https://arxiv.org/abs/2510.09872 Layer 3 – Full computer / multi-app use – 369 multimodal computer-use tasks on real Ubuntu / Windows / macOS apps and file I/O. Site: OSWorld https://os-world.github.io – Efficiency-focused extensions with human trajectories and cleaned harnesses. OSWorld-Human: OSWorld-Human / OSWorld-Verified https://mlsys.wuklab.io/posts/oshuman/ – Theta’s cross-vertical benchmark for long-horizon desktop + browser workflows (“Humanity’s Last Exam for Computer and Browser Use Agents”). CUB (Computer Use Benchmark) Blog post: https://thetasoftware.com/blog/introducing-cub/ Announcement: https://x.com/trytheta/status/1923169553497866568 SCUBA (Salesforce Computer Use Benchmark) – ~300 fluxos de trabalho do Salesforce CRM em administração / vendas / pessoas de serviço em ambientes de sandbox: https://sfrcua.github.io/SCUBA/ Critérios de referência de agente geral/cross-layer mencionados GAIA – Benchmark para Assistentes Gerais de IA (450 perguntas do mundo real em três níveis de dificuldade que requerem ferramentas, navegação e raciocínio multimodal): https://arxiv.org/abs/2311.12983 Post do blog de Ben Anderson “Evals usados por computador são uma bagunça” https://benanderson.work/blog/computer-use-benchmarks/ Disclaimer: I am currently working at Theta