நீங்கள் "Computer-use agents" பார்த்தால், நீங்கள் இரண்டு உண்மைகளை கவனிக்கிறீர்கள்: ஒவ்வொரு புதிய மாதிரி ஏதாவது "SOTA" ஆகும். இரண்டாவது, இத்தகைய எண்ணிக்கைகள் எத்தனையோ இடம்பெறவில்லை. , , , , , , , , மேலும் 10 கோடி ரூபாய் விற்பனையாளர்கள் OSWorld CUB, Web Bench Westworld REAL Mind2Web ScreenSpot GroundUI Showdown-Clicks WebClick முன்பே ஏற்றப்பட்ட (preloaded) Multi-Turbo மற்றும் Ultra Game Mode ஆகியவை உள்ளன. This post is an attempt to put the current ecosystem into one coherent picture: என்ன அங்கே உள்ளன, எவ்வாறு விகிதங்கள் வேறுபடுகின்றன, and where this all is going. “Computer-Use” என்ற மூன்று அம்சங்கள் ஒவ்வொரு "Computer-use" benchmark ஒவ்வொரு மூன்று வகையான ஒன்றில் நுழைகிறது: 1. – Screenshots இருந்து interface elements கண்டுபிடிப்பு மற்றும் அடையாளம் Low-level UI grounding 2. – Multi-step task completion within browser environments – உலாவியில் பல்வேறு நடவடிக்கைகள் Web task execution 3. – Complete operating systems இல் cross-application workflows Full OS / multi-app computer use 1 - பூஜை - Grounding இந்த benchmarks ஒரு screenshot மற்றும் ஒரு வசதி எடுத்து மற்றும் மாதிரி சரியான இடத்தில் (பிக்ஸல், கட்டிடம், அல்லது UI அம்சத்தைக் குறிக்க வேண்டும்). Core examples include the இதன் மூலம் GUI இன் அடிப்படை வேலைநிறுத்தம் அதிகரிக்கும்.The original Web, Mobile மற்றும் Desktop UI ஆகியவை எழுத்துக்களை சுத்தம் செய்யவும்; ஆங்கிலத்தில் இதை Single Orgasm, Multiple Orgasm என்றும் கூறுகிறார்கள். ScreenSpot family ScreenSpot ScreenSpot-v2 ScreenSpot-Pro மாறாக மாறாக மாறாக மாறாக மாறாக மாறாக மாற , , மற்றும் நண்பர்கள் ஒரு ~18k-example multi-platform data set, plus ஒரு standard 1k-example eval subset. GroundUI ScreenSpot Mind2Web OmniACT ஒரு macOS desktop environment இல் வேலை செய்பவர்களின் 5,679 மனித கிளிக்களை வழங்குகிறது, click-prediction benchmark ஆக பயன்படுத்தப்படுகிறது. Showdown-Clicks அப்போது இருந்து Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 / Holo1 WebClick H நிறுவனம் நீங்கள் ஒரு ஆண்டின் "கண்"களை பயிற்சி செய்கிறீர்களானால் (Screens and pick widgets can be read by a Vision-Language Model), benchmark இங்கே உள்ளது. / / / எண்கள் ScreenSpot ScreenSpot-Pro GroundUI Showdown-Clicks Layer 2 - Web-Based Agents - வலைப்பதிவர்கள் இங்கே, அதிகாரி ஒரு உண்மையான உலாவி (அல்லது ஒரு உயர் நம்பிக்கை சமாளிப்பாளர்) பெறுகிறது மற்றும் "காலையில், நியூயார்க் நகரில் $ 250 கீழ் ஒரு ஹோட்டல் பெறுங்கள்" அல்லது "இந்த தயாரிப்புக்கான திரும்பக் கொள்கை கண்டுபிடிக்க மற்றும் என் சமீபத்திய பொருளின் ஒரு திரும்பக் கேள்வியை செய்ய வேண்டும்." உன் இந்நிகழ்ச்சியில், 2350 வேலைகள் 137 உண்மையான வலைத்தளங்களில் மற்றும் 31 டொமைன்களில் உள்ளன. இது உண்மையான வலைத்தளங்களில் 300 வேலைகள், சரியான, செலவு மற்றும் செயல்பாடுகளைக் கண்காணிக்கும் ஒரு தலைப்பு அட்டவணை. இதனை 130 நீண்ட வடிவமைப்பு, ஆராய்ச்சி வடிவமைப்பு தேடல் வேலைகள் மூலம் நீட்டிக்கிறது மற்றும் பதில் சரியானது மற்றும் ஒப்புதல்க்கு "அணியாளர்-ஆக-ஆக-ஆக-ஆக-ஆக-ஆக-ஆக" சேர்க்கப்படுகிறது. Mind2Web Online Mind2Web Mind2Web 2 takes a different approach: it's a self-hosted web environment built from realistic mock sites (e-commerce, forums, GitLab-style repos, CMS, etc.) with hundreds of tasks that mimic everyday web tasks. இருந்து Amazon மற்றும் DoorDash போன்ற பெரிய தளங்களில் 112 வேலைகளை வழங்குகிறது, "நீங்கள் சரியான தகவல் கிடைத்ததா?" மற்றும் "நீங்கள் சரியான நடவடிக்கைகளை எடுத்தீர்களா?" WebArena REAL இராமன் Inc. இருந்து Scale பற்றிய கருத்துக்கள்: 452 உண்மையான இடங்களில் 5,750 வேலைகள், is a much smaller suite of realistic browser synthetic simulators with verifiable rewards. Web Bench & Westworld ஹெலிகாப்டர் Web Bench Westworld இறுதியாக 15 பிரபலமான நேரடி வலைத்தளங்களில் நிர்வகிக்கப்பட்ட வேலைகள், மேலும் Open-End behavior judgment செய்ய GPT-4V பயன்படுத்தி ஒரு தானியங்கி மதிப்பீடு விதிமுறை. WebVoyager ஒரு முதியவன் பாதாளங்களைத் தாண்டும் தன் மந்திரக்கோலால் சாய்த்தபடியிருக்கிறான் நாட்சத்திரங்களை. .............................................................................................................................................................................. இது எத்தனையாவது [...] படி 3 - முழுமையான கணினி பயன்பாடு The final layer gives the agent a full OS: multiple apps, file system, copy-paste, etc. இதில், உண்மையான Ubuntu / Windows / macOS கணினிகளில் 369 வேலைகள், உலாவிகள், அலுவலகம் பயன்பாடுகள், கோப்பு விசாரிப்பாளர்கள், IDEs, மின்னஞ்சல், மென்பொருள் வீரர்கள், மற்றும் மேலும் உள்ளன. • The Extensions வழங்கும் ஒரு சுத்தமான கையெழுத்து சேர்க்கும் மனித வழிகள் அனைத்து வேலைகள், நீங்கள் அணுகுமுறை வெற்றிகரமாக இருந்தால் மட்டுமே அல்ல, ஆனால் எத்தனை படிகள் மற்றும் எவ்வளவு நேரம் அது எரிகிறது மனிதர்களை விட. OSWorld மனிதர்கள் ~ 72% வெற்றியை அடைந்தனர்; முதல் சிறந்த ஆதாரங்கள் சுமார் 12% இருந்தன OSWorld-Verified & OSWorld-Human இருந்து இது A ஆங்கிலத்தில் இதை Single Orgasm, Multiple Orgasm என்றும் கூறுகிறார்கள். காண்பித்து leaderboard scores alongside numbers from , a general AI agent benchmark with a few browser workflows என்பதால் CUB (Computer Use Benchmark) டாக்டர் cross vertical benchmark உச்சரிப்பு கையெழுத்து AI CUB GAIA இந்த மாதிரி think different type விளம்பரங்கள் தான் add industriesla இப்போ Hot... SCUBA ஒரு முதியவன் பாதாளங்களைத் தாண்டும் தன் மந்திரக்கோலால் சாய்த்தபடியிருக்கிறான் நாட்சத்திரங்களை. .............................................................................................................................................................................. இது எத்தனையாவது [...] இந்த மாதிரி think different type விளம்பரங்கள் தான் add industriesla இப்போ Hot... Low Double-digit Success Rate விகிதம் ஹோட்டல் > Model BEN ANDERSON இல் ஒரு brutal but fair point: a lot of "SOTA" is actually prompt engineering plus scaffolding. Computer-Use Evalus பற்றிய தகவல்கள் பிரபலமான benchmark முதன்மையான பதிவுகள் பதிவுகள் . Showdown-Clicks ~20% சரியானது ஒரு பெரிய off-the-shelf மாதிரி while small finetuned models get ~70-80% இதனை பென் ஆனால், அவர் ஒரு மிக எளிதான "click-only" XML மாற்றத்தைப் பெறுகிறார். அதே சமயத்தில் சரியாக அதே சான்றிதழ் மீது சுமார் 50% வரை போடுங்கள். இதோ பெரும்பாலான சிறிய மாடலாக இருந்தாலும் 250% அளவு உயர்வுக்காக பயன்படுத்தப்பட்ட Short Prompt Ben: Qwen 72B வடிவமைப்பு 3B Qwen மாதிரி Determine where to click in the UI to complete the instruction/task. Report the click location in XML like '<points x1="x" y1="y">click</points>.' Image size [{w}, {h}], (0, 0) is the top-left and ({w}, {h}) is the bottom-right. [IMAGE] {instruction} அப்படிப்பட்ட தகவல்கள் மற்ற இடங்களில் காணப்படுகின்றன. uses its own harness and reward functions for information and action tasks. அவரது கண்காணிப்புத் திறனைத் தவிர்க்க வேண்டும் என்று கூறுகிறார். -Style scores are not directly comparable to DOM-based agents (DOM அடிப்படையிலான ஆக்கிரமிப்புகள்) REAL ScreenSuite Mind2Web For computer-use benchmarks today, a sizeable chunk of the performance gap you see on leaderboards is harness (prompts, tools, termination rules, retries, judges), not model weights. If you're comparing numbers across papers without looking at scaffolding, you're mostly reading marketing. "Anchor" Benchmarks என்ற சிறிய தொகுப்புக்கு மாறுபடுதல் ஆங்கிலத்தில் இதை Single Orgasm, Multiple Orgasm என்றும் கூறுகிறார்கள். (including Pro), , மற்றும் ஆங்கிலத்தில் இதை Single Orgasm, Multiple Orgasm என்றும் கூறுகிறார்கள். (offline + online + v2) மேலும் மற்றும் ஒரு / . For the OS layer: (மனிதன் மற்றும் மனிதன் ஆகியவற்றின் விளைவுகளைக் காணலாம்) மற்றும் . On top of that, Hugging Face இல் இருந்து Hugging Face இல் இருந்து Hugging Face இல் இருந்து Hugging Face இல் Hugging Face இல் இருந்து Hugging Face இல் Hugging Face இல் Hugging Face இல் Hugging Face இல் Hugging Face இல் Hugging Face இல் Hugging Face இல் Hugging Face இல் Hugging Face இல் Hugging Face இல் Hugging. ScreenSpot GroundUI WebClick Showdown-Clicks Mind2Web WebArena Web Bench WebVoyager OSWorld CUB SCUBA ScreenSuite Any "computer-use agent" release is normally expected to report 1–2 grounding scores ( , , , 2 வது வகுப்பு ( , , 1 - 2 கிலோமீட்டர் ( , , ). ScreenSpot-v2/Pro GroundUI WebClick Showdown-Clicks Online Mind2Web, Web Bench REAL Westworld OSWorld-Verified CUB SCUBA The shift from measurement to production முதன்முதலாக, “Success or Failure” என்று அழைக்கப்படுகிறார்கள். இளைஞர்கள் கூட கவனித்துக் கொள்வார்கள் ஒரு முதியவன் பாதாளங்களைத் தாண்டும் தன் மந்திரக்கோலால் சாய்த்தபடியிருக்கிறான் நாட்சத்திரங்களை. .............................................................................................................................................................................. இது எத்தனையாவது [...] tracks the metric of cost (API spend) and reliability across runs. exposes multiple reward functions and emphasizes robustness across different scaffolds. The scoreboard is moving from single numbers ("accuracy") to profiles (“capability”, “reliability”, “cost”, “latency”). OSWorld-Human 1.4 – 2.7 × Online Mind2Web REAL கொழும்பில் நடைபெற்ற LankaPay Technnovation விருதுகள் வழங்கும் நிகழ்வில், ‘The Best Common ATM Acquirer of the year - Category C’ என்ற பிரிவில் DFCC வங்கி வெற்றியாளராக தெரிவானது. இருந்து have been publicized. In a recent blog, the lab shared ஆங்கிலத்தில் இதை Single Orgasm, Multiple Orgasm என்றும் கூறுகிறார்கள். புதிய Act Amazon AGI’s SF lab customer stories எங்கே ‘பார்பில்’ என்று பெயரிடுகிறார்கள்? இருந்து ஒரு கணினியைப் பற்றி எழுதுபவர் ஒருவர் தான். மற்றும் மூன்றாவது இடத்திலேயே விழுந்துவிடும். UI-TARS மாற்று ScreenSpot-Pro OSWorld H Company specializes in grounding and shows results on , , , , and its very own Benchmark க்கு ScreenSpot-v2 ScreenSpot-Pro GroundUI-Web Showdown-Clicks WebClick AGI, Inc. தங்கள் சொந்த வலை மற்றும் OS layers மூலம் கவனிக்கிறது and the established leaderboards. REAL OSWorld Theta, OS மற்றும் browser layer இல் செயல்படுகிறது . CUB Benchmarks doubled as go-to-market channels விற்பனையாளர்கள் Many of these benchmarks also act as distribution and data engines. AGI, Inc. built பிறகு ஒரு Plus agents around it; being "#1 on REAL" is both a research claim and a funnel into their product. “Humanity’s Last Examination for Computer Use Agents” என்று அழைக்கப்படுகிறது. and as both benchmarks and infrastructure for running browser agents at scale. REAL SDK CUB Westworld Web Bench ஆங்கிலத்தில் இதை Single Orgasm, Multiple Orgasm என்றும் கூறுகிறார்கள். The shift from live sites to synthetic sandboxes (உலக வலைத்தளங்களில் இருந்து synthetic sandboxes வரை) பல first-wave web benchmarks நேரடியாக நேரடி தளங்களில் பணியாளர்களை மதிப்பிட்டன. and உண்மையான, மாற்றப்பட்ட வலைத்தளங்களில் 100 க்கும் மேற்பட்ட பிரபலமான தளங்களில் வேலைகளை இயக்கவும். மற்றும் similarly use tasks on real websites like Amazon, Apple, Google Flights and hundreds of other high-traffic domains. This gives realism, but makes evaluation brittle: sites change, DOMs drift, and reliable automatic reward signals are hard to maintain at scale. In practice, large-scale parallel evaluation can run into rate limits or website terms-of-service constraints. Mind2Web Online Mind2Web WebVoyager Web Bench புதிய மாற்றங்கள் உள்ளடக்கமான, திட்டமிடப்பட்ட பரிசுகள் கொண்ட உயர் நம்பகமான synthetic environments ஆகும். ஆங்கிலத்தில் இதை Single Orgasm, Multiple Orgasm என்றும் கூறுகிறார்கள். "Humanity's Last Exam for Computer and Browser Usage Agents" என்று அழைக்கப்படுகின்றது. (from AGI, Inc.) builds deterministic replicas of 11 widely used websites and evaluates agents via programmatic state checks plus rubric-based judgment. இந்த மாதிரி think different type விளம்பரங்கள் தான் add industriesla இப்போ Hot... ஆங்கிலத்தில் இதை Single Orgasm, Multiple Orgasm என்றும் கூறுகிறார்கள். இவர்கள் தங்கள் வலைத்தளங்களில் பயன்படுத்தப்பட்டனர் மற்றும் அவர்கள் தனியார் synthetic sites செய்கிறார்கள். அவருடைய முந்தைய பதிவில், மேலும், goes further by with programmatic reward functions. WebArena CUB REAL Westworld Web Bench Web Bench Westworld WARC-Bench dynamic, realistic webpages in interactive Web ARCHive கோப்புகளை எழுத Topics: ஏகத்துவத்தைக் கொண்டே பிரச்சாரத்தை ஆரம்பிக்க வேண்டும் and தாயத்து கட்டுவது ஷிர்க்கை சார்ந்தது Begin propagation with Monotheism, and Using amulets is Shirk Speaker: மவ்லவி கே.எம். ஆனால், இந்த sandboxes stable task, accurate ground truth, and safe, massively parallel evaluation வழங்கும். for example by comparing Westworld-style simulators with tasks on real Google Flights Given this, the trajectory is clear: live-web benchmarks remain essential for checking real-world performance, but the center of gravity for day-to-day agent evaluation is moving toward realistic, instrumented sandboxes with explicit reward functions and full observability. Especially as there is a shift towards private websites for enterprise use cases. நீங்கள் ஒரு படைப்பாளியாக இருந்தால் இதை எப்படி பயன்படுத்துவது நீங்கள் ஒரு அதிகாரி அனுப்ப முயற்சித்தால், இங்கே ஒரு pragmatic checklist உள்ளது. ஒரு முதியவன் பாதாளங்களைத் தாண்டும் தன் மந்திரக்கோலால் சாய்த்தபடியிருக்கிறான் நாட்சத்திரங்களை. .............................................................................................................................................................................. இது எத்தனையாவது [...] நீங்கள் ஒரு GUI-aware மாதிரி உருவாக்கினால் Your priorities should be to train on + வலது + style data, then report on / / / / நன்றாகவே வழியாக உங்களுடைய bio-data, or personal information தெரிந்து இருந்தால் போதுமானது. ScreenSpot GroundUI WebClick ScreenSpot-v2 ScreenSpot-Pro GroundUI-1K WebClick Showdown-Clicks ScreenSuite If you're building a web agent முதலில் (offline) to debug basic behavior. அங்கு செல்லவும் + வலது செலவுகள் மற்றும் விவசாயிகளின் விலையைப் பொறுத்தவரை, கவனியுங்கள். ( real web, wide coverage) மற்றும் / (self-hosted, simulated but realistic environments) once you care about distribution shift and robustness. Your north star becomes: success rate and reliability and cost per task. Mind2Web Online Mind2Web REAL Web Bench WebArena Westworld நீங்கள் ஒரு முழுமையான "computer-use agent" உருவாக்கினால் Use அறிவியல் அறிவியல் அறிவியல் அறிவியல் அறிவியல் to understand where you're much slower or more brittle than humans. If you're selling into enterprises, consider இவ்வாறான vertical benchmarks . OSWorld-Verified OSWorld-Human CUB SCUBA The benchmarks are maturing faster than the agents, but they're still broken A year ago, "computer-use" benchmarks were fragmented. Today we have a more complete benchmark stack. Grounding benchmarks that stress-test vision models on every UI imaginable. Web benchmarks spanning thousands of real sites. OS benchmarks that replicate actual knowledge work. The best agents still struggle. Low success rates on இதன் விளைவாக, 2 மில்லியன் டொலர்கள், 2 மில்லியன் டொலர்கள், 2 மில்லியன் டொலர்கள், 2 மில்லியன் டொலர்கள், 2 மில்லியன் டொலர்கள், 2 மில்லியன் டொலர்கள், 2 மில்லியன் டொலர்கள், 2 மில்லியன் டொலர்கள், 2 மில்லியன் டொலர்கள், 3 மில்லியன் டொலர்கள், 3 மில்லியன் டொலர்கள் ஆகியவை உள்ளன. OSWorld ஒரு முதியவன் பாதாளங்களைத் தாண்டும் தன் மந்திரக்கோலால் சாய்த்தபடியிருக்கிறான் நாட்சத்திரங்களை. .............................................................................................................................................................................. இது எத்தனையாவது [...] Chaos is starting to resolve சுற்றுச்சூழல் / for grounding, / WEB வேலைகள் மற்றும் / இந்த மாதிரி think different type விளம்பரங்கள் தான் add industriesla இப்போ Hot... ScreenSpot GroundUI Mind2Web REAL OSWorld CUB ஒரு முதியவன் பாதாளங்களைத் தாண்டும் தன் மந்திரக்கோலால் சாய்த்தபடியிருக்கிறான் நாட்சத்திரங்களை. .............................................................................................................................................................................. இது எத்தனையாவது [...] Reference செய்திகள் 1 - பூஜை - பூஜை ScreenSpot– Original multi-platform GUI grounding benchmark ( மொபைல், desktop, வலை).https://llm-stats.com/benchmarks/screenspot – Updated GUI grounding benchmark with cleaner labels and broader coverage. ScreenSpot-v2 https://huggingface.co/datasets/Voxel51/ScreenSpot-v2 ScreenSpot-Pro– High-resolution professional GUI grounding benchmark (23 apps, 5 industries, 3 OSes).https://arxiv.org/abs/2504.07981 GroundUI / GroundUI-1K– 1K eval subset.Project / dataset:https://huggingface.co/datasets/agent-studio/GroundUI-1K – 5,679 human clicks from macOS desktop tasks for click prediction and low-level control. Showdown-Clicks https://huggingface.co/datasets/generalagents/showdown-clicks – 1,600+ web screenshots with “click here” labels; H Company’s benchmark for web localizers. WebClick https://huggingface.co/datasets/Hcompany/WebClick ScreenSuite– ஹெக்ஸிங் Face’s umbrella GUI-agent benchmarking harness covering perception + single/multi-step tasks.https://github.com/huggingface/screensuite Layer 2 – Web-based agents – 2,350 tasks across 137 real websites and 31 domains with action sequences. Mind2Web (offline) https://osu-nlp-group.github.io/Mind2Web/ ஆன்லைன் Mind2Web– 136 நேரடி வலைத்தளங்களில் 300 வேலைகள்; உண்மையான தளங்களில் வலை அலுவலர்களுக்கான பொது இடங்கள்.https://huggingface.co/spaces/osunlp/Online_Mind2Web_Leaderboard Mind2Web 2– ஒரு Agent-as-a-Judge framework.https://osu-nlp-group.github.io/Mind2Web-2/ WebArena – Self-hosted “mini-web” of realistic mock sites with a benchmark for functional task completion.https://webarena.dev/ – AGI, Inc.’s “mini-Internet” of replicated major sites with programmatic rewards and rubric-based judging. REAL Bench (REAL) Blog post: https://www.theagi.company/blog/introducing-real-bench Leaderboard / evals: https://www.realevals.xyz Web Bench– 452 உயர் பயண நேரடி தளங்களில் 5,570 வேலைகள்; Halluminate இன் பெரிய அளவிலான உலாவி-அக்டோபர் benchmark.GitHub:https://github.com/Halluminate/WebBench ஹைதராபாத் – மிகவும் உண்மையான உலாவி சமாளிப்பாளர்கள் உலாவி-ஆக்டர் benchmarking.Blog post:https://halluminate.ai/blog/westworld – Benchmark of tasks on dynamic live websites for end-to-end web navigation agents. WebVoyager https://arxiv.org/abs/2401.13919 WARC-Bench – Web-archive-based benchmark of 438 GUI subtasks on dynamic, realistic archived webpages (via Web ARChive files).https://arxiv.org/abs/2510.09872 Layer 3 – Full computer / multi-app use – முழு கணினி / பல்வேறு பயன்பாடுகள் OSWorld– உண்மையான Ubuntu / Windows / macOS பயன்பாடுகள் மற்றும் கோப்பு I/O.Site:https://os-world.github.io OSWorld-Human / OSWorld-Verified– மனித பயணங்கள் மற்றும் சுத்தமான ஹெரான்ஸ் கொண்ட செயல்திறன் அடிப்படையான நீட்சிகள்.OSWorld-Human:https://mlsys.wuklab.io/posts/oshuman/ – Theta’s cross-vertical benchmark for long-horizon desktop + browser workflows (“Humanity’s Last Exam for Computer and Browser Use Agents”). CUB (Computer Use Benchmark) Blog post: https://thetasoftware.com/blog/introducing-cub/ Announcement: https://x.com/trytheta/status/1923169553497866568 SCUBA (Salesforce Computer Use Benchmark) - விற்பனையாளர் / விற்பனையாளர் / சேவை personas இடையே 300 Salesforce CRM Workflows in sandbox environments: https://sfrcua.github.io/SCUBA/ Cross-layer / general agent benchmarks mentioned GAIA – General AI Assistants (450 real-world questions across three difficulty levels requiring tools, browsing, and multimodal reasoning): https://arxiv.org/abs/2311.12983 Ben Anderson’s blog post “Computer-Use Evals are a Mess” (நான் கணினி பயன்படுத்தும் Evals ஒரு மோசமாக உள்ளன) https://benanderson.work/blog/computer-use-benchmarks/ Disclaimer: I am currently working at Theta