หากคุณได้เห็น "ตัวแทนการใช้คอมพิวเตอร์" คุณได้สังเกตเห็นสองข้อเท็จจริง: 1. ทุกรุ่นใหม่เป็น "SOTA" ในบางสิ่งบางอย่าง 2. เกือบไม่มีตัวเลขเหล่านี้อยู่ในแถว , , , , , , , , ...รวมถึงตารางผู้นําที่ขับเคลื่อนโดยผู้ขาย OSWorld CUB, Web Bench Westworld REAL Mind2Web ScreenSpot GroundUI Showdown-Clicks WebClick มันรู้สึกมากขึ้นและมากขึ้นเหมือนเฟรมเว็บแรก ตัวเลือกมากเกินไปและไม่เพียงพอทิศทาง โพสต์นี้เป็นความพยายามที่จะนําระบบนิเวศปัจจุบันลงในภาพที่สอดคล้องกัน: สิ่งที่อยู่ข้างนอกวิธีที่คะแนนแบนด์วิดจ์แตกต่างกันและสิ่งที่ทั้งหมดนี้จะไป สามชั้นของ "ใช้คอมพิวเตอร์" เกือบทุก "การใช้คอมพิวเตอร์" benchmark อยู่ในหนึ่งในสามชั้น: 1. – ค้นหาและระบุองค์ประกอบของอินเตอร์เฟซจากภาพหน้าจอ Low-level UI grounding 2. – Multi-step task completion within browser environments Web task execution 3. – กระบวนการทํางานระหว่างแอพพลิเคชันบนระบบปฏิบัติการที่สมบูรณ์ Full OS / multi-app computer use Layer 1 - UI Grounding เคล็ดลับเหล่านี้จะถ่ายภาพหน้าจอและคําแนะนําและขอให้รุ่นชี้ไปที่สถานที่ที่เหมาะสม (พิกเซลกล่องหรือองค์ประกอบ UI) ตัวอย่างหลัก ได้แก่ , ซึ่งทําหน้าที่เป็นม้าทํางานของพื้นฐาน GUI ครอบคลุมอินเตอร์เฟซเว็บมือถือและเดสก์ท็อป ทําความสะอาดฉลาก เป้าหมายการใช้งานระดับมืออาชีพความละเอียดสูงในหลายอุตสาหกรรมและระบบปฏิบัติการ ScreenSpot family ScreenSpot ScreenSpot-v2 ScreenSpot-Pro ใช้วิธีการที่แตกต่างกันโดยการ mashing up , , และเพื่อนเข้าสู่ชุดข้อมูลหลายแพลตฟอร์ม ~18k ตัวอย่างรวมถึงชุดขั้นตอนขั้นตอนมาตรฐาน 1k ตัวอย่าง GroundUI ScreenSpot Mind2Web OmniACT มี 5679 คลิกของมนุษย์จากผู้ที่ทํางานในสภาพแวดล้อม macOS desktop ซึ่งใช้เป็นมาตรฐานการคาดการณ์คลิก Showdown-Clicks Meanwhile, จาก ให้ภาพหน้าจอเว็บมากกว่า 1,600 รูปแบบพร้อมฉลาก "คลิกที่นี่" ซึ่งใช้โดย Holo1/Holo1.5 เพื่อแสดงให้เห็นถึงการตั้งถิ่นฐาน UI แบบขนาดเล็ก WebClick H Company หากคุณกําลังฝึกอบรม "ตา" ของตัวแทน (รุ่น Vision-Language ที่สามารถอ่านหน้าจอและเลือกวิดเจ็ต) มาตรฐานคือที่นี่ เกือบทุกกระดาษตัวแทน GUI ตอนนี้รายงาน / ชีวิต / / ชีวิต หมายเลข ScreenSpot ScreenSpot-Pro GroundUI Showdown-Clicks Layer 2 – Web-based agents ที่นี่ตัวแทนจะได้รับเบราว์เซอร์จริง (หรือเครื่องจําลองความไว้วางใจสูง) และต้องเสร็จสิ้นงานเช่น "ในช่วงฤดูร้อนจองโรงแรมในเมืองนิวยอร์กต่ํากว่า $ 250" หรือ "หานโยบายการคืนเงินสําหรับผลิตภัณฑ์นี้และทําคําขอคืนสินค้าล่าสุดของฉัน" โซ ครอบครัวครอบงําพื้นที่นี้ ชุดข้อมูลแบบออฟไลน์ประกอบด้วย 2 350 งานใน 137 เว็บไซต์จริงและ 31 Domains พร้อมลําดับการกระทํา เป็นสอดคล้องกับสด: 300 งานใน 136 เว็บไซต์จริงที่มีการแสดงผลที่ติดตามความถูกต้องค่าใช้จ่ายและเรียกใช้ ขยายเรื่องนี้ด้วย 130 งานค้นหาในรูปแบบการวิจัยระยะยาวและเพิ่ม "ตัวแทนเป็นผู้พิจารณา" สําหรับความถูกต้องของคําตอบและคํานึงถึง Mind2Web Online Mind2Web Mind2Web 2 ใช้วิธีการที่แตกต่างกัน: มันเป็นสภาพแวดล้อมเว็บโฮสติ้งด้วยตนเองที่สร้างขึ้นจากเว็บไซต์ปลอมแบบจริง (อีคอมเมิร์ซฟอรั่ม repos สไตล์ GitLab CMS ฯลฯ ) กับงานหลายร้อยงานที่จําลองงานเว็บประจําวัน จาก มี 112 ภารกิจในซ้ําของเว็บไซต์หลักเช่น Amazon และ DoorDash พร้อมฟังก์ชั่นรางวัลแยกต่างหากสําหรับ "คุณได้รับข้อมูลที่ถูกต้องหรือไม่" และ "คุณได้ดําเนินการอย่างถูกต้องหรือไม่" WebArena REAL เอกชน, Inc จาก แรงมุ่งเน้นในระดับ: คือ 5,750 งานใน 452 เว็บไซต์จริง is a much smaller suite of realistic browser synthetic simulators with verifiable rewards. Web Bench & Westworld อัลลูมิเนียม Web Bench Westworld สุดท้าย งานที่กําหนดไว้ใน 15 เว็บไซต์สดยอดนิยมรวมถึงโปรโตคอลการประเมินอัตโนมัติโดยใช้ GPT-4V เพื่อประเมินพฤติกรรมแบบเปิด WebVoyager ตัวแทนบนเว็บได้เติบโตขึ้นในความนิยมสําหรับสัญญาของพวกเขาในการอัตโนมัติงานเนื่องจากพื้นที่การกระทําจะเล็กกว่าชั้นต่อไปใช้คอมพิวเตอร์ระบบปฏิบัติการเต็มรูปแบบ ตัวแทนส่วนใหญ่เฉพาะบนเว็บอ้างอิงที่นี่และจากนั้นปรับระดับถึงมาตรฐานระดับระบบปฏิบัติการ Layer 3 – Full computer use ชั้นสุดท้ายให้ตัวแทนระบบปฏิบัติการเต็มรูปแบบ: แอปพลิเคชันหลายระบบไฟล์ copy-paste ฯลฯ มี 369 งานบนเครื่อง Ubuntu / Windows / macOS จริงซึ่งครอบคลุมเบราว์เซอร์แอปพลิเคชัน Office, เครื่องสํารวจไฟล์, IDEs, อีเมล, เครื่องเล่นสื่อและอื่น ๆ การ extensions provide a cleaned-up harness plus human trajectories for all tasks, which let you measure not just if the agent succeeds but how many steps and how much time it burns compared to humans. OSWorld คนประสบความสําเร็จ ~ 72%; ตัวแทนที่ดีที่สุดครั้งแรกเป็นประมาณ 12% OSWorld-Verified & OSWorld-Human from เป็น a for long-horizon desktop + browser workflows. Leading AI agent companies like display the leaderboard คะแนนพร้อมกับตัวเลขจาก , benchmark ตัวแทนอัจฉริยะทั่วไปที่มีการทํางานของเบราว์เซอร์ไม่กี่ขั้นตอน CUB (Computer Use Benchmark) โซฟา benchmark ข้ามแนวตั้ง คู่มือ AI CUB GAIA จาก Salesforce ใช้วิธีการที่แตกต่างกัน: มันเป็น benchmark Salesforce ภายในที่สร้างขึ้นจาก ~ 300 กระบวนการทํางาน CRM จริงที่ครอบคลุมงานผู้ดูแลระบบการขายและการบริการ วิธีการของพวกเขาคือการดู SaaS องค์กรที่แนวนอนอย่างลึกซึ้งของ benchmark SCUBA This final layer feels closest to an agent acting as a knowledge worker to the fullest. Accordingly, it is also the most difficult layer by far. Agents often perform poorly on these benchmarks (often ) เนื่องจากสภาพแวดล้อมที่หลากหลายและกรณีขอบในสภาพแวดล้อมระบบปฏิบัติการเต็มรูปแบบ อัตราความสําเร็จสองตัวเลขต่ํา Harness > แบบ Ben Anderson's ทําให้จุดที่รุนแรง แต่เป็นธรรม: มากของ "SOTA" ในความเป็นจริงคือการวิศวกรรมอย่างรวดเร็วรวมถึงการขุดเจาะ โพสต์เกี่ยวกับการใช้คอมพิวเตอร์ evals ใน benchmark ที่นิยม ตัวอย่างเช่นรายงานกระดาษเดิม . Showdown-Clicks ความแม่นยํา ~20% สําหรับโมเดลขนาดใหญ่นอกชั้นในขณะที่โมเดลขนาดเล็กสําเร็จรูป ~70-80% Ben พบว่า ได้รับคะแนนเพียง ~20% แต่จากนั้นเขาแลกเปลี่ยนในคําแนะนํา XML "เพียงคลิก" ที่เรียบง่ายขึ้นและเห็น เก็บลงไปประมาณ 50% บนมาตรฐานเดียวกันอย่างแน่นอน นี่คือตัวอักษรสั้น Ben ที่ใช้สําหรับการเพิ่มคะแนน 250% แม้จะมีรุ่นที่เล็กกว่ามาก: รุ่น 72B ของ Qwen รูปแบบ 3B Qwen Determine where to click in the UI to complete the instruction/task. Report the click location in XML like '<points x1="x" y1="y">click</points>.' Image size [{w}, {h}], (0, 0) is the top-left and ({w}, {h}) is the bottom-right. [IMAGE] {instruction} Similar stories show up elsewhere. ใช้ฟังก์ชั่นเชือกและรางวัลของตัวเองสําหรับงานข้อมูลและการกระทํา explicitly warns that its vision-only setup means -คะแนนสไตล์ไม่สามารถเปรียบเทียบได้โดยตรงกับตัวแทนที่ใช้ DOM REAL ScreenSuite Mind2Web สําหรับ benchmarks การใช้คอมพิวเตอร์ในวันนี้ส่วนใหญ่ของความแตกต่างในการทํางานที่คุณเห็นในผู้นําบอร์ดคือการยึดติด (เครื่องมือ, กฎการสิ้นสุด, retries, judges) ไม่ใช่น้ําหนักรูปแบบ หากคุณเปรียบเทียบตัวเลขผ่านกระดาษโดยไม่มองไปที่การยึดติดคุณส่วนใหญ่กําลังอ่านการตลาด การเชื่อมโยงไปยังชุดขนาดเล็กของ "Anchor" benchmarks แม้จะมีความโหดร้ายคุณสามารถเห็นได้แล้วว่าสนามมาตรฐานขึ้นอยู่กับกางเกงยึดหลายชั้น สําหรับชั้นพื้นดิน: (including Pro), , และ สําหรับ web layer: trio ของ (ออฟไลน์ + ออนไลน์ + v2) และหนึ่งใน / ชีวิต . For the OS layer: (รวมถึงตัวแปรที่ผ่านการตรวจสอบและมนุษย์) และ ในด้านบนของสิ่งนี้ จาก Hugging Face ทํางานเป็นหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้มหุ้ม ScreenSpot GroundUI WebClick Showdown-Clicks Mind2Web WebArena Web Bench WebVoyager OSWorld CUB SCUBA ScreenSuite การเปิดตัว "ตัวแทนการใช้คอมพิวเตอร์" โดยปกติจะคาดว่าจะรายงานคะแนนพื้นฐาน 1-2 ( , , , ), 1–2 คะแนนเว็บ ( , , ), and 1–2 OS scores ( , , ) ScreenSpot-v2/Pro GroundUI WebClick Showdown-Clicks Online Mind2Web, Web Bench REAL Westworld OSWorld-Verified CUB SCUBA การเปลี่ยนแปลงจากการวัดไปสู่การผลิต มาตรฐานขั้นต้นเพียงแค่ถาม "ความสําเร็จหรือความล้มเหลว" ซึ่งเริ่มดูน่าประหลาดใจ แสดงให้เห็นว่าแม้กระทั่งตัวแทนที่แข็งแกร่งจะ ขั้นตอนมากขึ้นกว่ามนุษย์ในการทํางานเหล่านี้ การกระทําบางประการ (เช่นการแก้ไขข้อความ) ใช้เวลาเพียงไม่กี่นาทีเมื่อมนุษย์ต้องการวินาที ติดตามเมตริกของค่าใช้จ่าย (API spending) และความน่าเชื่อถือระหว่างการทํางาน exposes multiple reward functions and emphasizes robustness across different scaffolds. The scoreboard is moving from single numbers ("accuracy") to profiles (“capability”, “reliability”, “cost”, “latency”). OSWorld-Human 1.4–2.7 × Online Mind2Web REAL การเปลี่ยนแปลงพื้นฐานจากความคิดระดับการวิจัยไปสู่ระดับการผลิตอาจเป็นตัวบ่งชี้แรกว่า “ตัวแทนการใช้งานคอมพิวเตอร์” จะประสบความสําเร็จอย่างมีสุขภาพดี ในความเป็นจริงการใช้งานการผลิตครั้งแรกของ “ตัวแทนการใช้งานคอมพิวเตอร์” จาก ได้รับการเผยแพร่. ในบล็อกล่าสุดห้องปฏิบัติการแบ่งปัน แสดงให้เห็นว่า Nova Act จะจัดการกับกระบวนการทํางานในองค์กรเช่นการกรอกแบบฟอร์มที่ซับซ้อนและกระบวนการบริหารที่ยาวนาน กฎหมายใหม่ ห้องปฏิบัติการ SF ของ Amazon AGI เรื่องราวของลูกค้า สถานที่ตั้งอยู่ของชื่อ "แบรนด์" จาก is a single screenshot-driven agent that reports numbers on และ ยืดทั้งสามชั้น UI-TARS อะไหล่ ScreenSpot-Pro OSWorld H Company specializes in grounding and shows results on , , , , and its very own benchmark. ScreenSpot-v2 ScreenSpot-Pro GroundUI-Web Showdown-Clicks WebClick AGI, Inc. มุ่งเน้นไปที่เว็บและชั้น OS ผ่านของตัวเอง และผู้ก่อตั้ง แผงผู้บริหาร REAL OSWorld Theta มุ่งเน้นไปที่ระบบปฏิบัติการและเบราว์เซอร์ผ่าน . CUB benchmarks สองเท่าเป็นช่องทางไปสู่ตลาด หลายของมาตรฐานเหล่านี้ยังทําหน้าที่เป็นเครื่องมือการกระจายและข้อมูล AGI, Inc. สร้างขึ้น และจากนั้นหนึ่ง plus agents รอบมัน; เป็น "#1 on REAL" เป็นทั้งการเรียกร้องการวิจัยและฟังก์ชั่นในผลิตภัณฑ์ของพวกเขา มีตําแหน่งเป็น "การสอบสุดท้ายของมนุษย์สําหรับตัวแทนการใช้คอมพิวเตอร์" Halluminate ใช้ และ เป็นทั้ง benchmarks และโครงสร้างพื้นฐานสําหรับการทํางานของตัวแทนเบราว์เซอร์ในขนาด REAL SDK CUB Westworld Web Bench Benchmarks are becoming part measurement, part distribution, and part data flywheel. If you're picking which ones to invest in, you're also picking which ecosystems you want to plug into. The shift from live sites to synthetic sandboxes หลายเบนชาร์จเว็บของคลื่นแรกประเมินตัวแทนโดยตรงบนเว็บไซต์สด and ดําเนินงานบนหน้าเว็บที่เปลี่ยนแปลงจริงจากเว็บไซต์ที่ได้รับความนิยมมากกว่า 100 เว็บไซต์ and similarly use tasks on real websites like Amazon, Apple, Google Flights and hundreds of other high-traffic domains. This gives realism, but makes evaluation brittle: sites change, DOMs drift, and reliable automatic reward signals are hard to maintain at scale. In practice, large-scale parallel evaluation can run into rate limits or website terms-of-service constraints. Mind2Web Online Mind2Web WebVoyager Web Bench The emerging alternative is high-fidelity synthetic environments with built-in, programmatic rewards. provides a self-hosted “mini web” of fully functional sites (e-commerce, forums, project tools, CMS) whose state is fully observable and reproducible. Theta’s ตําแหน่งตัวเองเป็น “การสอบสุดท้ายของมนุษย์สําหรับตัวแทนการใช้คอมพิวเตอร์และเบราว์เซอร์” ซึ่งเน้นความซับซ้อนของงานที่สามารถทําได้ในสภาพแวดล้อมที่จริงจังเหล่านี้ (from AGI, Inc.) builds deterministic replicas of 11 widely used websites and evaluates agents via programmatic state checks plus rubric-based judging. Halluminate’s offers a “fully simulated internet” of browser environments for economically meaningful workflows, complementing their benchmark on live sites. In fact Halluminate’s first benchmark was used on live sites and they moved to doing private synthetic sites in , ข้อเสนอแนะล่าสุดของพวกเขา นอกจากนี้ goes further by with programmatic reward functions. WebArena CUB REAL Westworld Web Bench Web Bench Westworld WARC-Bench บันทึกหน้าเว็บแบบไดนามิกและเป็นจริงลงในไฟล์ Web ARChive แบบโต้ตอบ การตั้งค่าสังเคราะห์แลกเปลี่ยนความจริงบางอย่างสําหรับคุณภาพการวัด เว็บไซต์ Amazon หรือเที่ยวบินที่จําลองอาจพลาดกรณีที่หายากที่คุณเห็นบนเว็บจริงและมีความสนใจในการศึกษาความแตกต่าง "sim-to-real" แต่ในทางกลับกันกล่องทรายเหล่านี้มีงานที่มั่นคงความจริงพื้นฐานที่แม่นยําและการประเมินอย่างปลอดภัย ตัวอย่างเช่นโดยการเปรียบเทียบ simulators สไตล์ Westworld กับงานใน Google Flights จริง ด้วยเหตุนี้เส้นทางที่ชัดเจน: benchmarks เว็บสดยังคงเป็นสิ่งสําคัญในการตรวจสอบประสิทธิภาพในโลกจริง แต่ศูนย์ของแรงโน้มถ่วงสําหรับการประเมินตัวแทนในชีวิตประจําวันกําลังย้ายไปสู่ sandboxes จริงและเครื่องมือที่มีฟังก์ชั่นรางวัลที่ชัดเจนและความสามารถในการสังเกตอย่างเต็มที่ โดยเฉพาะอย่างยิ่งเมื่อมีการเปลี่ยนแปลงไปยังเว็บไซต์ส่วนตัวสําหรับกรณีการใช้องค์กร วิธีการใช้สิ่งนี้ถ้าคุณเป็นตัวแทนก่อสร้าง หากคุณกําลังพยายามส่งตัวแทนนี่คือรายการตรวจสอบที่สมจริง สําหรับการประเมินทั้งหมดให้หลีกเลี่ยงการสร้างแถบที่กําหนดเองที่ได้รับการเพิ่มประสิทธิภาพสําหรับแถบแถบแถบเดียว เพื่อให้แน่ใจว่าผลลัพธ์ที่มีความหมายนอกเหนือจากการประกาศการเปิดตัวให้ใช้แถบแถบที่สาธารณะและเอกสารตัวเลือกการใช้งานของคุณ ตอนนี้ไปที่รูปแบบเฉพาะสําหรับแต่ละประเภทของตัวแทน: If you're building a GUI-aware model Your priorities should be to train on + ออนไลน์ + ออนไลน์ ข้อมูลสไตล์ จากนั้นรายงานเกี่ยวกับ / ชีวิต / ชีวิต / ชีวิต / เหมาะอย่างยิ่งผ่าน harness where applicable for standardization. You're optimizing for localization accuracy and robustness to varied UI skins. ScreenSpot GroundUI WebClick ScreenSpot-v2 ScreenSpot-Pro GroundUI-1K WebClick Showdown-Clicks ScreenSuite If you're building a web agent เริ่มต้นด้วย (ออฟไลน์) เพื่อเรียกเก็บพฤติกรรมพื้นฐาน ไปยัง + ออนไลน์ สําหรับพฤติกรรมสดและเส้นโค้งค่าใช้จ่าย พิจารณา (real web, wide coverage) and / ชีวิต (สภาพแวดล้อมที่โฮสต์ด้วยตนเองแบบจําลอง แต่เป็นจริง) เมื่อคุณสนใจการเปลี่ยนแปลงการกระจายและการยืดหยุ่น ดาวเหนือของคุณจะกลายเป็น: อัตราความสําเร็จและความน่าเชื่อถือและค่าใช้จ่ายต่องาน Mind2Web Online Mind2Web REAL Web Bench WebArena Westworld หากคุณกําลังสร้างตัวแทนการใช้งานคอมพิวเตอร์แบบเต็มรูปแบบ Use ตรวจสอบความสามารถมาตรฐาน การศึกษา เพื่อทําความเข้าใจว่าคุณอยู่ในสถานที่ที่ช้ากว่าหรืออ่อนแอกว่ามนุษย์ หากคุณขายไปยังองค์กรให้พิจารณา และแบนด์วิดธ์แนวตั้งที่เกี่ยวข้องเช่น . OSWorld-Verified OSWorld-Human CUB SCUBA มาตรฐานจะ成熟เร็วกว่าตัวแทน แต่ยังคงแตก ปีที่แล้ว "ใช้คอมพิวเตอร์" benchmarks ถูกแบ่งออก วันนี้เรามีสแต็ค benchmark ที่สมบูรณ์มากขึ้น benchmarks ที่ทดสอบความเครียดรุ่นวิสัยทัศน์บนทุก UI ที่คิดได้ benchmarks เว็บที่ครอบคลุมหลายพันเว็บไซต์จริง benchmarks OS ที่ซ้ํางานความรู้ที่เกิดขึ้นจริง ตัวแทนที่ดีที่สุดยังคงต่อสู้ อัตราความสําเร็จต่ํา ขั้นตอนคํานวณ 2 เท่านานกว่ามนุษย์ ค่าใช้จ่ายที่ทําให้การใช้งานเป็นปัญหา CFO OSWorld But there's a deeper issue. As Anderson showed, half the performance gap on these benchmarks is scaffolding, not model quality. A 3B model with the right prompt can beat a 72B model with a naive one. The "everyone is SOTA on something" problem hasn't been solved. It's just moved from benchmark selection to harness engineering. The chaos is starting to resolve around / สําหรับพื้นดิน / สําหรับงานเว็บและ / สําหรับการทํางานเต็มรูปแบบของระบบปฏิบัติการ แต่ที่สําคัญกว่านั้นผู้คนกําลังจับได้ เมื่อการใช้งานการผลิตเริ่มต้นเทคนิคการวางแผนจะหยุดทํางาน เคล็ดลับที่อยู่รอดจะเป็นผู้ที่มีประสิทธิภาพที่คาดการณ์พฤติกรรมในโลกจริง ScreenSpot GroundUI Mind2Web REAL OSWorld CUB สิ่งที่สําคัญตอนนี้คือความเข้มงวด ดําเนินการการประเมินมาตรฐานด้วยแขนสาธารณะ ความแตกต่างระหว่างประสิทธิภาพการเปรียบเทียบและความเป็นจริงของการผลิตคือที่ทํางานจริงทั้งหมดมีอยู่ โครงสร้างพื้นฐานการวัดมีอยู่และจะดีขึ้นเท่านั้น การตรวจสอบกําลังมาถึงและคุณควรสร้างสําหรับโลกนั้นไม่ใช่โลกนี้ การอ้างอิง Layer 1 – UI grounding ScreenSpot– มาตรฐานพื้นฐานพื้นฐาน GUI หลายแพลตฟอร์มเดิม (มือถือ, สก์ท็อป, เว็บไซต์) https://llm-stats.com/benchmarks/screenspot ScreenSpot-v2– ปรับปรุง GUI การตั้งค่ามาตรฐานกับฉลากที่สะอาดและครอบคลุมกว้างขึ้นhttps://huggingface.co/datasets/Voxel51/ScreenSpot-v2 ScreenSpot-Pro– ความละเอียดสูงระดับมืออาชีพ GUI ฐานพื้นฐาน (23 แอป, 5 อุตสาหกรรม, 3 OSes).https://arxiv.org/abs/2504.07981 GroundUI / GroundUI-1K– ชุดข้อมูลพื้นฐานหลายแพลตฟอร์ม (เว็บ / เดสก์ท็อป / โทรศัพท์มือถือ) พร้อม 1K eval subset.Project / dataset:https://huggingface.co/datasets/agent-studio/GroundUI-1K Showdown-Clicks– 5,679 คลิกมนุษย์จากงานเดสก์ท็อป macOS สําหรับการคาดการณ์คลิกและการควบคุมระดับต่ําhttps://huggingface.co/datasets/generalagents/showdown-clicks WebClick– 1,600+ ภาพหน้าจอเว็บที่มี “คลิกที่นี่” แท็ก; H Company’s benchmark for web localizers.https://huggingface.co/datasets/Hcompany/WebClick – Hugging Face’s umbrella GUI-agent benchmarking harness covering perception + single/multi-step tasks. ScreenSuite https://github.com/huggingface/screensuite Layer 2 - ตัวแทนเว็บ Mind2Web (ออฟไลน์) – 2,350 งานทั่ว 137 เว็บไซต์จริงและ 31 Domains with action sequences.https://osu-nlp-group.github.io/Mind2Web/ – 300 tasks on 136 live websites; public leaderboard for web agents on real sites. Online Mind2Web https://huggingface.co/spaces/osunlp/Online_Mind2Web_Leaderboard – 130 long-horizon, real-time browsing tasks with an Agent-as-a-Judge framework. Mind2Web 2 https://osu-nlp-group.github.io/Mind2Web-2/ WebArena – โฮสติ้งตนเอง “มินิเว็บ” ของเว็บไซต์จําลองที่จริงจังพร้อมกับมาตรฐานสําหรับงานทํางาน completion.https://webarena.dev/ – AGI, Inc.’s “mini-Internet” of replicated major sites with programmatic rewards and rubric-based judging. REAL Bench (REAL) Blog post: https://www.theagi.company/blog/introducing-real-bench Leaderboard / evals: https://www.realevals.xyz เว็บเบนช– 5.570 งานใน 452 เว็บไซต์สดที่มีการเข้าชมสูง; Benchmark ตัวแทนเบราว์เซอร์ขนาดใหญ่ของ Halluminate.GitHub:https://github.com/Halluminate/WebBench – Suite of highly realistic browser simulators with verifiable rewards for web-agent benchmarking. Blog post: Westworld https://halluminate.ai/blog/westworld WebVoyager– benchmark of tasks on dynamic live websites for end-to-end web navigation agents.https://arxiv.org/abs/2401.13919 – Web-archive–based benchmark of 438 GUI subtasks on dynamic, realistic archived webpages (via Web ARChive files). WARC-Bench https://arxiv.org/abs/2510.09872 ชั้น 3 – การใช้งานคอมพิวเตอร์เต็มรูปแบบ / แอปพลิเคชันหลาย OSWorld– 369 มัลติโมเดลคอมพิวเตอร์ใช้งานบนจริง Ubuntu / Windows / macOS แอปและไฟล์ I/O.Site:https://os-world.github.io – Efficiency-focused extensions with human trajectories and cleaned harnesses. OSWorld-Human: OSWorld-Human / OSWorld-Verified https://mlsys.wuklab.io/posts/oshuman/ – Theta’s cross-vertical benchmark for long-horizon desktop + browser workflows (“Humanity’s Last Exam for Computer and Browser Use Agents”). CUB (Computer Use Benchmark) Blog post: https://thetasoftware.com/blog/introducing-cub/ Announcement: https://x.com/trytheta/status/1923169553497866568 SCUBA (Salesforce Computer Use Benchmark) – ~300 Salesforce CRM ทํางานผ่าน admin / sales / service personas ในสภาพแวดล้อม sandbox: https://sfrcua.github.io/SCUBA/ Cross-layer / general agent benchmarks mentioned GAIA – Benchmark สําหรับผู้ช่วย AI โดยทั่วไป (450 คําถามในโลกจริงผ่านสามระดับความยากลําบากที่ต้องใช้เครื่องมือการค้นหาและการพิจารณาแบบมัลติโมเดล): https://arxiv.org/abs/2311.12983 Ben Anderson’s blog post “Computer-Use Evals are a Mess” https://benanderson.work/blog/computer-use-benchmarks/ Disclaimer: I am currently working at Theta