ប្រសិនបើអ្នកបានមើល "អេក្រង់ការប្រើប្រាស់កុំព្យូទ័រ" អ្នកបានមើលឃើញការពិតពីរដង: ទាំងអស់នៃម៉ូដែលថ្មីនេះគឺជា "SOTA" នៅលើអ្វីមួយ។ កុំព្យូទ័រទាំងពីរទាំងនេះមិនមានទីតាំងស្ថិតនៅទីនេះ។ លោក លោក លោក លោក , លោក លោក លោក ...បន្ថែមទៀតជាក្រុមហ៊ុនផ្គត់ផ្គង់ក្រុមហ៊ុនផ្គត់ផ្គង់ក្រុមហ៊ុនផ្គត់ផ្គង់ក្រុមហ៊ុនផ្គត់ផ្គង់ OSWorld CUB, Web Bench Westworld REAL Mind2Web ScreenSpot GroundUI Showdown-Clicks WebClick វាត្រូវបានគេហទំព័រដែលមានលក្ខណៈសម្បត្តិជាច្រើននិងមិនមានលក្ខណៈសម្បត្តិជាច្រើន។ រូបថតនេះគឺជាការធ្វើតេស្តដើម្បីដោះស្រាយប្រព័ន្ធអ៊ីនធឺណិតបច្ចុប្បន្ននៅក្នុងរូបថតមួយដែលមានគោលបំណង: អ្វីដែលមាននៅខាងក្រៅ, របៀបគោលបំណងផ្សេងគ្នានិងអ្វីដែលទាំងអស់នេះកំពុងដំណើរការ។ ការប្រើប្រាស់កុំព្យូទ័រ (Computer Uses) ទោះបីជាការប្រៀបធៀប "ការប្រើប្រាស់កុំព្យូទ័រ" ទាំងអស់គួរឱ្យកាត់បន្ថយទៅក្នុងមួយនៃបីកម្រិត: 1. ការរកឃើញនិងរកឃើញអេឡិចត្រូនិចពីរូបថត Low-level UI grounding 2. - ការបញ្ចប់ការងារជាច្រើនក្នុងបរិស្ថាន browser ។ Web task execution 3. ប្រព័ន្ធប្រតិបត្តិការពេញលេញ - Workflows on complete operating systems Full OS / multi-app computer use ជញ្ជាំង 1 - UI Grounding គោលនយោបាយទាំងនេះទទួលបានរូបថតនិងសំណួរនិងទាក់ទងនឹងម៉ូដែលដើម្បីបង្ហាញពីទីតាំងដែលត្រឹមត្រូវ (pixel, box, or UI element) ។ លក្ខណៈពិសេសទាំងនេះរួមមាន , ដែលជាកន្លែងធ្វើការនៃការកសាង GUI ។ សៀវភៅដំបូង covers web, mobile, and desktop UIs; ការចែកចាយស្លាកស្លាក។ targets high-resolution professional apps across multiple industries and OSes. ScreenSpot family ScreenSpot ScreenSpot-v2 ScreenSpot-Pro ជម្រើសផ្សេងគ្នានៅក្នុងការ mashing up លោក លោក និងមិត្តភក្តិទៅក្នុងទូទាត់ទិន្នន័យទូទាត់ទូទាត់ទូទាត់ទូទាត់ទូទាត់ទូទាត់ទូទាត់ទូទាត់ទូទាត់ទូទាត់ទូទាត់ទូទាត់ទូទាត់ទូទាត់ទូទាត់ទូទាត់ទូទាត់ទូទូទាត់ទូទូទាត់ទូទូទាត់ទូទូទាត់ទូទូទាត់ទូទូទាត់ទូទូទាត់ទូទូទាត់ទូទូទាត់ទូទូទាត់ទូទូទូទាត់ទូទូទូទាត់ទូទូទូទាត់ទូទូទូទូទាត់ទូទូទូទូទាត់ទូទូទូទូទ GroundUI ScreenSpot Mind2Web OmniACT offers 5,679 human clicks from people doing tasks in a macOS desktop environment, used as a click-prediction benchmark. Showdown-Clicks នៅពេលនេះ ពី ការផ្តល់ជូននូវ 1,600+ រូបថតបណ្ដាញដែលមានសៀវភៅ "ចុចនៅទីនេះ" ដែលត្រូវបានប្រើដោយ Holo1/Holo1.5 ដើម្បីបង្ហាញការកំណត់ផែនការ UI នៃម៉ូដែលតូច។ WebClick ក្រុមហ៊ុន H ប្រសិនបើអ្នកកំពុងធ្វើការបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តុះបណ្តាល។ / / សត្វ / សត្វ ទំហំ ScreenSpot ScreenSpot-Pro GroundUI Showdown-Clicks Layer 2 - អ្នកផ្គត់ផ្គង់តាមបណ្តាញ នៅទីនេះអេក្រង់ទទួលបានអ៊ិនធឺណិតពិតប្រាកដ (ឬម៉ាស៊ីនបង្អួចខ្ពស់) និងត្រូវបញ្ចប់ការងារដូចជា "ក្នុងរយៈពេលហោះហើរទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទីក្រុងទី The ទិន្នន័យបណ្តាញអ៊ីនធឺណិតនេះមាន 2,350 សកម្មភាពនៅលើ 137 តំបន់គេហទំព័រពិតប្រាកដនិង 31 ដំណឹង, ជាមួយនឹងការដោះស្រាយ។ វាគឺជាការប្រៀបធៀបផ្ទាល់: ការធ្វើតេស្ត 300 នៅលើគេហទំព័រពិតប្រាកដ 136, ជាមួយនឹងកំណត់ផែនការដែលរក្សាទុកភាពត្រឹមត្រូវ, តម្លៃនិងការដំណើរការ។ វាត្រូវបានបន្ថែមទៅ 130 សកម្មភាពស្វែងរករចនាសម្ព័ន្ធការស្រាវជ្រាវនិងបន្ថែម "agent-as-a-judge" សម្រាប់ការត្រឹមត្រូវនិងការកំណត់សេចក្តីស្រាវជ្រាវ។ Mind2Web Online Mind2Web Mind2Web 2 takes a different approach: it's a self-hosted web environment built from realistic mock sites (e-commerce, forums, GitLab-style repos, CMS, etc.) with hundreds of tasks that mimic everyday web tasks. ពី ការផ្តល់ជូននូវការងារ 112 នៅលើប្រព័ន្ធផ្សព្វផ្សាយនៃគេហទំព័រធំទូលំទូលាយដូចជា Amazon និង DoorDash, ជាមួយនឹងបច្ចេកវិទ្យានៃការផ្តល់ចំណាត់ថ្នាក់ដោយខ្លួនឯងសម្រាប់ "អ្នកទទួលបានព័ត៌មានត្រឹមត្រូវ" និង "អ្នកបានធ្វើការត្រឹមត្រូវ" ។ WebArena REAL ហ្វេសប៊ុក Inc. ពី ការផ្លាស់ប្តូរលើ Scale: មាន 5,750 សកម្មភាពនៅលើ 452 តំបន់ពិតប្រាកដ វាគឺជាក្រុមប្រឹក្សាភិបាលមួយដែលមានតម្រូវការទាញយកម៉ាស៊ីនបង្វិល synthesizers ដែលមានតម្រូវការត្រួតពិនិត្យ។ Web Bench & Westworld ការ Hallucination Web Bench Westworld ឥឡូវនេះ សកម្មភាពដែលបានកំណត់នៅលើគេហទំព័រផ្ទាល់ដែលមានប្រជាប្រិយភាព 15 និងប្រព័ន្ធប្រតិបត្តិការប្រព័ន្ធប្រតិបត្តិការដោយស្វ័យប្រវត្តិដែលប្រើ GPT-4V ដើម្បីកំណត់សកម្មភាពអន្ដរជាតិ។ WebVoyager អ្នកផ្គត់ផ្គង់ដែលមានមូលដ្ឋានលើបណ្តាញបានកើនឡើងនៅក្នុងការពេញនិយមសម្រាប់ការជំរុញរបស់ពួកគេក្នុងការធ្វើតេស្តដោយស្វ័យប្រវត្តិដោយសារតែកន្លែងប្រតិបត្តិការត្រូវបានកាត់បន្ថយជាងការប្រើប្រាស់ទិន្នន័យទិន្នន័យគ្រប់ប្រព័ន្ធប្រតិបត្តិការបន្ទាប់។ អ្នកផ្គត់ផ្គង់ដែលមានមូលដ្ឋានលើបណ្តាញតែជាច្រើនបានប្រៀបធៀបនៅទីនេះហើយបន្ទាប់មកប្រៀបធៀបទៅនឹងកម្រិតប្រព័ន្ធប្រតិបត្តិការ។ ជំហានទី 3 - ការប្រើប្រាស់កុំព្យូទ័រពេញលេញ កម្រិតចុងក្រោយផ្តល់ឱ្យអេក្រង់នូវប្រព័ន្ធប្រតិបត្តិការពេញលេញ: កម្មវិធីជាច្រើន, ប្រព័ន្ធឯកសារ, copy-paste ល។ វាត្រូវបានធ្វើឱ្យប្រសើរឡើងជាការប្រមូលនៅទីនេះ, ជាមួយនឹងការធ្វើតេស្ត 369 នៅលើម៉ាស៊ីន Ubuntu / Windows / macOS ដែលពិតប្រាកដរួមបញ្ចូលទាំងបណ្តាញបណ្តាញ, កម្មវិធី Office, ឧបករណ៍ស្រាវជ្រាវឯកសារ, IDEs, អាសយដ្ឋានអ៊ីម៉ែល, ម៉ាស៊ីនបណ្តាញនិងច្រើនទៀត។ នេះ ការអភិវឌ្ឍន៍ផ្តល់នូវការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយការកាត់បន្ថយពេលវេលា។ OSWorld មនុស្សបានកើនឡើង ~ 72% ការជោគជ័យ; មធ្យមល្អបំផុតដំបូងគឺនៅជុំវិញ 12% ។ OSWorld-Verified & OSWorld-Human ពី នេះ a សម្រាប់ដំណើរការដំណើរការដំណើរការកុំព្យូទ័រ + កុំព្យូទ័រអេឡិចត្រូនិងអេឡិចត្រូនិងអេឡិចត្រូនិងអេឡិចត្រូនិងអេឡិចត្រូនិងអេឡិចត្រូនិងអេឡិចត្រូនិងអេឡិចត្រូនិងអេឡិចត្រូនិងអេឡិចត្រូន។ ការបង្ហាញ សៀវភៅ សៀវភៅ សៀវភៅ សៀវភៅ សៀវភៅ សៀវភៅ សៀវភៅ សៀវភៅ សៀវភៅ , a general AI agent benchmark with a few browser workflows. CUB (Computer Use Benchmark) សត្វ cross-vertical benchmark ហ្វេសប៊ុក CUB GAIA from Salesforce មានវិធីសាស្រ្តផ្សេងទៀត: វាគឺជាវិញ្ញាបនប័ត្រក្នុង Salesforce ដែលត្រូវបានបង្កើតឡើងពី ~300 ការធ្វើការ CRM ដែលមានប្រសិទ្ធិភាពដែលគ្របដណ្តប់ការគ្រប់គ្រងការលក់និងការងារសេវាកម្ម ។ វិញ្ញាបនប័ត្ររបស់ពួកគេគឺដើម្បីទទួលបានវិញ្ញាបនប័ត្រ SaaS ឧស្សាហកម្មដែលមានកម្រិតខ្ពស់នៃវិញ្ញាបនប័ត្រនេះ។ SCUBA នេះគឺជាកម្រិតចុងក្រោយដែលមានអារម្មណ៍ចុងក្រោយបំផុតទៅជាមធ្យមដែលធ្វើការជាបុគ្គលិកដែលមានជំនាញវិជ្ជាជីវៈ។ ដូច្នេះវាគឺជាកម្រិតដែលមានភាពងាយស្រួលបំផុតផងដែរ។ មធ្យមជាទូទៅធ្វើឱ្យប្រសើរឡើងយ៉ាងទូលំទូលាយនៅលើមធ្យមទាំងនេះ (មធ្យមជាទូទៅ) ) ដោយសារតែបរិស្ថានផ្សេងគ្នានៅក្នុងបរិស្ថានប្រព័ន្ធប្រតិបត្តិការពេញលេញ។ កម្រិតខ្ពស់នៃការជោគជ័យទីពីរ Harness > model Ben Anderson's ការធ្វើតេស្តធ្ងន់ធ្ងរប៉ុន្តែមានសុវត្ថិភាព: ច្រើននៃ "SOTA" គឺជាការរចនាសម្ព័ន្ធយ៉ាងឆាប់រហ័សនិងការកាត់បន្ថយ។ ការប្រើប្រាស់កុំព្យូទ័រ - computer-use evals On popular benchmark លើសពីនេះ, ការបោះពុម្ពសៀវភៅដើម . Showdown-Clicks ការត្រឹមត្រូវ ~20% សម្រាប់ម៉ូដែល off-the-shelf ទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទទ លោក Ben បានរកឃើញថា ប៉ុន្តែបន្ទាប់មកគាត់បានផ្លាស់ប្តូរនៅក្នុងការ "ក្លឹបតែប៉ុណ្ណោះ" XML ដែលមានភាពងាយស្រួលជាងមុនហើយគាត់បានមើលឃើញកំណត់របស់គាត់។ jump to around 50% on the exact same benchmark. Here is the short prompt Ben used for the 250% increase in score despite the much smaller model: Qwen’s 72B model ម៉ូដែល 3B Qwen Determine where to click in the UI to complete the instruction/task. Report the click location in XML like '<points x1="x" y1="y">click</points>.' Image size [{w}, {h}], (0, 0) is the top-left and ({w}, {h}) is the bottom-right. [IMAGE] {instruction} ប្រវត្តិសាស្រ្តដូចគ្នានេះបានបង្ហាញនៅទីផ្សេងទៀត។ uses its own harness and reward functions for information and action tasks. វាគឺជាការអធិប្បាយដែលបានបង្ហាញថាការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការ -style scores aren't directly comparable to DOM-based agents. REAL ScreenSuite Mind2Web សម្រាប់គោលបំណងនៃការប្រើប្រាស់កុំព្យូទ័រនៅពេលបច្ចុប្បន្ននេះផ្នែកសំខាន់នៃការខុសគ្នានៃការអនុវត្តដែលអ្នកមើលឃើញនៅលើគណនីនាំមុខគេគឺជាការបំបែក (ឧបករណ៍ការបញ្ចប់ច្បាប់ការបញ្ចប់, retries, judges) ហើយមិនមែនជាទំហំម៉ូដែល។ ប្រសិនបើអ្នកប្រៀបធៀបទំហំនៅលើសៀវភៅដោយមិនមើលឃើញការបំបែក, អ្នកជាច្រើនកំពុងអានទីផ្សព្វផ្សាយ។ ការជួបប្រជុំវិញទៅនឹងកំណត់តម្រូវការតម្រូវការ "Anchor" ទោះជាយ៉ាងណាក៏ដោយខ្សែកាបនេះអ្នកអាចមើលឃើញឧស្សាហកម្មដែលមានទំហំទូលំទូលាយនៅជុំវិញខ្សែកាបមួយចំនួន។ សម្រាប់កម្រិតដំទូលាយ: (ប្រសិនបើអ្នកមាន pro) , និង សម្រាប់កម្រិតបណ្ដាញ: trio នៃ (អេឡិចត្រូនិ + អេឡិចត្រូនិ + v2) និងមួយនៃ / សត្វ សម្រាប់ OS layer នេះ: (បន្ថែមទៀតប្រភេទប្រភេទប្រភេទប្រភេទ Human និង Verified) ។ និង នៅលើការនេះ, from Hugging Face acts as an umbrella harness that wraps many of these into one framework. ScreenSpot GroundUI WebClick Showdown-Clicks Mind2Web WebArena Web Bench WebVoyager OSWorld CUB SCUBA ScreenSuite ទោះជាយ៉ាងណាក៏ដោយប្រសិនបើអ្នកមានអត្ថប្រយោជន៍អំពីការប្រើប្រាស់កុំព្យូទ័ររបស់អ្នក (ប្រសិនបើអ្នកមានអត្ថប្រយោជន៍អំពីអត្ថប្រយោជន៍អំពីការប្រើប្រាស់កុំព្យូទ័រ) លោក លោក លោក ), 1–2 web scores ( លោក លោក ), and 1–2 OS scores ( លោក លោក ) ។ ScreenSpot-v2/Pro GroundUI WebClick Showdown-Clicks Online Mind2Web, Web Bench REAL Westworld OSWorld-Verified CUB SCUBA ការផ្លាស់ប្តូរពីការត្រួតពិនិត្យទៅនឹងការផលិត មូលនិធិដំបូងគ្រាន់តែគួរ "ការជោគជ័យឬការជោគជ័យ" ។ វាជាការចាប់ផ្តើមចាប់អារម្មណ៍យ៉ាងឆាប់រហ័ស។ បានបង្ហាញថាមានអ្នកជំនាញដែលមានប្រសិទ្ធិភាពផងដែរ ការធ្វើតេស្តទាំងនេះមានដំណោះស្រាយច្រើនជាងមនុស្សជាច្រើន។ ការធ្វើតេស្តមួយចំនួន (ដូចជាការធ្វើតេស្តបច្ចុប្បន្នភាព) ត្រូវតែធ្វើតេស្តរយៈពេល ២ វិនាទី នៅពេលដែលមនុស្សត្រូវតេស្តរយៈពេល ២ វិនាទី។ វាត្រូវបានរក្សាទុកទិន្នន័យនៃការទូទាត់ (API expenditure) និងភាពងាយស្រួលនៅលើដំណើរការ។ វាត្រូវបានបង្ហាញនូវបច្ចេកវិទ្យាជាច្រើនដែលធ្វើឱ្យប្រសើរឡើងនូវប្រសិទ្ធិភាពនិងបង្ហាញនូវភាពងាយស្រួលនៅលើប្រព័ន្ធផ្សព្វផ្សាយផ្សេងគ្នា។ វាត្រូវបានផ្លាស់ប្តូរពីទំហំតែមួយគត់ ("ការត្រឹមត្រូវ") ទៅលើឯកសារ ("ភាពងាយស្រួល", "ភាពងាយស្រួល", "តម្លៃ" និង "ការរំខាន" ។ OSWorld-Human 1.4 - 2.7 × Online Mind2Web REAL ការផ្លាស់ប្តូរជាមូលដ្ឋានពីការយល់ដឹងពីកម្រិតស្រាវជ្រាវទៅនឹងកម្រិតផលិតកម្មអាចជាឧបករណ៍លើកដំបូងដែលមានន័យថា "អេក្រង់ការប្រើប្រាស់កុំព្យូទ័រ" គឺជាការអភិវឌ្ឍដែលមានប្រសិទ្ធិភាព។ ដូច្នេះការផ្លាស់ប្តូរផលិតកម្មដំបូងនៃ "អេក្រង់ការប្រើប្រាស់កុំព្យូទ័រ" ។ from សៀវភៅសៀវភៅសៀវភៅសៀវភៅសៀវភៅសៀវភៅសៀវភៅសៀវភៅសៀវភៅសៀវភៅសៀវភៅសៀវភៅ ការធ្វើតេស្តបង្ហាញថា Nova Act មានការគ្រប់គ្រងដំណើរការធ្វើតេស្តនៅក្នុងសហគ្រាសដូចជាការបំពេញបែបបទដែលមានភាពងាយស្រួលនិងដំណើរការគ្រប់គ្រងរយៈពេលវែង។ សកម្មភាពថ្មី សាកលវិទ្យាល័យ Amazon AGI គំនិតអតិថិជន ទោះបីជាអ្វីដែលបានគេហៅថា "Brands" មានទីតាំង? ពី is a single screenshot-driven agent that reports numbers on and ការបាត់បន្ថយទាំងបីជំហាន។ UI-TARS យោបល់ ScreenSpot-Pro OSWorld H Company specializes in grounding and shows results on លោក , លោក និងខ្លួនឯងទាំងស្រុង គោលការណ៍ Benchmark ScreenSpot-v2 ScreenSpot-Pro GroundUI-Web Showdown-Clicks WebClick AGI, Inc. បានផ្តោតលើបណ្តាញនិងកម្រិតប្រព័ន្ធប្រតិបត្តិការតាមរយៈការរបស់ខ្លួន and the established leaderboards. REAL OSWorld Theta concentrates on the OS and browser layer via . CUB Benchmarks doubled as go-to-market channels ជាច្រើននៃគោលបំណងទាំងនេះផងដែរជាម៉ាស៊ីនផ្លាស់ប្តូរនិងទិន្នន័យ។ AGI, Inc. បានបង្កើតឡើង and then an សម្ភារៈបន្ថែមទៀតនៅជុំវិញវា; ជា "#1 នៅលើ REAL" គឺជាការបង្ហាញនៃការស្រាវជ្រាវនិងការផ្លាស់ប្តូរទៅក្នុងផលិតផលរបស់ពួកគេ។ វាត្រូវបានកំណត់ជា "ការសាកល្បងចុងក្រោយរបស់ពិភពលោកសម្រាប់អ្នកប្រើទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យ។" និង as both benchmarks and infrastructure for running browser agents at scale. REAL សត្វ CUB Westworld Web Bench គោលនយោបាយនេះត្រូវបានក្លាយជាការកំណត់ផ្គង់ផ្នែក, ការផ្គត់ផ្គង់ផ្នែកនិងដំណើរការទិន្នន័យផ្នែក។ ប្រសិនបើអ្នកកំពុងជ្រើសរើសផ្នែកមួយដើម្បីវិនិយោគនៅក្នុងអ្នកកំពុងជ្រើសរើសផ្នែកមួយដែលអ្នកចង់បន្ថែមទៅក្នុង។ The shift from live sites to synthetic sandboxes លក្ខណៈពិសេសគេហទំព័រជាលើកដំបូងជាច្រើនបានត្រួតពិនិត្យដោយផ្ទាល់នៅលើគេហទំព័រផ្ទាល់។ និង ការធ្វើតេស្តនៅលើគេហទំព័រពិតប្រាកដដែលផ្លាស់ប្តូរពីគេហទំព័រដែលមានប្រជាប្រិយភាពជាង 100 ។ និង ដូចគ្នានេះប្រើការងារនៅលើគេហទំព័រពិតប្រាកដដូចជា Amazon, Apple, Google Flights និងទីផ្សារខ្ពស់ផ្សេងទៀត។ នេះផ្តល់នូវការពិតប្រាកដប៉ុន្តែធ្វើឱ្យការពិនិត្យឡើងវិញមានភាពខុសគ្នាត្រូវបានកាត់បន្ថយ: ការផ្លាស់ប្តូរគេហទំព័រ DOMs, និងសញ្ញាបនប័ត្រប្រាក់រង្វាន់ដោយស្វ័យប្រវត្តិដែលមានសុវត្ថិភាពគឺជាការងាយស្រួលក្នុងការរក្សាទុកនៅទំហំ។ នៅក្នុងការអនុវត្ត, ការពិនិត្យឡើងវិញទំហំធំទូលំទូលំទូលំទូលំទូលំទូលំទូលំទូលំទូលំទូលំទូលំទូលំទូលំទូលំទូលំទូលំទូលំទូលំទូលំទូលំទ Mind2Web Online Mind2Web WebVoyager Web Bench The emerging alternative is high-fidelity synthetic environments with built-in, programmatic rewards. ការផ្តល់ជូននូវ "បណ្តាញតូច" ដោយខ្លួនឯងដែលមានប្រសិទ្ធិភាពពេញលេញ (អេឡិចត្រូនិអាជីវកម្មវេទិកាឧបករណ៍គម្រោង CMS) ដែលមានប្រសិទ្ធភាពពេញលេញនិងអាចបង្ហាញ។ Theta's វាត្រូវបានកំណត់ដោយខ្លួនឯងថាជា "ការសាកល្បងចុងក្រោយរបស់ពិភពលោកសម្រាប់ការប្រើប្រាស់កុំព្យូទ័រនិងកុំព្យូទ័រ" ដែលបង្ហាញនូវភាពងាយស្រួលនៃការងារដែលអាចធ្វើបាននៅក្នុងបរិស្ថានពិតប្រាកដទាំងនេះ។ (ពី AGI, Inc.) បានបង្កើតកំណត់រចនាសម្ព័ន្ធនៃគេហទំព័រ 11 ដែលត្រូវបានប្រើជាទូលំទូលំទូលំទូលាយនិងការវិញ្ញាបនប័ត្រតាមរយៈការត្រួតពិនិត្យប្រព័ន្ធកម្មវិធីនិងការវិញ្ញាបនប័ត្រដែលមានមូលដ្ឋានលើ rubric ។ offers a “fully simulated internet” of browser environments for economically meaningful workflows, complementing their benchmark on live sites. In fact Halluminate’s first benchmark វាត្រូវបានប្រើនៅលើគេហទំព័រផ្ទាល់ហើយពួកគេបានផ្លាស់ប្តូរទៅក្នុងការធ្វើឱ្យគេហទំព័រសម្ភារៈឯកជននៅក្នុង នៅពេលដែលអ្នកទទួលបានអត្ថប្រយោជន៍ថ្មីបំផុតរបស់អ្នក។ លើសពីនេះទៀត goes further by ជាមួយនឹងកម្មវិធីរង្វាន់។ WebArena CUB REAL Westworld Web Bench Web Bench Westworld WARC-Bench ការសរសេរទំព័រអ៊ីនធឺណិតអ៊ីនធឺណិតអ៊ីនធឺណិតអ៊ីនធឺណិតអ៊ីនធឺណិតអ៊ីនធឺណិតអ៊ីនធឺណិត ការកំណត់សម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈសម្ភារៈ ប៉ុន្តែក្នុងការផ្លាស់ប្តូរនេះ sandboxes នេះផ្តល់ជូននូវការធ្វើតេស្តមានស្ថេរភាព, ការពិតផ្ទាល់ខ្លួននិងការវិញ្ញាបនប័ត្រដែលមានសុវត្ថិភាពនិងទូទៅ។ លក្ខណៈពិសេស: ការប្រៀបធៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបរៀបលើ Google Flights Given this, the trajectory is clear: live-web benchmarks remain essential for checking real-world performance, but the center of gravity for day-to-day agent evaluation is moving toward realistic, instrumented sandboxes with explicit reward functions and full observability. Especially as there is a shift towards private websites for enterprise use cases. តើធ្វើដូចម្តេចដើម្បីប្រើវាប្រសិនបើអ្នកជាក្រុមហ៊ុនអភិវឌ្ឍន៍ If you're trying to ship an agent, here's a pragmatic checklist. សម្រាប់ការសាកល្បងទាំងអស់អ្នកគួរការបង្កើតសាកល្បងផ្ទាល់ខ្លួនដែលមានអត្ថប្រយោជន៍សម្រាប់គណនានៃតែមួយ។ ដើម្បីធានាឱ្យមានលទ្ធផលមានគុណភាពជាងការបង្ហាញការចាប់ផ្តើមអ្នកប្រើសាកល្បងផ្ទាល់ខ្លួនដែលមានអត្ថប្រយោជន៍និងឯកសារអំពីការជ្រើសរើសការអនុវត្តរបស់អ្នក។ ឥឡូវនេះទៅលក្ខណៈពិសេសសម្រាប់ប្រភេទសាកល្បង: If you're building a GUI-aware model គោលបំណងរបស់អ្នកគួរតែជាការធ្វើដំណើរនៅលើ + + លទ្ធផល style data, then report on / សត្វ / សត្វ / សត្វ / ជាអស្ចារ្យតាមរយៈ harness where applicable for standardization. You're optimizing for localization accuracy and robustness to varied UI skins. ScreenSpot GroundUI WebClick ScreenSpot-v2 ScreenSpot-Pro GroundUI-1K WebClick Showdown-Clicks ScreenSuite ប្រសិនបើអ្នកកំពុងបង្កើតក្រុមហ៊ុន Web Agent ចាប់ផ្តើមជាមួយ (offline) to debug basic behavior. Move to + for live behavior and cost curves. Consider (បណ្តាញពិតប្រាកដ, ការបណ្តាញទូលំទូលាយ) និង / (មជ្ឈមណ្ឌលដោយខ្លួនឯងដែលត្រូវបានគេស្គាល់ប៉ុន្តែមានការពិតប្រាកដ) នៅពេលដែលអ្នកមានអារម្មណ៍អំពីការផ្លាស់ប្តូរការផ្លាស់ប្តូរនិងភាពងាយស្រួលរបស់អ្នក។ កន្លងខាងជើងរបស់អ្នកនឹងក្លាយជា: លក្ខណៈពិសេសនៃការជោគជ័យនិងភាពងាយស្រួលនិងតម្លៃសម្រាប់ការងារ។ Mind2Web Online Mind2Web REAL Web Bench WebArena Westworld ប្រសិនបើអ្នកកំពុងបង្កើតកម្មវិធីប្រើប្រាស់កុំព្យូទ័រពេញលេញ ការប្រើប្រាស់ ការធ្វើតេស្តដែលមានជំនាញវិជ្ជាជីវៈ។ សាកល្បង to understand where you're much slower or more brittle than humans. If you're selling into enterprises, consider ដូច្នេះប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើប្រសិនបើ . OSWorld-Verified OSWorld-Human CUB SCUBA គោលនយោបាយនេះបានកើនឡើងយ៉ាងឆាប់រហ័សជាងអេក្រង់ទេប៉ុន្តែពួកគេនៅតែបាត់បង់។ A year ago, "computer-use" benchmarks were fragmented. Today we have a more complete benchmark stack. Grounding benchmarks that stress-test vision models on every UI imaginable. Web benchmarks spanning thousands of real sites. OS benchmarks that replicate actual knowledge work. អាជីវកម្មល្អបំផុតនៅតែមានការលំបាក។ លទ្ធផលទាបនៅលើ ដំណោះស្រាយដំណោះស្រាយដំណោះស្រាយដំណោះស្រាយដំណោះស្រាយដំណោះស្រាយដំណោះស្រាយដំណោះស្រាយដំណោះស្រាយដំណោះស្រាយដំណោះស្រាយដំណោះស្រាយដំណោះស្រាយដំណោះស្រាយ OSWorld ដូចដែលលោក Anderson បានបង្ហាញថាប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រហែលប្រ The chaos is starting to resolve around / for grounding, / សម្រាប់សកម្មភាពបណ្តាញនិង / for full OS execution. But more importantly, people are catching on. When production deployments start, scaffolding tricks stop working. The benchmarks that survive will be the ones where performance actually predicts real-world behavior. ScreenSpot GroundUI Mind2Web REAL OSWorld CUB អ្វីដែលមានគោលបំណងឥឡូវនេះគឺជាការត្រួតពិនិត្យ។ ការធ្វើតេស្តដែលមានគោលបំណងជាមួយនឹងការត្រួតពិនិត្យដែលមានគោលបំណង។ ការខុសគ្នានៃការធ្វើតេស្តដែលមានគោលបំណងនិងការធ្វើតេស្តដែលមានគោលបំណងនៃការធ្វើតេស្តដែលមានគោលបំណងនៃការធ្វើតេស្តដែលមានគោលបំណងនៃការធ្វើតេស្តដែលមានគោលបំណងនៃការធ្វើតេស្តដែលមានគោលបំណងនៃការធ្វើតេស្តដែលមានគោលបំណងនៃការធ្វើតេស្តដែលមានគោលបំណងនៃការធ្វើតេស្តដែលមានគោលបំណងនៃការធ្វើតេស្តដែលមានគោលបំណងនៃការធ្វើតេស្ត។ គំនិត Layer 1 – UI grounding កុំព្យូទ័រ ScreenSpot – កុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យូទ័រកុំព្យ – Updated GUI grounding benchmark with cleaner labels and broader coverage. ScreenSpot-v2 https://huggingface.co/datasets/Voxel51/ScreenSpot-v2 ScreenSpot-Pro– កម្រិតខ្ពស់ជំនាញវិជ្ជាជីវៈ GUI ទិន្នន័យ (23 កម្មវិធី, 5 ឧស្សាហកម្ម, 3 ប្រព័ន្ធប្រតិបត្តិការ).https://arxiv.org/abs/2504.07981 GroundUI / GroundUI-1K– ទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យទិន្នន័យ 1K Showdown-Clicks– 5,679 ក្លឹបបុគ្គលិកពីការធ្វើតេស្តកុំព្យូទ័រ macOS សម្រាប់ការអនុម័តក្លឹបនិងការគ្រប់គ្រងកម្រិតខ្ពស់។https://huggingface.co/datasets/generalagents/showdown-clicks WebClick– 1,600+ រូបថតអ៊ីនធឺណិតជាមួយនឹងសៀវភៅ “ចុចនៅទីនេះ” សៀវភៅ; គោលបំណងរបស់ក្រុមហ៊ុន H សម្រាប់ localizers អ៊ីនធឺណិត.https://huggingface.co/datasets/Hcompany/WebClick – Hugging Face’s umbrella GUI-agent benchmarking harness covering perception + single/multi-step tasks. ScreenSuite https://github.com/huggingface/screensuite Layer 2 - អ្នកផ្គត់ផ្គង់តាមបណ្តាញ Mind2Web (អេឡិចត្រូនិច) – 2,350 សកម្មភាពនៅលើ 137 តំបន់គេហទំព័រពិតប្រាកដនិង 31 ដំណឹងជាមួយនឹងការដំណើរការ sequences.https://osu-nlp-group.github.io/Mind2Web/ កុំព្យូទ័រអ៊ីនធឺណិត Mind2Web - 300 សកម្មភាពនៅលើគេហទំព័រផ្ទាល់ 136 ។ កុំព្យូទ័រអ៊ីនធឺណិតសម្រាប់អេក្រង់អ៊ីនធឺណិតនៅលើគេហទំព័រពិតប្រាកដ។ https://huggingface.co/spaces/osunlp/Online_Mind2Web_Leaderboard – 130 long-horizon, real-time browsing tasks with an Agent-as-a-Judge framework. Mind2Web 2 https://osu-nlp-group.github.io/Mind2Web-2/ WebArena – «មី-បណ្តាញ» ដោយស្វ័យប្រវត្តិដោយស្វ័យប្រវត្តិនៃគេហទំព័រ mock ដែលមានគោលបំណងសម្រាប់ការបញ្ចប់ការងារបច្ចុប្បន្ន។https://webarena.dev/ – AGI, Inc.’s “mini-Internet” of replicated major sites with programmatic rewards and rubric-based judging. REAL Bench (REAL) Blog post: https://www.theagi.company/blog/introducing-real-bench Leaderboard / evals: https://www.realevals.xyz – 5,570 tasks across 452 high-traffic live sites; Halluminate’s large-scale browser-agent benchmark. GitHub: Web Bench https://github.com/Halluminate/WebBench Westworld– ស៊េរីនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃការរៀបចំនៃ – Benchmark of tasks on dynamic live websites for end-to-end web navigation agents. WebVoyager https://arxiv.org/abs/2401.13919 WARC-Bench– ឧបករណ៍ពិនិត្យឡើងវិញដែលមានមូលដ្ឋានលើអ៊ីនធឺណិតនៃ 438 ឧបករណ៍ពិនិត្យឡើងវិញឧបករណ៍ពិនិត្យឡើងវិញឧបករណ៍ពិនិត្យឡើងវិញឧបករណ៍ពិនិត្យឡើងវិញឧបករណ៍ពិនិត្យឡើងវិញឧបករណ៍ពិនិត្យឡើងវិញឧបករណ៍ពិនិត្យឡើងវិញឧបករណ៍ពិនិត្យឡើងវិញឧបករណ៍ពិនិត្យឡើងវិញ។ https://arxiv.org/abs/2510.09872 Layer 3 – Full computer / multi-app use OSWorld – 369 សកម្មភាពប្រើប្រាស់កុំព្យូទ័រជាច្រើនដែលមានប្រសិទ្ធិភាពនៅលើកម្មវិធី Ubuntu / Windows / macOS និងឯកសារ I/O.Site:https://os-world.github.io OSWorld-Human / OSWorld-Verified– ការអភិវឌ្ឍន៍ដែលមានមូលដ្ឋានលើប្រសិទ្ធិភាពជាមួយនឹងដំណើរការរបស់មនុស្សនិងការកាត់បន្ថយ។OSWorld-Human:https://mlsys.wuklab.io/posts/oshuman/ – Theta’s cross-vertical benchmark for long-horizon desktop + browser workflows (“Humanity’s Last Exam for Computer and Browser Use Agents”). CUB (Computer Use Benchmark) Blog post: https://thetasoftware.com/blog/introducing-cub/ Announcement: https://x.com/trytheta/status/1923169553497866568 SCUBA (Salesforce Computer Use Benchmark) – ~300 Salesforce CRM workflows នៅលើ admin / sales / service personas នៅក្នុងបរិស្ថាន sandbox: https://sfrcua.github.io/SCUBA/ Cross-layer / general agent benchmarks mentioned – Benchmark for General AI Assistants (450 real-world questions across three difficulty levels requiring tools, browsing, and multimodal reasoning): GAIA https://arxiv.org/abs/2311.12983 ហេតុបណ្ដាញរបស់ Ben Anderson "ការប្រើប្រាស់កុំព្យូទ័រ Evals គឺជាការធ្លាក់ចុះ" https://benanderson.work/blog/computer-use-benchmarks/ Disclaimer: I am currently working at Theta