თუ თქვენ ხედავთ " კომპიუტერის გამოყენების ადმინისტრატორები", თქვენ შეამოწმოთ ორი ფაქტი: 1. ყველა ახალი მოდელი არის "SOTA" რაღაც. 2. თითქმის ნებისმიერი ეს ნომერი არ შეიცავს. და და და და და და და და ...დაწვრილებით რამდენიმე დონე ლიტერატურები. OSWorld CUB, Web Bench Westworld REAL Mind2Web ScreenSpot GroundUI Showdown-Clicks WebClick ეს იგრძნობს უფრო და უფრო, როგორც დასაწყისში ვებ Frameworks. ძალიან ბევრი ვარიანტი და არ არის საკმარისი გზა. ეს პოსტი არის გამოცდილება, რათა ამჟამად ეფუძნდეს ამჟამად მოდული სურათს: რა არსებობს, თუ როგორ განსხვავდება ბენდენციალები, და სადაც ეს ყველაფერი მდებარეობს. კომპიუტერის გამოყენების სამი ფართობი თითქმის ყველა " კომპიუტერის გამოყენების" ბენდენტიფიკაცია ერთ-ერთი სამი ფართებში შეიცავს: 1. – localizing და identifying ინტერფეისი ელემენტები screenshots Low-level UI grounding 2. Multi-step სამუშაო დასრულება ბრაუზერის გარემოში Web task execution 3. – Cross-application workflows სრული ოპერაციული სისტემები Full OS / multi-app computer use Layer 1 - UI Grounding ეს შეზღუდვა იღებს ეკრანზე და ინსტრუქციას და გთხოვთ, რომ მოდელი მიუთითებს სწორი ადგილას (პექსელი, ყუთი, ან UI ელემენტი). ძირითადი მაგალითები მოიცავს , რომელიც ფუნქციონირებს როგორც GUI grounding workhorse. Original Web, Mobile და Desktop ინტერფეისი; გაუმჯობესებს მარკეტინგი; მაღალი სიზუსტით პროფესიული პროგრამები მრავალფეროვანი ინდუსტრიაში და OS- ში. ScreenSpot family ScreenSpot ScreenSpot-v2 ScreenSpot-Pro იღებს განსხვავებული ხელმისაწვდომობა mashing up და და და მეგობრები ~18k მაგალითად მრავალპლატფორმის მონაცემთა კომპლექტი, plus სტანდარტული 1k მაგალითად eval დოქსეტში. GroundUI ScreenSpot Mind2Web OmniACT მოიცავს 5,679 ადამიანის კლიკებს, რომლებიც სამუშაოები გაკეთებენ macOS desktop გარემოში, რომელიც გამოიყენება კლიკების პროგნოზი ნომერი. Showdown-Clicks ამავე დროს, from უზრუნველყოფს 1,600+ ვებ screenshots ერთად "click here" label, გამოიყენება Holo1/Holo1.5, რათა აჩვენოს მცირე მოდელი UI ადგილობრივი. WebClick H კომპანიის თუ თქვენ ხართ სასწავლო "თეები" მენეჯერი (Vision-Language მოდელი, რომელიც შეუძლია წაიკითხოს ეკრანები და აირჩიოს ვიჯეჯები), ნიმუში არის აქ. თითქმის ყველა GUI მენეჯერი ქაღალდი ახლა აცხადებს ნომერი ScreenSpot ScreenSpot-Pro GroundUI Showdown-Clicks Layer 2 - ვებ-გვერდებული ოპერაციები აქ, მფლობელი მიიღებს რეალური ბრაუზერი (ან მაღალი სიტყვის სმულატორი) და უნდა დასრულდეს საქმიანებს, როგორიცაა "შესაფხულის განმავლობაში, დაჯავშნა სასტუმრო New York City ქვემოთ $ 250" ან "პოვოთ მოგზაურობის პოლიტიკა ამ პროდუქტისთვის და გააკეთოთ მოგზაურობა ჩემი უახლესი პროდუქტისთვის." ეს საწყისი მონაცემთა კომპლექტი შეიცავს 2350 საქმიანობას 137 რეალური ვებგვერდზე და 31 დომინაში, რომელიც შეიცავს ოპერაციული სექციებს. ეს არის Live Equivalent: 300 საქმიანობა 136 რეალური ვებგვერდზე, რომელიც ხელს უწყობს სიზუსტე, ღირებულება და გაშვება. extends this with 130 long-horizon, research-style search tasks and adds "agent-as-a-judge" for answer correctness and attribution. Mind2Web Online Mind2Web Mind2Web 2 იღებს განსხვავებული ხელმისაწვდომობა: ეს არის თვითმფრინავი ვებ გარემო, რომელიც შექმნილია რეალური mock საიტები (E-commerce, ფორუმები, GitLab-style repos, CMS, და ა.შ.) ერთად ათასობით სამუშაოები, რომლებიც იმიტომობილი ყოველდღიური ვებ სამუშაოები. საწყისი უზრუნველყოფს 112 საქმიანობა ძირითადი საიტები, როგორიცაა Amazon და DoorDash, ერთად განსხვავებული საფასური ფუნქციები "მე მიიღე სწორი ინფორმაცია?" და "მე მიიღე სწორი საქმიანობა?" WebArena REAL ეს არის INC. საწყისი ზომის ზომის ზომის: ეს არის 5,750 საქმიანობა 452 რეალური ადგილებში, ხოლო is a much smaller suite of realistic browser synthetic simulators with verifiable rewards. Web Bench & Westworld ჰოლმინატები Web Bench Westworld და ბოლოს, შეიცავს 15 პოპულარული საიტებზე და ავტომატური შეფასების პროტოკოლს GPT-4V- ის გამოყენებით, რათა შეამოწმონ Open-End ქცევა. WebVoyager Web-based ოპერაციები იზრდება პოპულარობა მათი გარიგება ავტომატიზაციის საქმიანობის გამო, რადგან საქმიანობის სართული არის მცირე, ვიდრე შემდეგი ფართობი, სრული OS კომპიუტერული გამოყენება. ყველაზე web-only ოპერაციები benchmark აქ და შემდეგ ზრდა OS-level benchmarks. Layer 3 - სრული კომპიუტერული გამოყენება საბოლოო ფართობი უზრუნველყოფს მექანიზმი სრული OS: მრავალფეროვანი პროგრამები, ფაილი სისტემა, copy-paste და ა.შ. ფუნქციონირებს როგორც ანკორები აქ, 369 სამუშაოები რეალური Ubuntu / Windows / macOS მანქანები მოიცავს ბრაუზერები, Office პროგრამები, ფაილი Explorer, IDEs, ელ, მედია მოთამაშეები და სხვა. The Extensions უზრუნველყოფს გაქირავებული ქამარი და ადამიანის პლატფორმა ყველა სამუშაოზე, რომელიც საშუალებას გაძლევთ შეამციროს არა მხოლოდ, თუ ის წარმატება, არამედ, თუ რამდენად ნაბიჯები და თუ რამდენად დრო იღებს შედარებით ადამიანებს. OSWorld ადამიანები შეხვდა ~ 72% წარმატება; პირველი საუკეთესო მექანიზები დაახლოებით 12% OSWorld-Verified & OSWorld-Human საწყისი A არის ფოსტის და ბრაუზერის სამუშაო ფართო ჰორიზონტზე. წამყვანი AI- ის სააგენტო კომპანიები, როგორიცაა ჩვენება ლიტერატურები, მათ შორის ზომები , საერთო AI- ის მენეჯერი ბენკერი რამდენიმე ბრაუზერის სამუშაო თარიღი. CUB (Computer Use Benchmark) ტატა Cross-vertical ბენკინიგზია მენიუ AI CUB GAIA ეს არის Salesforce- ის ინტენსიური ბენკერი, რომელიც მზადდება ~ 300 რეალური CRM სამუშაო წვრთნები, რომლებიც მოიცავს admin, გაყიდვების და მომსახურების საქმიანობას. მათი მიმოხილვა არის ინტენსიური SaaS მიმოხილვა ბენკერი. SCUBA იმიტომ, რომ ამ კლასის მოწყობილობები შეიცვალა და შეიცვალა, ამ კლასის მოწყობილობები შეიცვალა და შეიცვალა კლასის მოწყობილობები. ) იმიტომ, რომ მრავალფეროვანი გარემოები და Edge შემთხვევაში სრული OS გარემოში. დაბალი ორმაგი ციფრული წარმატების დონე Harness > მოდელი Ben Anderson სათაური გააკეთებს მძიმე, მაგრამ ბედნიერი მიზნით: ბევრი "SOTA" ნამდვილად სწრაფი ინჟინერი პლატფორმა. post on computer-use evals პოპულარული benchmark მაგალითად, ორიგინალური დოკუმენტები . Showdown-Clicks ~20% accuracy for a big off-the-shelf model while small finetuned models get ~70–80% Ben იპოვებს ეს დაახლოებით 20%. მაგრამ შემდეგ ის შეუზღუდავი უფრო მარტივი "კლიკებით მხოლოდ" XML მოთხოვნა და იხილებს მისი მცირე jump to around 50% on the exact same benchmark. Here is the short prompt Ben used for the 250% increase in score despite the much smaller model: Qwen 72B მოდელი 3B Qwen მოდელი Determine where to click in the UI to complete the instruction/task. Report the click location in XML like '<points x1="x" y1="y">click</points>.' Image size [{w}, {h}], (0, 0) is the top-left and ({w}, {h}) is the bottom-right. [IMAGE] {instruction} მსგავსი ისტორიები აჩვენებენ სხვა ადგილებში. იყენებს საკუთარი საწვავის და საწვავის ფუნქციებს ინფორმაციის და საქმიანობის საქმიანობას. განიხილება, რომ მისი უპირატესობა მხოლოდ -styl scores არ არის პირდაპირი შედარებით DOM-based agents. REAL ScreenSuite Mind2Web კომპიუტერული გამოყენების საბანკოშები დღეს, მნიშვნელოვანი ნაწილი შესრულების განსხვავება, რომელიც ხედავთ leaderboards არის ძალისხმევა (პრომატები, ინსტრუმენტები, დასრულების წესები, retries, Judges), არა მოდელი წონა. თუ თქვენ შედარებით ნომრები across papers გარეშე ეძებს scaffolding, თქვენ ძირითადად წაიკითხე მარკეტინგის. Convergence to a small set of “ankor” benchmarks Despite the chaos, you can already see the field standardizing around a few anchors. For the grounding layer: (სავარაუდოდ, რომ ეს არის Pro) , და Web layer: Trio of (Offline + Online + V2) და უფრო მეტი and one of ეს არის OS Layer: (plus Verified and Human variants), , and . On top of that, from Hugging Face acts as an umbrella harness that wraps many of these into one framework. ScreenSpot GroundUI WebClick Showdown-Clicks Mind2Web WebArena Web Bench WebVoyager OSWorld CUB SCUBA ScreenSuite რა თქმა უნდა, ყველა " კომპიუტერული გამოყენების მენეჯერი" გამოქვეყნება ჩვეულებრივ მოითხოვს 1–2 შეზღუდვის ნომრები ( , და და ), 1–2 საიტზე სექციები ( , და 1 და 2 წუთის განმავლობაში ( და და ) და ScreenSpot-v2/Pro GroundUI WebClick Showdown-Clicks Online Mind2Web, Web Bench REAL Westworld OSWorld-Verified CUB SCUBA მიმოხილვა მიმოხილვა მიმოხილვა დასაწყისში ბენდენტიზატორები უბრალოდ შეკითხეს, "ჩვეულებრივი წარმატება ან ცუდი." ეს უკვე იწყება, რომ გამოიყურება ცუდი. shows that even strong agents take უფრო მეტი ნაბიჯები, ვიდრე ადამიანები ამ საქმიანობის შესახებ; ზოგიერთი ნაცვლად ნაცვლად ნაცვლად ნაცვლად ნაცვლად ნაცვლად ნაცვლად ნაცვლად ნაცვლად ნაცვლად ნაცვლად ნაცვლად ნაცვლად ნაცვლად ნაცვლად ნაცვლად ნაცვლად ნაცვლად ნაცვლად ნაცვლად. შეამოწმოთ ღირებულება (API გადახდის) და საიმედოობის მეშვეობით. განიხილება მრავალფეროვანი რეკლამა ფუნქციებს და აჩვენებს ძლიერებას სხვადასხვა სქესობრივი სქესობებში. სქესობრივი პლატფორმა ერთჯერადი ნომერიდან (დაწვრილებით "დაწვრილებით") პლატფორმაზე (დაწვრილებით "დაწვრილებით "დაწვრილებით "დაწვრილებით "დაწვრილებით "დაწვრილებით "). OSWorld-Human 1.4–2.7 კმ Online Mind2Web REAL ძირითადი გადაზიდვა კვლევითი დონეზე მიზნით წარმოების დონეზე შეიძლება იყოს დასაწყისში ნიმუში, რომ " კომპიუტერული გამოყენების მექანიზმი" ჯანმრთელობის გაუმჯობესება. საწყისი have been publicized. In a recent blog, the lab shared აჩვენებს, რომ Nova Act განიცდიან საწარმოში მუშაობის პროცესებს, როგორიცაა კომპლექსური ფორმების შეფუთვა და ხანგრძლივი ადმინისტრაციული პროცესები. ახალი წესები Amazon AGI’s SF lab მომხმარებლის ისტორიები Where do the named "brands" sit? საწყისი ეს არის ერთ-ერთი screenshot-driven агент, რომელიც აცხადებს ნომერი და , spanning all three layers. UI-TARS ცვლილებები ScreenSpot-Pro OSWorld H კომპანიის სპეციალიზაცია დაშორებით და აჩვენებს შედეგებს და , , , and its very own ბენკერი ScreenSpot-v2 ScreenSpot-Pro GroundUI-Web Showdown-Clicks WebClick AGI, Inc. focuses on the web and OS layers via their own და დამზადებული ლიდერები REAL OSWorld Theta კონცენტრირებული OS და ბრაუზერის layer via . CUB Benchmarks ორმაგი Go-to-Market Channels Many of these benchmarks also act as distribution and data engines. AGI, Inc. built და შემდეგ ერთი Plus მექანიკაციები მასშტაბით; როგორც "# 1 on REAL" არის ორივე კვლევის მოთხოვნები და funnel მათი პროდუქტი. ეს არის "მომცულობა ბოლო გამოცდილება კომპიუტერული გამოყენების მექანიზები." და როგორც ბენკინიგზერები და ინფრასტრუქტურა ბრაუზერების ოპერაციების შესრულებლად. REAL SDK CUB Westworld Web Bench Benchmarks ხდება ნაწილების შეზღუდვა, ნაწილების გაფართოება და ნაწილების მონაცემთა flywheel. თუ თქვენ აირჩიეთ, რომ ინვესტიციონ, თქვენ ასევე აირჩიეთ, რომ რა ekosystems გსურთ დააყენოთ. გადაზიდვა Live Sites სინთეტიკური Sandboxes Many first-wave web benchmarks evaluated agents directly on live sites. და მუშაობა რეალური, ცვლილებების საიტები მეტი 100 პოპულარული საიტები. and similarly use tasks on real websites like Amazon, Apple, Google Flights and hundreds of other high-traffic domains. This gives realism, but makes evaluation brittle: sites change, DOMs drift, and reliable automatic reward signals are hard to maintain at scale. In practice, large-scale parallel evaluation can run into rate limits or website terms-of-service constraints. Mind2Web Online Mind2Web WebVoyager Web Bench ახალი ვარიანტი არის მაღალი სიზუსტით სინთეტიკური გარემოები ინტეგრირებული, პროგრამული მოგება. უზრუნველყოფს თვითმმმართველობის "მინი ვებ" სრულიად ფუნქციური საიტები (e-commerce, ფორუმები, პროექტის ინსტრუმენტები, CMS) whose სტატუსი არის სრულიად შეამოწმება და reproducable. "მომცინოსის ბოლო გამოცდილება კომპიუტერის და ბრაუზერის გამოყენების მენეჯერიებისთვის", რომელიც აღწერილი, რომ ამ რეალური გარემოებში შესაძლებელია გააკეთოს ცვლილებები. (from AGI, Inc.) builds deterministic replicas of 11 widely used websites and evaluates agents via programmatic state checks plus rubric-based judging. Halluminate’s offers a “fully simulated internet” of browser environments for economically meaningful workflows, complementing their benchmark on live sites. In fact Halluminate’s first benchmark was used on live sites and they moved to doing private synthetic sites in უახლესი ხარისხი, უფრო მეტია, წავიდეთ უფრო მეტი with programmatic reward functions. WebArena CUB REAL Westworld Web Bench Web Bench Westworld WARC-Bench დინამიური, რეალური ვებ გვერდები ინტეგრირებული Web ARCHive ფაილი Synthetic setup სავაჭრო ზოგიერთი რეალურიზმი ზრდის ხარისხის. Simulated Amazon ან თვითმფრინავი საიტზე შეიძლება შეუზღუდავი ნედლეულის შემთხვევაში, რომ თქვენ ნახავთ რეალური ინტერნეტში, და არსებობს აქტიური ინტერესა შეამოწმებლად “sim-to-real” სიზუსტით, . But in return, these sandboxes offer stable tasks, precise ground truth, and safe, massively parallel evaluation. მაგალითად, Westworld-style simulators შედარებით სამუშაოები რეალური Google Flights Given this, the trajectory is clear: live-web benchmarks remain essential for checking real-world performance, but the center of gravity for day-to-day agent evaluation is moving toward realistic, instrumented sandboxes with explicit reward functions and full observability. Especially as there is a shift towards private websites for enterprise use cases. როგორ გამოიყენოთ ეს, თუ თქვენ ხართ შენობრივი მენეჯერი თუ თქვენ გსურთ გაგზავნოთ მენეჯერი, აქ არის პრაქტიკული შეამოწმების სია. ყველა შეფასებისათვის, თავიდან ავიცილოთ, რომ შექმნათ საბაჟო შეზღუდვები, რომლებიც ოპტიმიზირებულია ერთ-ერთი ბენკერისთვის. იმისათვის, რომ უზრუნველყოს მნიშვნელობის შედეგებს, გარდა ამისა, რომ გააჩნია დატვირთვა, გამოიყენეთ დამზადებული საზოგადოებრივი შეზღუდვები და დოკუმენტირეთ თქვენი განახლება. ახლა წაიკითხეთ კონკრეტული ნიმუშები პარტნიორების ტიპისთვის: If you're building a GUI-aware model თქვენი Priorities უნდა იყოს Train on + წერილი + წერილი სტატისტიკა მონაცემები, შემდეგ ანგარიშები / / / Ideally მეშვეობით harness where applicable for standardization. You're optimizing for localization accuracy and robustness to varied UI skins. ScreenSpot GroundUI WebClick ScreenSpot-v2 ScreenSpot-Pro GroundUI-1K WebClick Showdown-Clicks ScreenSuite If you're building a web agent Start with (offline) to debug basic behavior. Move to + წერილი for live behavior and cost curves. Consider (Real web, ფართო მოცულობა) და (სამატრირებული, მაგრამ რეალური გარემოები) ერთხელ თქვენ დაინტერესებთ გადაზიდვის გადაზიდვა და მძიმეობა. თქვენი ჩრდილოეთ სტრატე იქნება: წარმატების სიჩქარე და საიმედოობა და ღირებულება სამუშაოზე. Mind2Web Online Mind2Web REAL Web Bench WebArena Westworld თუ თქვენ აშენებთ სრული “ კომპიუტერული გამოყენების მენეჯერი” გამოყენება როგორც სტანდარტული უნარი შეამოწმება. კვლევა გთხოვთ გაიგოთ, სადაც თქვენ უფრო მგრძნობიარე ან უფრო მგრძნობიარე ხართ, ვიდრე ადამიანები. თუ თქვენ გაყიდვებთ საწარმოებს, გთხოვთ გააკეთოთ Vertical benchmarks, როგორიცაა . OSWorld-Verified OSWorld-Human CUB SCUBA The benchmarks are maturing faster than the agents, but they're still broken ერთი წლის წინ, " კომპიუტერის გამოყენების" ბენკამენტები გაფართოებული იყო. დღეს ჩვენ გვაქვს უფრო სრული ბენკამენტების კაბა. ბენკამენტები, რომლებიც სტრესი ტესტირება ვიზიის მოდელები თითოეული UI imaginable. ვებ ბენკამენტები მოიცავს ათასობით რეალური საიტები. OS ბენკამენტები, რომლებიც რეპუტაცია რეალური ცოდნა მუშაობა. The best agents still struggle. Low success rates on . Step counts 2x longer than humans. Costs that turn deployment into a CFO problem. OSWorld But there's a deeper issue. As Anderson showed, half the performance gap on these benchmarks is scaffolding, not model quality. A 3B model with the right prompt can beat a 72B model with a naive one. The "everyone is SOTA on something" problem hasn't been solved. It's just moved from benchmark selection to harness engineering. Chaos იწყება გადარჩენა გარშემო / for grounding, / for web tasks, and / ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ, რომ ჩვენ ვფიქრობ. ScreenSpot GroundUI Mind2Web REAL OSWorld CUB What matters now is rigor. Run the standard evals with public harnesses. The gap between benchmark performance and production reality is where all the actual work lives. The measurement infrastructure exists and will only get better. Scrutiny is coming and you should build for that world, not this one. რეიტინგები Layer 1 – UI grounding ScreenSpot– Original multi-platform GUI grounding benchmark (მობილური, desktop, ვებ).https://llm-stats.com/benchmarks/screenspot – Updated GUI grounding benchmark with cleaner labels and broader coverage. ScreenSpot-v2 https://huggingface.co/datasets/Voxel51/ScreenSpot-v2 – High-resolution professional GUI grounding benchmark (23 apps, 5 industries, 3 OSes). ScreenSpot-Pro https://arxiv.org/abs/2504.07981 GroundUI / GroundUI-1K– მრავალპლატფორმაული (ეიტზე / desktop / მობილური) დანიშნულების მონტაჟი 1K eval subset.Project / dataset:https://huggingface.co/datasets/agent-studio/GroundUI-1K Showdown-Clicks– 5,679 ადამიანის კლიკები macOS desktop სამუშაოები დააჭირეთ პროგნოზი და დაბალი დონის კონტროლი.https://huggingface.co/datasets/generalagents/showdown-clicks – 1,600+ web screenshots with “click here” labels; H Company’s benchmark for web localizers. WebClick https://huggingface.co/datasets/Hcompany/WebClick ScreenSuite– Hugging Face’s umbrella GUI-agent benchmarking harness covering perception + single/multi-step tasks.https://github.com/huggingface/screensuite Layer 2 - ვებ-გვერდებული ოპერაციები Mind2Web (Offline)– 2350 სამუშაოები 137 რეალური ვებგვერდზე და 31 დომინაში ფუნქციური sequences.https://osu-nlp-group.github.io/Mind2Web/ Online Mind2Web– 300 საქმიანობა 136 ცოცხალი ვებ-გვერდზე; საზოგადოებრივი ლიტერატურა ვებ-გვერდებს რეალურ საიტებზე.https://huggingface.co/spaces/osunlp/Online_Mind2Web_Leaderboard – 130 long-horizon, real-time browsing tasks with an Agent-as-a-Judge framework. Mind2Web 2 https://osu-nlp-group.github.io/Mind2Web-2/ WebArena– Self-hosted “mini-web” რეალური mock sites ერთად benchmark ფუნქციური სამუშაო completion.https://webarena.dev/ – AGI, Inc.’s “mini-Internet” of replicated major sites with programmatic rewards and rubric-based judging. REAL Bench (REAL) Blog post: https://www.theagi.company/blog/introducing-real-bench Leaderboard / evals: https://www.realevals.xyz – 5,570 tasks across 452 high-traffic live sites; Halluminate’s large-scale browser-agent benchmark. GitHub: Web Bench https://github.com/Halluminate/WebBench – Suite of highly realistic browser simulators with verifiable rewards for web-agent benchmarking. Blog post: Westworld https://halluminate.ai/blog/westworld WebVoyager– დინამიური სიცოცხლის ვებ-გვერდზე დინამიური სატელევიზიო სატელევიზიო სატელევიზიო სატელევიზიო სატელევიზიო სატელევიზიო სატელევიზიო სატელევიზიო.https://arxiv.org/abs/2401.13919 WARC-Bench– Web-archive-based benchmark of 438 GUI subtasks on დინამიური, რეალურტიკური archived webpages (შვეობით Web ARChive ფაილი).https://arxiv.org/abs/2510.09872 Layer 3 – სრული კომპიუტერული / multi-app გამოყენება – 369 multimodal computer-use tasks on real Ubuntu / Windows / macOS apps and file I/O. Site: OSWorld https://os-world.github.io OSWorld-Human / OSWorld-Verified– ეფექტურობის მიზნით ეფექტურობის გაუმჯობესება ადამიანის პლატფორმა და გაწმენდა Harnesses.OSWorld-Human:https://mlsys.wuklab.io/posts/oshuman/ – Theta’s cross-vertical benchmark for long-horizon desktop + browser workflows (“Humanity’s Last Exam for Computer and Browser Use Agents”). CUB (Computer Use Benchmark) Blog post: https://thetasoftware.com/blog/introducing-cub/ Announcement: https://x.com/trytheta/status/1923169553497866568 – ~300 Salesforce CRM workflows across admin / sales / service personas in sandbox environments: SCUBA (Salesforce Computer Use Benchmark) https://sfrcua.github.io/SCUBA/ Cross-layer / general agent benchmarks mentioned GAIA – Benchmark for General AI Assistants (450 რეალური მსოფლიოს კითხვები სამი რთულეობის დონეზე, რომელიც მოითხოვს ინსტრუმენტები, ბრაუზირება და multimodal განიხილება): https://arxiv.org/abs/2311.12983 Ben Anderson’s blog post “Computer-Use Evals are a Mess” https://benanderson.work/blog/computer-use-benchmarks/ Disclaimer: I am currently working at Theta