ඔබ පරිගණක භාවිතය නියෝජිතයන් දැක තිබේ නම්, ඔබ කරුණු දෙකක් අවබෝධ කර ඇත: සෑම නව ආකෘතියකටම යමක් මත "SOTA" වේ. මේ සංඛ් යාවේ කිසිදු කොටසක් සකස් නොකරයි. , , , , , , , , දොළොස් දෙනෙකුගේ වෘත්තීය වෘත්තීය නායකත්වය. OSWorld CUB, Web Bench Westworld REAL Mind2Web ScreenSpot GroundUI Showdown-Clicks WebClick එය තවදුරටත් ආරම්භක වෙබ් ව්යුහය වගේ දැනෙනවා.සෑහෙන විකල්ප සහ ප්රමාණවත් මාර්ගයක් නැත. මෙම පණිවිඩය දැනට පවතින පරිසර පද්ධතියකට එකග පින්තූරයක් බවට පත් කිරීමට උත්සාහ කිරීමකි: එහිදී කුමක්ද, බැංකු ප්රවේශයන් වෙනස් වන්නේ කෙසේද, සහ මේ සියල්ල කෙළවර වන්නේ කොතැනද. 3 පරිගණක භාවිතය (Computer Use) සෑම පරිගණක භාවිත ප්රවේශයක්ම තුන් මට්ටමේ එකකට ඇතුළත් වේ: 1. Screenshots වලින් Interface elements හඳුනා ගැනීම සහ හඳුනා ගැනීම Low-level UI grounding 2. – බ්රවුසර පරිසරය තුළ බොහෝ පියවරක් මෙහෙයුම් සම්පූර්ණ කිරීම Web task execution 3. සම්පූර්ණ මෙහෙයුම් පද්ධති මත cross-application workflows Full OS / multi-app computer use Layer 1 – UI Grounding මෙම බැංකු ඡායාරූපයක් සහ නියෝගයක් ලබා ගැනීම සහ නිවැරදි ස්ථානය (පික්සල්, පෙට්ටිය, හෝ UI අංගයක්) පෙන්වීම සඳහා මොඩියුලය ඉල්ලා සිටීම. ප් රධාන උදාහරණ ඇතුළත් වේ The , GUI භූමියේ වැඩකාරයා ලෙස සේවය කරන. වෙබ්, ජංගම සහ Desktop UI; ඉඟි පිරිසිදු කිරීම; විවිධ කර්මාන්ත හා OS වල උසස් resolutions වෘත්තීය යෙදුම් ඉලක්ක කරයි. ScreenSpot family ScreenSpot ScreenSpot-v2 ScreenSpot-Pro වෙනස් විදියකට පාවිච්චි කරන්නෙ මැෂින් එක , , සහ මිතුරන් ~18k උදාහරණයක් බහු-ප්ලාස්ටික් දත්ත රැස්වීමක්, ප්ලස් සම්මත 1k උදාහරණයක් eval අමුත්තන් රැස්වීමක්. GroundUI ScreenSpot Mind2Web OmniACT macOS Desktop පරිසරය තුළ කාර්යයන් කරන අයගෙන් 5,679 ක් මනුෂ් ය ක්ලික් කිරීම්, ක්ලික් කිරීම් අනාවැකි සාධකයක් ලෙස භාවිතා කරයි. Showdown-Clicks ඒ අතර, සිට Holo1/Holo1.5 විසින් කුඩා ආකෘති UI ස්ථානගත කිරීම් පෙන්වීමට භාවිතා කරන "ක්ලික් කරන්න මෙතන" ටයිබල් සහිත 1,600+ වෙබ් ස්කෑම් ලබා දෙයි. WebClick H සමාගම ඔබ නියෝජිතයාගේ "දෑස" පුහුණු කරන්නේ නම් (විශේෂ භාෂාව ආකෘති කියවීම සහ වියිජට් තෝරා ගත හැකිය) බැංකුව මෙහි ඇත. / අකුරු / අකුරු / අකුරු අංකය ScreenSpot ScreenSpot-Pro GroundUI Showdown-Clicks Layer 2 – Web-based agents – අන්තර්ජාලය මත පදනම් වන නියෝජිතයන් මෙහිදී, නියෝජිතයා සැබෑ බ්රවුසරයක් (හෝ උසස් විශ්වාසභංගයක් සමුදායකයක්) ලබා ගනු ලබයි) සහ "බන්ධනාගාරය තුළ, $ 250 යටතේ නිව්යෝක් නගරයේ හෝටලයක් පොරොන්දු" හෝ "මේ නිෂ්පාදනයේ ආපසු ගෙවීමේ ප්රතිපත්තිය සොයාගෙන මගේ නවතම භාණ්ඩය සඳහා ආපසු ඉල්ලීමක් කරන්න." ඒ මෙම ඔන්ලයින් දත්ත සමුදාය 137 සැබෑ වෙබ් අඩවි සහ 31 ප්රදේශවල 2350 කාර්යයන්, ක්රියාකාරිත්වයන් සමග ඇතුළත් වේ. එය සජීවී සමාන වේ: 136 සැබෑ වෙබ් අඩවි මත 300 කාර්යයන්, නිවැරදිතාවය, වියදම සහ ක්රියාත්මක කිරීම් අනුගමනය කරන ලදී. දිගු කාලසීමාවක, පර්යේෂණ ආකෘතියක සෙවුම් කාර්යයන් 130 ක් සමඟ මෙය පුළුල් කරයි සහ ප්රතිචාර නිවැරදිතාවය සහ ලියාපදිංචි කිරීම සඳහා "අජීවනය-සංජකය-සංජකය" එකතු කරයි. Mind2Web Online Mind2Web Mind2Web 2 එය වෙනස් ප්රවේශයක් ගනී: එය ස්වයංක්රීය වෙබ් අඩවි වලින් ගොඩනැගෙන ස්වයංක්රීය වෙබ් පරිසරයක් (මේල් වෙළඳසැල්, ෆෝරෝව, GitLab ස්වරූපයේ repos, CMS, ආදිය.) සිය ගණනක් කාර්යයන් සමඟ දිනපතා වෙබ් කාර්යයන් අනුකූල කරයි. සිට Amazon සහ DoorDash වැනි ප්රධාන වෙබ් අඩවිවල ප්රතිපත්තිය හරහා 112 කාර්යයන් ඉදිරිපත් කරයි, "ඔයාට නිවැරදි තොරතුරු ලැබුණාද?" සහ "ඔයා නිවැරදි ක්රියාකාරකම් කළාද?" WebArena REAL එජාපය, Inc from Scale ගැන අවධානය යොමු කරන්න: is 5,750 tasks across 452 real sites, while තහවුරු කළ හැකි ප්රතිලාභ සහිත සැබෑ බ්රවුසර සංයුක්ත සමුදායන්ට වඩා පුංචි සමයක් වේ. Web Bench & Westworld ආලෝකය Web Bench Westworld Finally, 15 ජනප්රිය සජීවී වෙබ් අඩවි මත සකස් කරන ලද කාර්යයන් සහ GPT-4V භාවිතා කරන ලද ස්වයංක්රීය සමාලෝචන ප්රොටොක්ටෝලයක් විවෘත සම්මත හැසිරීම් විනිශ්චය කිරීම සඳහා. WebVoyager අන්තර්ජාලය මත පදනම් වන නියෝජිතයන් කාර්යයන් ස්වයංක්රීය කිරීම සඳහා ඔවුන්ගේ පොරොන්දුව සඳහා ජනප්රියත්වය වර්ධනය වී ඇති අතර, ක්රියාකාරී ප්රදේශය ඊළඟ මට්ටමේ, සම්පූර්ණ OS පරිගණක භාවිතයට වඩා කුඩා වන නිසා. පරාසය 3 - පරිගණක භාවිතය අවසාන මට්ටමේදී නියෝජිතයාට සම්පූර්ණ මෙහෙයුම් පද්ධතිය ලබා දෙයි: විවිධ යෙදුම්, ගොනු පද්ධතිය, copy-paste, ආදිය. මෙහි ඇන්කර් ලෙස සේවය කරයි, සැබෑ Ubuntu / Windows / macOS පරිගණක මත 369 කාර්යයන්, බ්රවුසර, ඔෆිස් යෙදුම්, ගොනු සොයන්නන්, IDEs, ඊ-තැපැල්, මාධ්ය ක්රීඩකයන් සහ තවත් බොහෝ දේ. The දිගුකාලීන සියලුම කාර්යයන් සඳහා පිරිසිදු ආකර්ෂණය සහ මනුෂ්ය ගමනක් සපයයි, එයින් ඔබට සාර්ථක බව පමණක් නොව, ක්ෂේත් රයේ පියවර කීයක් සහ එය මිනිසුන්ට සමානව කොපමණ කාලයක් ගිනි ගනීද යන්න මැනව හැකිය. OSWorld මිනිසුන් ~ 72% සාර්ථකත්වය; මුල් හොඳම නියෝජිතයන් 12% පමණ විය. OSWorld-Verified & OSWorld-Human සිට එය A long-horizon desktop + browser workflows සඳහා. ප් රදර්ශනය The ප් රචණ්ඩත්වයේ අංක ගණන සමීපව , කිහිපයක් බ්රවුසර් වැඩ ප්රවාහන සමග සාමාන්ය AI නියෝජිත බැංකු. CUB (Computer Use Benchmark) Theta Cross Vertical benchmark අංකය AI CUB GAIA from Salesforce takes a different approach: it's a Salesforce-internal benchmark built from ~300 real CRM workflows covering admin, sales, and service tasks. Their approach is to take a deeply verticalized enterprise SaaS view of the benchmark. SCUBA මෙම අවසාන මට්ටම සම්පූර්ණයෙන්ම දැනුම සේවකයෙකු ලෙස ක්රියාකාරී වන නියෝජිතයාට වඩාත් සමීපව දැනෙනවා.මේ අනුව, එය බොහෝ විට වඩාත් දුෂ්කර මට්ටමකි. ) සම්පූර්ණ OS පරිසරය තුළ විවිධ පරිසරයන් සහ අර්ධ සිද්ධීන් නිසා. අඩු දෙගුණික සාර්ථකත්ව ගණන Harness > ආකෘතිය බෙන් ඇන්ඩර්සන් brutal but fair point: බොහෝ "SOTA" ඇත්ත වශයෙන්ම prompt ඉංජිනේරු ප්ලස් ස්කැෆෝල්ඩර්. පරිගණක භාවිතය evals On popular benchmark උදාහරණයක් ලෙස, මුල් පිටුව වාර්තා . Showdown-Clicks විශාල off-the-shelf ආකෘතිය සඳහා ~20% නිවැරදිතාවය, කුඩා finetuned ආකෘති ලබා ~70-80% බෙන් මේවා සොයාගෙන නමුත් පසුව ඔහු ඉතා සරල "කලික් කරන්න පමණක්" XML ප්රවේශය තුළ මාරු කරනු ලැබේ. සමාන බැංකු මට්ටම මත 50% ක් පමණ දක්වා පිටුපස පිටුපස පිටුපස පිටුපස 250% වැඩිවීම සඳහා භාවිතා කරන කෙටි ප්රවේශය බෙන් මෙහි ඇත, ඉතා කුඩා ආකෘතිය에도 불구하고: Qwen 72B ආකෘතිය 3B Qwen ආකෘතිය Determine where to click in the UI to complete the instruction/task. Report the click location in XML like '<points x1="x" y1="y">click</points>.' Image size [{w}, {h}], (0, 0) is the top-left and ({w}, {h}) is the bottom-right. [IMAGE] {instruction} අනෙක් තැන්වලත් මේ වගේ කතාවක් එනවා. uses its own harness and reward functions for information and action tasks. එබැවින් ඔහුගේ දර්ශනය පමණක් සලකා බැලිය යුතු බව පැහැදිලිය. -Style Scores යනු DOM-based agents වලට සෘජුවම සමාන නොවේ. REAL ScreenSuite Mind2Web අද පරිගණක භාවිතය ප්රවේශම් සඳහා, නායක මණ්ඩලවල ඔබ දකින ප්රතිඵලදායී අර්බුදයේ විශාල කොටසක් අර්බුදයක් (පෝම්ට්, මෙවලම්, නතර කිරීමේ නීති, ප්රතිඵල, විනිසුරුවරු), ආකෘති බර නොවේ. "Anchor" benchmarks කුඩා සංකේතයකට සමන්විත වීම කඩා වැටීම에도 불구하고, ඔබ දැනටමත් ක්ෂේත්රයේ ස්ථාවර කිරීම් කිහිපයක් වටා දැක ගත හැක. (අපේ ප් රතිපත්තියත් එක්ක) , සහ Web Layer සඳහා: The Trio of (offline + online + v2) සහ එක් / අකුරු OS Layer සඳහා: (විශේෂ සහ පරික්ෂා කරන ලද සහ මිනිස් වෙනස්කම්), සහ ඊට ඉහළින්, from Hugging Face ක්රියා කරන්නේ මේවාගෙන් බොහෝ දෙනෙක් එක framework එකට ආවරණය කරන සංකේතයක් ලෙසයි. ScreenSpot GroundUI WebClick Showdown-Clicks Mind2Web WebArena Web Bench WebVoyager OSWorld CUB SCUBA ScreenSuite සෑම පරිගණක පරිශීලක නියෝජිතයකුම සාමාන් යයෙන් 1–2 පොළොව ලකුණු වාර්තා කිරීමට බලාපොරොත්තු වේ ( , , , WEB ( 1 2 3 3 ) , , 1 සහ 2 ( , , ). ScreenSpot-v2/Pro GroundUI WebClick Showdown-Clicks Online Mind2Web, Web Bench REAL Westworld OSWorld-Verified CUB SCUBA මිනීමැරුම් සිට නිෂ්පාදනය දක්වා මාරුවීම ප් රථම බැංකු ප්රශ්න "සාර්ථකත්වය හෝ අසාර්ථකත්වය."එය දැනටමත් අමුතු පෙනුමක් ආරම්භ කර ඇත. ශක්තිමත් නියෝජිතයන් පවා මෙම කාර්යයන් මත මිනිසුන් වඩා පියවර කිහිපයක්; සමහර පුළුල් ක්රියාකාරකම් (උදාහරණයක් ලෙස පරිවර්තනය කිරීම) මිනිසුන් තත්පර අවශ්ය විට ක්රියාකාරී මිනිත්තු ගත වේ. මිල ගණන් (API වියදම්) සහ ගනුදෙනු හරහා විශ්වාසනීයත්වය අනුගමනය කරයි. බොහෝ ප්රතිලාභ ක්රියාකාරකම් ප්රදර්ශනය කරයි සහ විවිධ තැපැල් වලදී ශක්තිමත්තාවය අවධාරණය කරයි.සංස්කරණ පුවරුව තනි අංකවලින් ("වැරදිතාවය") ප්රවේශයන් වෙත මාරු වේ ("සංස්කරණ හැකියාව", "සංස්කරණ හැකියාව", " වියදම", "විරුතාවය"). OSWorld-Human 1.4–2.7× Online Mind2Web REAL පර්යේෂණ මට්ටමේ සිතුවිලි සිට නිෂ්පාදන මට්ටමේ මූලික මාරු කිරීම "කැප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප්ටොප් සිට මෑත බ්ලොග් අඩවියේදී, Lab Share showing Nova Act handle workflows in the enterprise such as complex form filling and long administrative processes. Nova Act Amazon AGI හි SF Lab පාරිභෝගික කතා කොහෙද මේ “බෑන්ඩ්” යන නම? from තනි screenshot-driven නියෝජිතය වන අතර එහි සංඛ් යාව වාර්තා කරයි. සහ , spanning all three layers. UI-TARS වෙනස ScreenSpot-Pro OSWorld H සමාගම පදනම සඳහා විශේෂඥ වේ සහ ප්රතිඵල පෙන්වයි , , , , and its very own benchmark. ScreenSpot-v2 ScreenSpot-Pro GroundUI-Web Showdown-Clicks WebClick AGI, Inc. ඔවුන්ගේම හරහා අන්තර්ජාලය හා OS මට්ටම් මත අවධානය යොමු කරයි ස්ථාපිත කරන ලද leaderboards. REAL OSWorld Theta පරිගණක හා බ්රවුසර පරාසය මත අවධානය යොමු කරයි . CUB Benchmarks Go-to-Market චැනල් ලෙස දෙගුණය මෙම benchmarks බොහෝ ද බෙදාහැරීම හා දත්ත යන්ත්ර ලෙස ක්රියා කරයි. AGI, Inc. ඉදිකිරීම් ඉන්පසු එක් plus agents around it; being "#1 on REAL" is both a research claim and a funnel into their product. Theta's පරිගණක භාවිතය සඳහා මනුෂ් යත්වයේ අවසන් විභාගය ලෙස ස්ථාපිත කර ඇත.Halluminate භාවිතා කරයි and as both benchmarks and infrastructure for running browser agents at scale. REAL SDK CUB Westworld Web Bench Benchmarks are becoming part measurement, part distribution, and part data flywheel. If you're picking which ones to invest in, you're also picking which ecosystems you want to plug into. සජීවී වෙබ් අඩවි වලින් සින්ටික sandboxes වෙත මාරුවීම බොහෝ පළමු ආලෝකය වෙබ් benchmarks සෘජුවම සජීවී වෙබ් අඩවි මත නියෝජිතයන් අගය. සහ run tasks on real, changing webpages from over 100 popular sites. and සමාන වශයෙන්, Amazon, Apple, Google Flights වැනි සැබෑ වෙබ් අඩවි මත කාර්යයන් භාවිතා කිරීම සහ අනෙකුත් ඉහළ ප් රවාහන ප්රදේශ සිය ගණනක්. මෙය සැබෑත්වය ලබා දෙයි, නමුත් ගුණාත්මකභාවය දුර්වල කරයි: වෙබ් අඩවි වෙනස් කිරීම, DOMs ඩ්රයිෆ්, සහ විශ්වාසදායක ස්වයංක්රීය ප්රතිලාභ සංඥා ප්රමාණය තුළ තබා ගැනීමට අපහසු වේ. Mind2Web Online Mind2Web WebVoyager Web Bench වර්ධනය වන විකල්පය ඉස්මතු, වැඩසටහන් ප්රතිලාභ සහිත උසස් විශ්වාසවන්තත්වයේ සංයුක්ත පරිසරයන් වේ. provides a self-hosted “mini web” of fully functional sites (e-commerce, forums, project tools, CMS) whose state is fully observable and reproducible. Theta’s “මොනවතාගේ පරිගණක සහ බ්රවුසර භාවිත නියෝජිතයන් සඳහා අවසාන විභාගය” ලෙස හඳුන්වනවා, මෙම සැබෑ පරිසරයන් තුළ සිදු කළ හැකි කාර්යයන්ගේ සංකීර්ණත්වය අවධාරණය කරයි. (from AGI, Inc.) builds deterministic replicas of 11 widely used websites and evaluates agents via programmatic state checks plus rubric-based judging. Halluminate’s ව්යාපාරික වශයෙන් තේරුම් ගත හැකි රැකියාව ක්රියාත්මක කිරීම සඳහා බ්රවුසර් පරිසරයන් සඳහා "පරිපූර්ණයෙන්ම සංකීර්ණ අන්තර්ජාලය" ලබා දෙයි. සජීවී වෙබ් අඩවි වල benchmark.In fact, Halluminate's first benchmark සජීවී වෙබ් අඩවිවල භාවිතා කරන අතර ඔවුන් පෞද්ගලික සංයෝගීය වෙබ් අඩවිවලට ගමන් කළා. අන්තිම ප් රදර්ශනයත් ඒ වගේම, තව දුරටත් යන්නේ with programmatic reward functions. WebArena CUB REAL Westworld Web Bench Web Bench Westworld WARC-Bench අමුද්රව්ය Web ARCHive ගොනුවලට සදාචාරාත්මක, සැබෑ වෙබ් පිටුවන් ලියාපදිංචි කිරීම ඇමේසන් හෝ ගුවන් යානා වෙබ් අඩවිය ඔබ සැබෑ අන්තර්ජාලය තුළ දැක ඇති දුර්ලභ ප්රතිශත සිද්ධීන් අහිමි විය හැකිය, සහ "සම්-සැබෑ" වෙනස අධ්යයනය කිරීම සඳහා ක්රියාකාරී උනන්දුවක් ඇත, නමුත් ඒ වෙනුවට, මෙම sandboxes ස්ථාවර කාර්යයන්, නිශ්චිත පොළොව සත්යය, සහ ආරක්ෂිත, විශාල වශයෙන් සමන්විත පර්යේෂණ ලබා දෙයි. උදාහරණයක් ලෙස, සැබෑ Google ගුවන් යානා මත කාර්යයන් සමඟ බටහිර වර්ණ සකස් කිරීමෙන් Given this, the trajectory is clear: live-web benchmarks remain essential for checking real-world performance, but the center of gravity for day-to-day agent evaluation is moving toward realistic, instrumented sandboxes with explicit reward functions and full observability. Especially as there is a shift towards private websites for enterprise use cases. ඔබ ගොඩනැගිල්ල නියෝජිතයන් නම් මෙය භාවිතා කරන්නේ කෙසේද ඔබ නියෝජිතයෙකු යැවීමට උත්සාහ කරන්නේ නම්, මෙහි pragmatic පරීක්ෂණ ලැයිස්තුවකි. සියලුම සමාලෝචන සඳහා, එක් බැංකු ප්රතිශතයක් සඳහා පරිශීලක ආකෘති නිර්මාණය නොකරන්න. ප්රවේශ ප්රතිඵල ලබා ගැනීම සඳහා ප්රවෘත්ති ප්රකාශයට අමතරව තේරුම් ගත හැකි ප්රතිඵල ලබා ගැනීම සඳහා, ක්රියාත්මක කරන ලද පොදු ආකෘති භාවිතා කරන්න සහ ඔබගේ ක්රියාත්මක කිරීම් තෝරා ගැනීමේ තේරීම් ලේඛනය කරන්න. If you're building a GUI-aware model ඔබගේ ප්රමුඛත්වය විය යුතු වන්නේ දුම්රිය මත + + පර්යේෂණ දත්ත, පසුව වාර්තා / / අකුරු / අකුරු / අකුරු පරිපූර්ණයෙන්ම via the උදාහරණයක් ලෙස, ඔබ විවිධ UI කකුල් සඳහා ස්ථානගත කිරීම නිශ්චිතතාවය සහ ශක්තිමත්තාව සඳහා පරිගණක පරිගණක පරිගණක පරිගණක පරිගණක පරිගණක පරිගණක. ScreenSpot GroundUI WebClick ScreenSpot-v2 ScreenSpot-Pro GroundUI-1K WebClick Showdown-Clicks ScreenSuite ඔබ අන්තර්ජාල නියෝජිතයක් නිර්මාණය කරන්නේ නම් පටන් ගන්නේ (offline) to debug basic behavior. Move to + සජීවී හැසිරීම සහ වියදම් කෙරීම් සඳහා. (සැබෑ අන්තර්ජාලය, පුළුල් coverage) සහ / අකුරු (self-hosted, simulated but realistic environments) once you care about distribution shift and robustness. Your north star becomes: success rate and reliability and cost per task. Mind2Web Online Mind2Web REAL Web Bench WebArena Westworld ඔබ පරිගණක භාවිතය සඳහා සම්පූර්ණ "සංජකය" ගොඩනඟන විට භාවිතය as the standard ability check. Study to understand where you're much slower or more brittle than humans. If you're selling into enterprises, consider and relevant vertical benchmarks like . OSWorld-Verified OSWorld-Human CUB SCUBA බැංකුව නියෝජිතයන්ට වඩා වේගයෙන් වර්ධනය වන නමුත් ඒවා තවමත් බිඳ වැටී ඇත වසරකට පෙර, "computer-use" benchmarks කොටසක් විය. අද අපි වඩා සම්පූර්ණ benchmark stack. Grounding benchmarks that stress-test vision models on every UI imaginable. Web benchmarks spanning thousands of real sites. OS benchmarks that replicate actual knowledge work. හොඳම ක් රියාකාරකම් තවමත් සටන්.මහත් සාර්ථකත්ව ගණන . Step counts 2x longer than humans. Costs that turn deployment into a CFO problem. OSWorld But there's a deeper issue. As Anderson showed, half the performance gap on these benchmarks is scaffolding, not model quality. A 3B model with the right prompt can beat a 72B model with a naive one. The "everyone is SOTA on something" problem hasn't been solved. It's just moved from benchmark selection to harness engineering. The chaos is starting to resolve around / for grounding, / වෙබ් අඩවි සඳහා, සහ / සම්පූර්ණ මෙහෙයුම් පද්ධතිය ක්රියාත්මක කිරීම සඳහා. නමුත් වඩාත් වැදගත් වන්නේ, මිනිසුන් දිගටම පවත්වාගෙන යන්නේය. නිෂ්පාදන ස්ථානගත කිරීම ආරම්භ කරන විට, ස්කැෆල්ඩර් ටැක්සි ක්රියාත්මක කිරීම නතර වේ. ScreenSpot GroundUI Mind2Web REAL OSWorld CUB What matters now is rigor. Run the standard evals with public harnesses. The gap between benchmark performance and production reality is where all the actual work lives. The measurement infrastructure exists and will only get better. Scrutiny is coming and you should build for that world, not this one. සබැඳි ප් රවර්ගය 1 - UI Grounding ScreenSpot– Original multi-platform GUI පදනම benchmark (මංගල, Desktop, වෙබ්).https://llm-stats.com/benchmarks/screenspot ScreenSpot-v2 – වඩාත් පිරිසිදු ලයිබල් සහ පුළුල් coverage සමග යාවත්කාලීන GUI ප්රමාණය benchmark.https://huggingface.co/datasets/Voxel51/ScreenSpot-v2 – High-resolution professional GUI grounding benchmark (23 apps, 5 industries, 3 OSes). ScreenSpot-Pro https://arxiv.org/abs/2504.07981 GroundUI / GroundUI-1K– 1K eval subset.Project / dataset:https://huggingface.co/datasets/agent-studio/GroundUI-1K – 5,679 human clicks from macOS desktop tasks for click prediction and low-level control. Showdown-Clicks https://huggingface.co/datasets/generalagents/showdown-clicks WebClick– “මෙතන ක්ලික් කරන්න” ලයිබල් සමග 1,600+ වෙබ් ස්කෑන්සොට්; H සමාගමේ වෙබ් localizers සඳහා බැංකුව.https://huggingface.co/datasets/Hcompany/WebClick – Hugging Face’s umbrella GUI-agent benchmarking harness covering perception + single/multi-step tasks. ScreenSuite https://github.com/huggingface/screensuite Layer 2 – Web-based agents – අන්තර්ජාලය මත පදනම් වන නියෝජිතයන් Mind2Web (offline) – 137 සැබෑ වෙබ් අඩවි සහ 31 ක්ෂේත්රයේ ක්රියාකාරී sequences.https://osu-nlp-group.github.io/Mind2Web/ – 300 tasks on 136 live websites; public leaderboard for web agents on real sites. Online Mind2Web https://huggingface.co/spaces/osunlp/Online_Mind2Web_Leaderboard – 130 long-horizon, real-time browsing tasks with an Agent-as-a-Judge framework. Mind2Web 2 https://osu-nlp-group.github.io/Mind2Web-2/ – Self-hosted “mini-web” of realistic mock sites with a benchmark for functional task completion. / WebArena https://webarena.dev – AGI, Inc.’s “mini-Internet” of replicated major sites with programmatic rewards and rubric-based judging. REAL Bench (REAL) Blog post: https://www.theagi.company/blog/introducing-real-bench Leaderboard / evals: https://www.realevals.xyz Web Bench– 452 උසස් ප් රවාහන සජීවී වෙබ් අඩවි මත 5,570 කාර්යයන්; Halluminate විශාල ප්රමාණයේ බ්රවුසරය නියෝජිත benchmark.GitHub:https://github.com/Halluminate/WebBench Westworld– ඉතා සැබෑ බ්රවුසර සමුදාය සඳහා තහවුරු කළ හැකි ප්රතිලාභ සමඟ සමූහය.Blog post:https://halluminate.ai/blog/westworld WebVoyager – End-to-End web navigation agents සඳහා ක්රියාකාරී සජීවී වෙබ් අඩවි මත කාර්යයන් benchmark.https://arxiv.org/abs/2401.13919 WARC-Bench – දෛනික, සැබෑවන්තව archived webpages මත 438 GUI subtasks මත Web-archive-based benchmark (WEB ARChive ගොනු හරහා).https://arxiv.org/abs/2510.09872 Layer 3 – Full computer / multi-app use OSWorld – සැබෑ Ubuntu / Windows / macOS යෙදුම් සහ ගොනුව I/O.Site:https://os-world.github.io – Efficiency-focused extensions with human trajectories and cleaned harnesses. OSWorld-Human: OSWorld-Human / OSWorld-Verified https://mlsys.wuklab.io/posts/oshuman/ – Theta’s cross-vertical benchmark for long-horizon desktop + browser workflows (“Humanity’s Last Exam for Computer and Browser Use Agents”). CUB (Computer Use Benchmark) Blog post: https://thetasoftware.com/blog/introducing-cub/ Announcement: https://x.com/trytheta/status/1923169553497866568 SCUBA (Salesforce පරිගණක භාවිතය බැංකු) - සෑම්බෝස් පරිසරය තුළ admin / sales / service personas හරහා Salesforce CRM වැඩපිළිවෙළ 300 ක්: https://sfrcua.github.io/SCUBA/ Cross-layer / general agent benchmarks සඳහන් කර ඇත GAIA – General AI Assistants සඳහා benchmark (450 සැබෑ ලෝක ප්රශ්න තුනක් ගැටළු මට්ටමේ අවශ්ය උපකරණ, සොයන්න, සහ multimodal ප්රවේශය): https://arxiv.org/abs/2311.12983 Ben Andersonගේ බ්ලොග් සටහන “Computer-Use Evals are a Mess” https://benanderson.work/blog/computer-use-benchmarks/ Disclaimer: I am currently working at Theta