په زما د مخکښ نمونې [ د ]،، زه ښيي چې LLMs کولی شي په بریالیتوب سره ډیری Leetcode ستونزو حل کړي. په هرصورت، دوی د نوي ستونزو په پرتله د مشهور ستونزو حل کې ښه دي. دا کولی شي د زده کړې ډاټا لګښت له الرې شتون لري - د مشهور ستونزو حلونه به په زده کړې ډاټا کې شامل شي (او په برخه کې د SWE بنچ په اړه د وروستیو OpenAI نظرونه تصدیق شوي) [ که څه هم) 1 2 3 1 2 3 د اصل SWE بیچ او SWE بیچ تصدیق شوي پیتون کاروي. زه هم پیتون کاروي، مګر اضافي Go، C#، JavaScript، Bash، او نورو وختونه هم کاروي. نو زه په طبيعي توګه علاقه ونیسئ: څنګه د LLM پايلې په مختلفو ژانرونو کې توپیر لري؟ زما فرض دی چې ماډلونه ډیر مشهور ژانرونو سره ښه کار کوي، د عموما د کوډ په پراخه کچه په لټه کې دي. دا فرض دی چې احتمالا درست وي. دا سره د پایلو له ، چې په واقعي نړۍ کې د سافټویر انجنیري کارونو کې د غیر پیټون زبانونو په کارولو کې ورته فعالیت کمښتونه وګورئ. په هرصورت، د واقعي نړۍ ستونزې اضافي پیچیدو شامل دي - د وسایلو، کتابتون، پمپونو، او داسې نور. زه غواړم د نمونې د تفتیش په کارولو سره د پاکولو تنظیم په کارولو سره ونیسئ. Leetcode ستونزه د ژور ژور ژور راټولوي، ځکه چې د زیربنا algorithms په عمده توګه ژور-agnostic دي. دا هغه څه دی چې د پایلو ډیر حیرانتیا کوي: حتی کله چې منطق بدلون نلري، هغه ژور چې تاسو یې لیکلي دا په داسې حال کې هم اغیزه کوي که آیا د ماډل دا حق لري. SWE-bench څو ژبو SWE-bench څو ژبو د Benchmark لکه څنګه چې زما د مخکښ معیارونو په توګه، زه د Leetcode آنلاین قضاوت کارول، د LLM مهارتونو د algorithmic ستونزو حل په تصدیق کړي. مګر دا وخت، زه سره دوه مختلف ژور تجربې، سره مختلف کچه مشهور. د زبانونو د Leetcode په وخت کې د algorithmic ستونزو لپاره په اړه د 20 ژانرونو کې ملاتړ کیږي. Leetcode د ژانر اټکلونو په ځانګړې توګه نه وړاندې کوي، مګر کاروونکي د خپل حلونو ته ورسوي، او پلیټ فارم د دې حلونو لپاره اټکلونه وړاندې کوي. نو، زه کولی شو د ژانر په مشهوریت کې ونیسئ. دا د ځینې لګښتو ستونزو پر بنسټ دی، نه ټول Leetcode ډاټا. Language Published solutions, % C++ 26.21% Java 25.60% Python3 17.81% Python 7.99% JavaScript 6.68% C 6.45% Go 2.17% C# 2.12% TypeScript 1.44% Swift 0.86% Kotlin 0.74% Rust 0.65% Ruby 0.36% PHP 0.43% Dart 0.25% Scala 0.16% Elixir 0.05% Racket 0.03% د C++ 26،21٪ Java 25.60% Python3 17.81% د Python 7.99٪ د جاوا 6.68٪ C 6.45٪ د 2.17٪ د C # 2.12٪ د چاپول 1.44٪ چټک 0.86٪ کټلین 0.74٪ Rust 0.65% د ریمو 0.36٪ د PHP د 0.43٪ ډارټ 0.25٪ د Scala 0.16٪ Elixir 0.05% راکټ 0.03٪ زه چار ژبو غوره کړم: جاوا او پیتون3، لکه څنګه چې تر ټولو مشهور دي. Leetcode د پیتون 3 او 2 تر منځ د مختلفو مختلفو کوي؛ د دوی تر منځ لږه فرقونه شتون لري، او د ورژن 2 حلونه تقریبا تل د ورژن 3 لپاره کار کوي. بيا زه Rust غوره کړم، کوم چې د 50 ځله کم خپور شوي حلونه لري، مګر د انجنيرۍ ټولنې په منځ کې د هغې محبوبیت په چټکۍ سره وده کوي، دا یو دلچسپ مثال دی. او په پایله کې، Elixir، یو نږدې ژبو سره یوازې د حلونو ځله. د Leetcode په اړه د دغو څلور محبوبیت سره تړاو لري که څه هم دا دقیقا سره مطابقت نه کوي. د انډول د انډول Language TIOBE Ratings, % Python 21.8 Java 8.12 Rust 1.32 Elixir 0.19 د Python 21.8 د جاوا 8.12 رخصتۍ 1.32 د Elixir 0.19 برسېره پر دې، زه د دې چار لپاره د GitHub د عمومي Repo تعداد وګورئ: Language GitHub Repos, Millions Java 20.20 Python 26.50 Rust 1.00 Elixir 0.12 د جاوا 20.20 د Python 26.50 رخصتۍ 1.00 د Elixir 0.12 په خلاصه توګه، جاوا او پیټون3 د میلیونونو د عمومي پروژو سره ترټولو عام پروګرام ژانرونه رامینځته کوي، او زه انتظار کړم چې د LLMs دوی سره ډیری ښه کار وکړي. Elixir د کچه په مخ کې دی، د کچه کچه کم د کوډ لپاره وړتیا لري، نو د LLMs وړتیاونه ممکن د دې سره کم شي. د Rust په منځ کې دی - په واضح ډول مشهور دی، مګر د LLMs کولی شي دا په ښه توګه کار وکړي؟ د ستونزو سیټ زه د 100 ستونزو غوره کړم، د اکتوبر 2025 او د فبروري 2026 په منځ کې چاپ شوي. Easy Medium Hard Total 15 59 26 100 15 59 26 100 هدف دی چې د وروستیو ستونزو ترلاسه کړي، احتمالا د LLMs لخوا "نه وګورئ". دا معلومه ده چې د قديم، او په ځانګړې توګه مشهور ستونزو حلونه، د ماډلونو روزنې سیټونو ته ورسیږي. د نمونوي د بیلګې په توګه کارول شوي ماډلونه په لاندې جدول کې لیست شوي دي، د ټولو غیر معياري پارامترونو سره مشخص شوي دي. د رخصتۍ او معلوماتو د رخصتۍ تاریخونه د پلورونکي رسمي سند څخه ترلاسه شوي دي او د اشاره لپاره وړاندې شوي دي. Vendor Model Release date Knowledge cutoff date "Reasoning" Parameters Anthropic claude-sonnet-4-5-20250929 Sep 2025 Jul 2025 No temperature = 0.0 max_tokens = 4096 Google gemini-3-flash-preview Dec 2025 unknown Yes temperature = 0.0 gemini-2.5-flash Apr 2025 unknown Yes temperature = 0.0 xAI grok-code-fast-1-0825 Aug 2025 unknown Yes seed = 42 OpenAI gpt-5-mini Aug 2025 May 2024 Yes seed = 42 Anthropic د تیلو د تیلو د تیلو د تیلو د 2025 کال د جولای 2025 نه د حرارت درجه = 0.0 max_د ټوکن = 4096 Google Gemini-3-Flash-پړاو د 2025 کال ناقانونه ولې د حرارت درجه = 0.0 Gemini-2.5 فلیش د اپریل 2025 ناقانونه ولې د حرارت درجه = 0.0 xAI د کارپوه کارپوه کارپوه کارپوه کارپوه د 2025 کال ناقانونه ولې د نښلیدو = 42 OpenAI د GPS5 مینی د 2025 کال د نومبر 2024 ولې د نښلیدو = 42 ټول موډلونه، د Gemini 3 فلیش (Preview) په غیره کې، د ډاټا سیټ کې ترټولو قديم ستونزه (د اکتوبر 2025) څخه مخنیوی شوي دي. د نمونوي هدف دا ده چې تر ټولو مشخصي او reproductible وي، له دې امله، د پارامترونو لکه "د تودوخې" یا "پړاو" کارول شوي دي. په هرصورت، د ازمايښت شوي ماډلونو په بشپړه توګه ډاټریټي محصول تضمین نه کوي. دا باید په ذهن کې وي کله چې د دغو پایلو reproducing. ټول موډلونه د "د فکر کولو" یا "پکولو" موډلونو ملاتړ کوي، د Claude Sonnet 4.5 په غیره کې. نور موډل ځانګړتیاوې (یا "د وسایلو") لکه د ویب څیړنې غیر فعال شوي دي، حتی که ملاتړ شوي. پایلې د ستونزو په توګه د "توليد" یا "توليد" وي که د حل د آنلاین قاضی لخوا قبول شوی. ټول نورو پايلې، لکه "د غلط ځواب" یا "د وخت محدود" په ساده توګه "لري" پرته له هر ډول فرق. Model python3 java 𝝙 python3 rust 𝝙 python3 elixir 𝝙 python3 claude-sonnet-4-5-20250929 50% 52% +2 51% +1 35% -15 gemini-2.5-flash 82% 82% +0 77% -5 39% -43 gemini-3-flash-preview 84% 93% +9 78% -6 83% -1 gpt-5-mini 93% 94% +1 80% -13 63% -30 grok-code-fast-1-0825 73% 65% -8 65% -8 30% -43 claude-sonnet-4-5-20250929 50٪ 52٪ +2 +2 51٪ +1 +1 35٪ -15 -15 gemini-2.5-flash 82٪ 82٪ +0 +0 77٪ -5 -5 39٪ -43 -43 gemini-3-flash-preview 84٪ 93٪ +9 +9 78٪ -6 -6 83٪ -1 -1 gpt-5-mini 93٪ 94٪ +1 +1 80٪ -13 -13 63٪ -30 -30 grok-code-fast-1-0825 73٪ 65٪ -8 -8 65٪ -8 -8 30٪ -43 د پایلو په ډیری ماډلونو کې د Elixir لپاره د ښکلي کمښت ښیي. مګر دا اختلافات په اټکل کې مهم دي؟ د دوو ژوره لپاره د N=100 ستونزو په اړه د دوو ژوره لپاره، د p=0.05 په اړه لږ تر لږه تشخیص وړ فرق د 1.96×√(2p̄(1-p̄)/N لخوا ورکړل کیږي، چې p̄ د دوو ژور ژوره کې د منځني قبول نرخ دی. د پیتون په توګه د پیل کولو په توګه، د پیتون-جاوا او پیتون-روست غفلې د ټولو ماډلونو لپاره غیر مهم دي (د کچه ~11.7pp او ~12.3pp، په پرتله). که څه هم، د Python-Elixir رخصتۍ د Gemini 3 فلیش پریکړه په غیره ټول موډلونو لپاره د ~13.4pp لګښت څخه ډیر لوړه ده، کوم چې ښیي چې دوی د Elixir په عمده توګه بديږي. د ډاټا بیس ستونزه زه د 321 Leetcode ډاټا ډاټا ستونزې راټول، د 2015 څخه 2025. Easy Medium Hard Total 114 142 65 321 114 142 65 321 زه ورته د پنج LLMs کارول چې د algorithmic معیار، خو یوازې د دوو ژبو لپاره: MySQL او Oracle SQL. که څه هم د دغو دوو غوښتنلیکونه په عمده توګه بدلون وړ دي، د ناڅاپي تفاوتونه شتون لري. د Oracle SQL لپاره، د Leetcode په اړه د حلونو لپاره د MySQL په پرتله د 15 ځله کم چاپ شوي دي. TIOBE او GitHub د دغو ژبو لپاره هیڅ اټکل نه وړاندې کوي - ځکه چې دوی، په حقیقت کې، د پروګرام کولو ژبو نه دي. لکه څنګه چې ډیری ستونزو د ماډلونو د معلوماتو د پري کولو تاریخ څخه مخکې دي، د آلودگی ممکن دی او باید د دې پایلو تفسیر کولو کې په ذهن کې وي. Model MySQL Oracle SQL 𝝙 claude-sonnet-4-5-20250929 87.5% 76.3% -11.2 gemini-2.5-flash 86.6% 67.9% -18.7 gemini-3-flash-preview 95.6% 85.7% -9.9 gpt-5-mini 89.1% 79.4% -9.7 grok-code-fast-1-0825 80.4% 66.7% -13.7 claude-sonnet-4-5-20250929 87.5٪ 76.3٪ -11.2 gemini-2.5-flash 86.6٪ د 67.9٪ -18.7 gemini-3-flash-preview 95.6٪ 85.7٪ -9.9 gpt-5-mini 89.1٪ 79.4٪ -9.7 grok-code-fast-1-0825 80،4٪ د 67.7٪ -13.7 د N = 321 ستونزو او د اوسط پیسو کچه د 82٪ په پرتله، د مهمیت پړاو په پرتله 6 پړاو کچه دی. دا معنی لري چې هر ازموینه د MySQL لپاره د تایید نرخ ډیر لوړ کوي. د پایلو موږ کولی شو وګورئ چې د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د پروګرامونو په اړه د د پیټون او جاوا سره، تر ټولو په پراخه کچه کارول شوي زبانونو سره، ماډلونه د Elixir، یو نښه ژوره کوي. د SQL ستونزو لپاره ورته ټینډ لري، کوم چې د LLMs په MySQL کې د Oracle SQL په پرتله ښه کار کوي. تر ټولو احتمالي شرح د روزنې ډاټا ټیټ دی: ډیر مشهور زبانونه نور کوډ مثالونه تولید کوي، د ماډلونو څخه ډیر مواد ته زده کړي. د عملی اغیزې ساده دی: که تاسو د کوډ کولو ملاتړ لپاره د LLMs پرته ونیسئ، ستاسو د ژور انتخاب مهمه ده - احتمالا د خپل ماډل انتخاب په پرتله. د غیر معمولي ژور سره کار کول معنی لري چې په معنی سره د AI ملاتړ کمول واخلئ، که څه هم Gemini 3 فلیش پریکړه یو ناڅاپي استثنا دی، د algorithmic ستونزو لپاره په ټولو ازموینه شوي ژورونو کې تقریبا یوځای پایلې ښيي. په هرصورت، دا واضح نه ده چې د واقعي مشهوریت رښتیا څه دی. Rust، په داسې حال کې چې ډیر کم عمومي ذخيرهونه او د Leetcode حلونه خپور شوي دي، نه ښیي چې د معلوماتو په اړه مهمه توپير ښیي. ډیری لارښوونې به د څیړنې لپاره ارزانه وي. لومړی، د ستونزو سیټ پراختیا به د Rust پایلې تصدیق شي یا غیرقانوني شي. دوهم، د اضافي زبانونو لکه Scala، Dart یا Racket ازمايښت به د مشهوریت-توازن اړیکو ډیر دقیق جوړولو کې مرسته وکړي. او، لکه څنګه چې د LLMs په پرمختګ کې وده ورکړي، دا به دا ارزانه وي چې څنګه څنګه چې د نږدې ژغورنې لپاره ژغورنې په وخت کې کم شي. د چپ د دې بیلابیلو لپاره کارول شوي ډاټا سیټ: https://huggingface.co/datasets/whiskwhite/leetcode-complete https://huggingface.co/datasets/whiskwhite/leetcode-complete د حلونو د غوښتنلیک کولو او وړاندې کولو لپاره کارول شوي وسایل: https://github.com/whisk/leetgptsolver https://github.com/whisk/leetgptsolver