මගේ පහුගිය පර්යේෂණවලදී [ , ], මම පෙන්වා දුන්නේ LLMs සාර්ථකව Leetcode ප්රශ්න බොහෝ විසඳා ගත හැකි බව. කෙසේ වෙතත්, ඔවුන් ප්රසිද්ධ ප්රශ්න විසඳීමට වඩා නව ප්රශ්න වඩා හොඳයි. මෙය දූෂිත පුහුණු දත්ත මගින් පැහැදිලි කළ හැකිය - ප්රසිද්ධ ප්රශ්න සඳහා විසඳුම් පුහුණු දත්ත ඇතුළත් විය හැකි (මෙය අළුත් OpenAI SWE Bench පිළිබඳ ප්රතිචාරය විසින් කොටසක් තහවුරු කර ඇත [ ) ) 1 2 3 1 2 3 මුල් SWE Bench සහ SWE Bench Verified Python භාවිතා කරනවා. මම Python භාවිතා කරනවා, නමුත් සමහර වෙලාවට Go, C#, JavaScript, Bash සහ අනෙකුත්. එබැවින් මම ස්වාභාවිකව උනන්දු විය: LLM ප්රතිඵල භාෂාව හරහා වෙනස් වන්නේ කෙසේද? මෙම සොයාගැනීම් සමඟ සංකීර්ණ වන්නේ සැබෑ ලෝකයේ මෘදුකාංග ඉංජිනේරු කාර්යයන් වල Non-Python භාෂා වල සමාන ප්රතිඵල අඩුවීම් දැක ඇති අතර, සැබෑ ලෝකයේ ගැටළු වලට අමතර මෘදුකාංග, පුස්තකාල, pipelines ආදිය.I wanted to verify the pattern, using a cleaner setup.Leetcode problems isolate the language itself, since the underlying algorithms are largely language-agnostic.This is what makes the finding more surprising: even when the logic does not change, the language you write it in still affects whether the model gets it right. SWE-BENCH බහු භාෂා SWE-BENCH බහු භාෂා Benchmark එක මගේ පෙර ප්රවේශයන් මෙන්, මම ලෙට්කෝඩ් සමඟ අමුත්තන් විනිශ්චය භාවිතා, ඇල්ගාඩ් ප්රශ්න විසඳීම පිළිබඳ LLM හැකියාවන් තහවුරු කිරීමට. භාෂා ලිවීමේ මොහොතේ ලෙට්කෝඩ් විසින් අර්ථකථන ගැටළු සඳහා සහාය දක්වන භාෂා 20 ක් පමණ ඇත. ලෙට්කෝඩ් පැහැදිලිව භාෂා ප්රතිපත්ති සපයන්නේ නැත, නමුත් පරිශීලකයින් ඔවුන්ගේ විසඳුම් ප්රකාශ කරයි, සහ වේදිකාව එම ප්රකාශ කරන ලද විසඳුම් සඳහා ප්රතිපත්ති සපයයි. Language Published solutions, % C++ 26.21% Java 25.60% Python3 17.81% Python 7.99% JavaScript 6.68% C 6.45% Go 2.17% C# 2.12% TypeScript 1.44% Swift 0.86% Kotlin 0.74% Rust 0.65% Ruby 0.36% PHP 0.43% Dart 0.25% Scala 0.16% Elixir 0.05% Racket 0.03% C++ 26.21% ක් Java 25.60% Python3 17.81% Python එක 7.99% ක් ජාවාරම් 6.68% ක් C 6.45% ක් යන්න 2.17% ක් C# 2.12% ක් ටයිප්සින් 1.44% ක් වේගවත් 0.86% ක් කොට්ලන් 0.74% ක් Rust 0.65% Ruby 0.36% ක් PHP 0.43% ක් ඩාර්ට් 0.25% ක් ස්කලා 0.16% ක් Elixir 0.05% රොකට් 0.03% ක් මම ප්රසිද්ධතම භාෂා දෙකක් ලෙස Java සහ Python3 යන භාෂා හතරක් තෝරා ගත්තා. Leetcode Python 3 සහ 2 අතර වෙනස්කම් අඩුයි; ඔවුන් අතර වෙනස අඩුයි, සහ අනුවාදය 2 සඳහා විසඳුම් සෑම විටම අනුවාදය 3 සඳහා ක්රියාත්මක වනු ඇත. Leetcode හි මෙම හතරේ ජනප් රියත්වය සම්බන්ධ වන්නේ නමුත් එය නිවැරදිව ගැලපෙන්නේ නැත. ඉංජිනේරු Index ඉංජිනේරු Index Language TIOBE Ratings, % Python 21.8 Java 8.12 Rust 1.32 Elixir 0.19 Python එක 21.8 ජාවා 8.12 විවේක 1.32 Elixir 0.19 මීට අමතරව, මම මෙම හතර සඳහා පොදු GitHub repos ගණන දිහා බැලුවා: Language GitHub Repos, Millions Java 20.20 Python 26.50 Rust 1.00 Elixir 0.12 ජාවා 20.20 Python එක 26.50 විවේක 1.00 Elixir 0.12 කෙටියෙන් කිවහොත්, Java සහ Python3 යනු ප්රසිද්ධතම වැඩසටහන් භාෂා මිලියන ගණනාවක් සහිත පොදු ව්යාපෘති, මම බලාපොරොත්තු වුණේ LLMs ඔවුන් ඉතා හොඳින් කටයුතු කරනු ඇත. Elixir ප්රමාණයේ ප්රතිපත්තිය මත වේ, අඩු ප්රමාණයේ කේතයක් ලබා ගත හැකි, එබැවින් LLMs හැකියාවන් එය සමග අඩු විය හැකිය. ගැටලුව Set මම තෝරා 100 ප්රශ්න, ඔක්තෝබර් 2025 සහ පෙබරවාරි 2026 අතර ප්රකාශ කරන ලදී. Easy Medium Hard Total 15 59 26 100 15 59 26 100 මෙම ඉලක්කය පසුගිය ප්රශ්න ලබා ගැනීමට විය, බොහෝ විට "සහ" LLMs. එය පැරණි, විශේෂයෙන් ජනප්රිය ප්රශ්න සඳහා විසඳුම්, ආකෘති පුහුණු කට්ටයන් ඇතුළත් බව දන්නා. ආකෘති benchmark හි භාවිතා කරන ආකෘති පහත පරිච්ඡේදයේ ලැයිස්තුගත කර ඇති අතර, නොමිලේ නොතිබුණු සියලු ප්රමාණයන් සඳහන් කර ඇත. release and knowledge cut date are obtained from the vendor's official documentation and provided for reference. Vendor Model Release date Knowledge cutoff date "Reasoning" Parameters Anthropic claude-sonnet-4-5-20250929 Sep 2025 Jul 2025 No temperature = 0.0 max_tokens = 4096 Google gemini-3-flash-preview Dec 2025 unknown Yes temperature = 0.0 gemini-2.5-flash Apr 2025 unknown Yes temperature = 0.0 xAI grok-code-fast-1-0825 Aug 2025 unknown Yes seed = 42 OpenAI gpt-5-mini Aug 2025 May 2024 Yes seed = 42 Anthropic මාලිගාව-සොන්ට්-4-5-20250929 ජනවාරි 2025 නත්තල් 2025 නෑ උෂ්ණත්වය = 0.0 ටොක්ස් = 4096 Google Gemini-3-Flash ප්රදර්ශනය ඩෙංගු 2025 නොදන්නා ඔව් උෂ්ණත්වය = 0.0 Gemini-2.5 ෆ්ලැස් ඇපල් 2025 නොදන්නා ඔව් උෂ්ණත්වය = 0.0 xAI මාලිගාව-කැමති-කැමති-කැමති-1-0825 අගෝස්තු 2025 නොදන්නා ඔව් මාලිගාව = 42 OpenAI GPT-5-Mini සඳහා අගෝස්තු 2025 මැයි 2024 ඔව් මාලිගාව = 42 Gemini 3 Flash (Preview) හැර සියලුම ආකෘති දත්ත රැස්වීමේ පැරණිම ගැටලුවකට පෙර (Oct 2025) නිකුත් කර ඇත. එබැවින්, "පිරිමි" හෝ "පිරිමි" වැනි ප්රමාණයන් භාවිතා කර ඇත. කෙසේ වෙතත්, පරීක්ෂා කරන ලද ආකෘති කිසිවක් සම්පූර්ණයෙන්ම deterministic ප්රතිඵල සහතික කර නැත. සියලුම ආකෘති "අනන්දනය කිරීම" හෝ "අනන්දනය කිරීම" ආකෘති සහාය වන අතර, Claude Sonnet 4.5 හැර. ප් රතිඵල අන්තර්ජාල විනිසුරු විසින් විසඳුම පිළිගනු ලැබූ විට ගැටලුව "සැලකිලිමත්" හෝ "සැලකිලිමත්" ලෙස සලකනු ලැබේ. "වැරදි පිළිතුරක්" හෝ "විශේෂ කාලය" වැනි අනෙකුත් ප්රතිඵල කිසිදු වෙනස් කිරීමකින් තොරව "සැලකිලිමත් නැත". Model python3 java 𝝙 python3 rust 𝝙 python3 elixir 𝝙 python3 claude-sonnet-4-5-20250929 50% 52% +2 51% +1 35% -15 gemini-2.5-flash 82% 82% +0 77% -5 39% -43 gemini-3-flash-preview 84% 93% +9 78% -6 83% -1 gpt-5-mini 93% 94% +1 80% -13 63% -30 grok-code-fast-1-0825 73% 65% -8 65% -8 30% -43 claude-sonnet-4-5-20250929 50% ක් 52% ක් +2 +2 51% ක් +1 +1 35% ක් -15 -15 gemini-2.5-flash 82% ක් 82% ක් +0 +0 77% ක් -5 -5 39% ක් -43 -43 gemini-3-flash-preview 84% ක් 93% ක් +9 +9 78% ක් -6 -6 83 % -1 -1 gpt-5-mini 93% ක් 94% ක් +1 +1 80% ක් -13 -13 63% ක් -30 -30 grok-code-fast-1-0825 73 % 65% ක් -8 -8 65% ක් -8 -8 30% ක් -43 ප්රතිඵල බොහෝ ආකෘති වලදී Elixir හි පැහැදිලි පහත වැටීම පෙන්වනවා.ඒත් මෙම වෙනස සංඛ්යාත වශයෙන් වැදගත්ද? භාෂා අතර ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵ Python-Java සහ Python-Rust හි හිංසනයන් සියලුම ආකෘති සඳහා වැදගත් නොවේ (අධිකව ~11.7pp සහ ~12.3pp). කෙසේ වෙතත්, Python-Elixir වෙනස, Gemini 3 ෆ්ලැස් ප්රදර්ශනය හැර සියලුම ආකෘති සඳහා ~13.4pp මට්ටමට වඩා වැඩි වන අතර, ඔවුන් Elixir වඩාත් නරක ලෙස කටයුතු කරන බව පෙන්වා දෙයි. දත්ත පදනම ගැටළු මම 2015 සිට 2025 දක්වා ප්රකාශ කරන ලද 321 Leetcode දත්ත පදනම ගැටළු රැස්වීමක් තිබුණා. Easy Medium Hard Total 114 142 65 321 114 142 65 321 මම ඉලෙක්ට්රොයිමීය බැංකු මාතෘකාව වැනි එකම පහක් භාවිතා කළා, නමුත් භාෂා දෙකක් සඳහා පමණක්: MySQL සහ Oracle SQL. ඒ දෙකේ යෙදුම් බොහෝ විට හුවමාරු කළ හැකි වුවද, පුළුල් වෙනස ඇත. Oracle SQL සඳහා, Leetcode මත ප්රකාශ කරන විසඳුම් MySQL වලට වඩා 15 වතාවක් අඩු වේ. TIOBE සහ GitHub එම භාෂා සඳහා කිසිදු සංඛ්යාතයක් සපයන්නේ නැත - ඔවුන්, ඇත්ත වශයෙන්ම, වැඩසටහන් භාෂා නොවේ. බොහෝ ප්රශ්න ආකෘති දැනුම කපන දිනයකට පෙර වන බැවින්, අපද්රව්ය විය හැකි වන අතර මෙම ප්රතිඵල පරිවර්තනය කරන විට සැලකිලිමත් විය යුතුය. Model MySQL Oracle SQL 𝝙 claude-sonnet-4-5-20250929 87.5% 76.3% -11.2 gemini-2.5-flash 86.6% 67.9% -18.7 gemini-3-flash-preview 95.6% 85.7% -9.9 gpt-5-mini 89.1% 79.4% -9.7 grok-code-fast-1-0825 80.4% 66.7% -13.7 claude-sonnet-4-5-20250929 87,5 % 76.3% ක් -11.2 gemini-2.5-flash 86% ක් 67.9% ක් -18.7 gemini-3-flash-preview 95.6% ක් 85.7% ක් -9.9 gpt-5-mini 89.1% ක් 79.4% ක් -9.7 grok-code-fast-1-0825 84.4% ක් 67.7% ක් -13.7 N = 321 ප්රශ්න සහ සාමාන්ය ප්රවේශ ප්රතිශත 82%, වැදගත්කම අර්ධ 6 ප්රතිශත වේ. එයින් අදහස් වන්නේ, පරීක්ෂා කරන ලද සෑම ආකෘතියක්ම MySQL සඳහා ඉතා ඉහළ පිළිගැනීමේ ප් රතිශතයක් පෙන්වනවා. ප් රතිඵල අපි දකිනවා LLM කේත ප්රශ්න පිළිබඳ ප්රතිඵල භාෂා ප්රසිද්ධිය සමග සම්බන්ධ වේ. මෙය විශේෂයෙන් පුදුමාකාර වේ: ඇල්ගාටීමි ප්රශ්න ප්රධාන වශයෙන් භාෂා-ඇග්නස්ක්, එබැවින් පදනම සංකල්පය භාෂා හරහා මාරු කිරීමට බලාපොරොත්තු විය හැක. Python සහ Java සමඟ, වඩාත් පුළුල් ලෙස භාවිතා කරන භාෂා, ආකෘති Elixir, නයිස් භාෂාව ඉටු කරයි. වඩාත් ප්රමාණවත් පැහැදිලි කිරීම පුහුණු දත්ත ගැඹුරුකම වේ: වඩාත් ජනප්රිය භාෂා වඩාත් කේත උදාහරණ නිර්මාණය, ආකෘති වඩාත් ද්රව්ය ඉගෙන ගැනීමට ලබා දෙයි. ප්රායෝගික බලපෑම සරල ය: ඔබ coding උපකාර සඳහා LLMs මත රඳා පවතී නම්, ඔබේ භාෂා තෝරා ගැනීම වැදගත් වන අතර, ඔබගේ ආකෘති තෝරාගැනීමේ හැකියාවත් සමාන ය. අසාමාන්ය භාෂා සමඟ වැඩ කිරීම අර්ථයෙන් දුර්වල AI සහාය පිළිගැනීමට අදහස් කරයි, කෙසේ වෙතත් Gemini 3 Flash Preview අමුද්රව්ය ගැටළු සඳහා පරීක්ෂා කරන ලද සියලු භාෂා වල ප්රතිඵල සාපේක්ෂව සමාන වේ. කෙසේ වෙතත්, සැබෑ ජනප්රියත්වය සම්බන්ධතාවය කුමක්ද යන්න පැහැදිලි නැත.Rust, වඩාත් අඩු ප්රකාශගත ප්රතිපත්තිය සහ ප්රකාශයට පත් කරන ලද Leetcode විසඳුම් ඇති වුවද, සංඛ්යාත වශයෙන් වැදගත් වෙනසක් පෙන්වන්නේ නැත. කිහිපයක් අධ්යයනය කිරීමට සුදුසු වනු ඇත. පළමුව, ප්රශ්න සංකේතය පුළුල් කිරීම Rust සොයාගැනීම තහවුරු කිරීමට හෝ ඉවත් කිරීමට ඉඩ දෙනු ඇත. දෙවනුව, Scala, Dart, හෝ Racket වැනි අමතර භාෂා පරීක්ෂා කිරීම වඩාත් නිශ්චිතව ජනප්රියත්වය හා ප්රතිඵලතාවය සම්බන්ධතාවය සකස් කිරීමට උපකාරී වනු ඇත. වම් මෙම benchmark සඳහා භාවිතා කරන දත්ත සමුදාය: https://huggingface.co/datasets/whiskwhite/leetcode-complete https://huggingface.co/datasets/whiskwhite/leetcode-complete විසඳුම් ඉදිරිපත් කිරීම හා ඉදිරිපත් කිරීම සඳහා භාවිතා කරන මෙවලම: https://github.com/whisk/leetgptsolver https://github.com/whisk/leetgptsolver