මගේ පහුගිය පර්යේෂණවලදී [ , ], මම පෙන්වා දුන්නේ LLMs සාර්ථකව Leetcode ප්රශ්න බොහෝ විසඳා ගත හැකි බව. කෙසේ වෙතත්, ඔවුන් ප්රසිද්ධ ප්රශ්න විසඳීමට වඩා නව ප්රශ්න වඩා හොඳයි. මෙය දූෂිත පුහුණු දත්ත මගින් පැහැදිලි කළ හැකිය - ප්රසිද්ධ ප්රශ්න සඳහා විසඳුම් පුහුණු දත්ත ඇතුළත් විය හැකි (මෙය අළුත් OpenAI SWE Bench පිළිබඳ ප්රතිචාරය විසින් කොටසක් තහවුරු කර ඇත [ ) ) 1 2 3 1 2 3 මුල් SWE Bench සහ SWE Bench Verified Python භාවිතා කරනවා. මම Python භාවිතා කරනවා, නමුත් සමහර වෙලාවට Go, C#, JavaScript, Bash සහ අනෙකුත්. එබැවින් මම ස්වාභාවිකව උනන්දු විය: LLM ප්රතිඵල භාෂාව හරහා වෙනස් වන්නේ කෙසේද? මෙම සොයාගැනීම් සමඟ සංකීර්ණ වන්නේ සැබෑ ලෝකයේ මෘදුකාංග ඉංජිනේරු කාර්යයන් වල Non-Python භාෂා වල සමාන ප්රතිඵල අඩුවීම් දැක ඇති අතර, සැබෑ ලෝකයේ ගැටළු වලට අමතර මෘදුකාංග, පුස්තකාල, pipelines ආදිය.I wanted to verify the pattern, using a cleaner setup.Leetcode problems isolate the language itself, since the underlying algorithms are largely language-agnostic.This is what makes the finding more surprising: even when the logic does not change, the language you write it in still affects whether the model gets it right. SWE-BENCH බහු භාෂා SWE-BENCH බහු භාෂා Benchmark එක මගේ පෙර ප්රවේශයන් මෙන්, මම ලෙට්කෝඩ් සමඟ අමුත්තන් විනිශ්චය භාවිතා, ඇල්ගාඩ් ප්රශ්න විසඳීම පිළිබඳ LLM හැකියාවන් තහවුරු කිරීමට. භාෂා ලිවීමේ මොහොතේ ලෙට්කෝඩ් විසින් අර්ථකථන ගැටළු සඳහා සහාය දක්වන භාෂා 20 ක් පමණ ඇත. ලෙට්කෝඩ් පැහැදිලිව භාෂා ප්රතිපත්ති සපයන්නේ නැත, නමුත් පරිශීලකයින් ඔවුන්ගේ විසඳුම් ප්රකාශ කරයි, සහ වේදිකාව එම ප්රකාශ කරන ලද විසඳුම් සඳහා ප්රතිපත්ති සපයයි. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Language 
 Published solutions, % 
 
 
 
 C++ 
 26.21% 
 
 
 
 Java 
 25.60% 
 
 
 
 Python3 
 17.81% 
 
 
 
 Python 
 7.99% 
 
 
 
 JavaScript 
 6.68% 
 
 
 
 C 
 6.45% 
 
 
 
 Go 
 2.17% 
 
 
 
 C# 
 2.12% 
 
 
 
 TypeScript 
 1.44% 
 
 
 
 Swift 
 0.86% 
 
 
 
 Kotlin 
 0.74% 
 
 
 
 Rust 
 0.65% 
 
 
 
 Ruby 
 0.36% 
 
 
 
 PHP 
 0.43% 
 
 
 
 Dart 
 0.25% 
 
 
 
 Scala 
 0.16% 
 
 
 
 Elixir 
 0.05% 
 
 
 
 Racket 
 0.03% C++ 26.21% ක් Java 25.60% Python3 17.81% Python එක 7.99% ක් ජාවාරම් 6.68% ක් C 6.45% ක් යන්න 2.17% ක් C# 2.12% ක් ටයිප්සින් 1.44% ක් වේගවත් 0.86% ක් කොට්ලන් 0.74% ක් Rust 0.65% Ruby 0.36% ක් PHP 0.43% ක් ඩාර්ට් 0.25% ක් ස්කලා 0.16% ක් Elixir 0.05% රොකට් 0.03% ක් මම ප්රසිද්ධතම භාෂා දෙකක් ලෙස Java සහ Python3 යන භාෂා හතරක් තෝරා ගත්තා. Leetcode Python 3 සහ 2 අතර වෙනස්කම් අඩුයි; ඔවුන් අතර වෙනස අඩුයි, සහ අනුවාදය 2 සඳහා විසඳුම් සෑම විටම අනුවාදය 3 සඳහා ක්රියාත්මක වනු ඇත. Leetcode හි මෙම හතරේ ජනප් රියත්වය සම්බන්ධ වන්නේ නමුත් එය නිවැරදිව ගැලපෙන්නේ නැත. ඉංජිනේරු Index ඉංජිනේරු Index 
 
 
 
 
 
 
 
 
 
 Language 
 TIOBE Ratings, % 
 
 
 
 Python 
 21.8 
 
 
 
 Java 
 8.12 
 
 
 
 Rust 
 1.32 
 
 
 
 Elixir 
 0.19 Python එක 21.8 ජාවා 8.12 විවේක 1.32 Elixir 0.19 මීට අමතරව, මම මෙම හතර සඳහා පොදු GitHub repos ගණන දිහා බැලුවා: 
 
 
 
 
 
 
 
 
 
 Language 
 GitHub Repos, Millions 
 
 
 
 Java 
 20.20 
 
 
 
 Python 
 26.50 
 
 
 
 Rust 
 1.00 
 
 
 
 Elixir 
 0.12 ජාවා 20.20 Python එක 26.50 විවේක 1.00 Elixir 0.12 කෙටියෙන් කිවහොත්, Java සහ Python3 යනු ප්රසිද්ධතම වැඩසටහන් භාෂා මිලියන ගණනාවක් සහිත පොදු ව්යාපෘති, මම බලාපොරොත්තු වුණේ LLMs ඔවුන් ඉතා හොඳින් කටයුතු කරනු ඇත. Elixir ප්රමාණයේ ප්රතිපත්තිය මත වේ, අඩු ප්රමාණයේ කේතයක් ලබා ගත හැකි, එබැවින් LLMs හැකියාවන් එය සමග අඩු විය හැකිය. ගැටලුව Set මම තෝරා 100 ප්රශ්න, ඔක්තෝබර් 2025 සහ පෙබරවාරි 2026 අතර ප්රකාශ කරන ලදී. 
 
 
 
 
 
 
 
 
 Easy 
 Medium 
 Hard 
 Total 
 
 
 
 
 
 15 
 59 
 26 
 100 15 59 26 100 මෙම ඉලක්කය පසුගිය ප්රශ්න ලබා ගැනීමට විය, බොහෝ විට "සහ" LLMs. එය පැරණි, විශේෂයෙන් ජනප්රිය ප්රශ්න සඳහා විසඳුම්, ආකෘති පුහුණු කට්ටයන් ඇතුළත් බව දන්නා. ආකෘති benchmark හි භාවිතා කරන ආකෘති පහත පරිච්ඡේදයේ ලැයිස්තුගත කර ඇති අතර, නොමිලේ නොතිබුණු සියලු ප්රමාණයන් සඳහන් කර ඇත. release and knowledge cut date are obtained from the vendor's official documentation and provided for reference. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Vendor 
 Model 
 Release date 
 Knowledge cutoff date 
 "Reasoning" 
 Parameters 
 
 
 
 
 
 
 
 Anthropic 
 claude-sonnet-4-5-20250929 
 Sep 2025 
 Jul 2025 
 No 
 temperature = 0.0 max_tokens = 4096 
 
 
 
 
 
 
 
 Google 
 gemini-3-flash-preview 
 Dec 2025 
 unknown 
 Yes 
 temperature = 0.0 
 
 
 
 
 
 
 
 
 gemini-2.5-flash 
 Apr 2025 
 unknown 
 Yes 
 temperature = 0.0 
 
 
 
 
 
 
 
 xAI 
 grok-code-fast-1-0825 
 Aug 2025 
 unknown 
 Yes 
 seed = 42 
 
 
 
 
 
 
 
 OpenAI 
 gpt-5-mini 
 Aug 2025 
 May 2024 
 Yes 
 seed = 42 Anthropic මාලිගාව-සොන්ට්-4-5-20250929 ජනවාරි 2025 නත්තල් 2025 නෑ උෂ්ණත්වය = 0.0 ටොක්ස් = 4096 Google Gemini-3-Flash ප්රදර්ශනය ඩෙංගු 2025 නොදන්නා ඔව් උෂ්ණත්වය = 0.0 Gemini-2.5 ෆ්ලැස් ඇපල් 2025 නොදන්නා ඔව් උෂ්ණත්වය = 0.0 xAI මාලිගාව-කැමති-කැමති-කැමති-1-0825 අගෝස්තු 2025 නොදන්නා ඔව් මාලිගාව = 42 OpenAI GPT-5-Mini සඳහා අගෝස්තු 2025 මැයි 2024 ඔව් මාලිගාව = 42 Gemini 3 Flash (Preview) හැර සියලුම ආකෘති දත්ත රැස්වීමේ පැරණිම ගැටලුවකට පෙර (Oct 2025) නිකුත් කර ඇත. එබැවින්, "පිරිමි" හෝ "පිරිමි" වැනි ප්රමාණයන් භාවිතා කර ඇත. කෙසේ වෙතත්, පරීක්ෂා කරන ලද ආකෘති කිසිවක් සම්පූර්ණයෙන්ම deterministic ප්රතිඵල සහතික කර නැත. සියලුම ආකෘති "අනන්දනය කිරීම" හෝ "අනන්දනය කිරීම" ආකෘති සහාය වන අතර, Claude Sonnet 4.5 හැර. ප් රතිඵල අන්තර්ජාල විනිසුරු විසින් විසඳුම පිළිගනු ලැබූ විට ගැටලුව "සැලකිලිමත්" හෝ "සැලකිලිමත්" ලෙස සලකනු ලැබේ. "වැරදි පිළිතුරක්" හෝ "විශේෂ කාලය" වැනි අනෙකුත් ප්රතිඵල කිසිදු වෙනස් කිරීමකින් තොරව "සැලකිලිමත් නැත". 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Model 
 python3 
 java 
 𝝙 python3 
 rust 
 𝝙 python3 
 elixir 
 𝝙 python3 
 
 
 
 
 
 
 
 
 
 claude-sonnet-4-5-20250929 
 50% 
 52% 
 +2 
 51% 
 +1 
 35% 
 -15 
 
 
 
 
 
 
 
 
 
 gemini-2.5-flash 
 82% 
 82% 
 +0 
 77% 
 -5 
 39% 
 -43 
 
 
 
 
 
 
 
 
 
 gemini-3-flash-preview 
 84% 
 93% 
 +9 
 78% 
 -6 
 83% 
 -1 
 
 
 
 
 
 
 
 
 
 gpt-5-mini 
 93% 
 94% 
 +1 
 80% 
 -13 
 63% 
 -30 
 
 
 
 
 
 
 
 
 
 grok-code-fast-1-0825 
 73% 
 65% 
 -8 
 65% 
 -8 
 30% 
 -43 claude-sonnet-4-5-20250929 50% ක් 52% ක් +2 +2 51% ක් +1 +1 35% ක් -15 -15 gemini-2.5-flash 82% ක් 82% ක් +0 +0 77% ක් -5 -5 39% ක් -43 -43 gemini-3-flash-preview 84% ක් 93% ක් +9 +9 78% ක් -6 -6 83 % -1 -1 gpt-5-mini 93% ක් 94% ක් +1 +1 80% ක් -13 -13 63% ක් -30 -30 grok-code-fast-1-0825 73 % 65% ක් -8 -8 65% ක් -8 -8 30% ක් -43 ප්රතිඵල බොහෝ ආකෘති වලදී Elixir හි පැහැදිලි පහත වැටීම පෙන්වනවා.ඒත් මෙම වෙනස සංඛ්යාත වශයෙන් වැදගත්ද? භාෂා අතර ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵල ප්රතිඵ Python-Java සහ Python-Rust හි හිංසනයන් සියලුම ආකෘති සඳහා වැදගත් නොවේ (අධිකව ~11.7pp සහ ~12.3pp). කෙසේ වෙතත්, Python-Elixir වෙනස, Gemini 3 ෆ්ලැස් ප්රදර්ශනය හැර සියලුම ආකෘති සඳහා ~13.4pp මට්ටමට වඩා වැඩි වන අතර, ඔවුන් Elixir වඩාත් නරක ලෙස කටයුතු කරන බව පෙන්වා දෙයි. දත්ත පදනම ගැටළු මම 2015 සිට 2025 දක්වා ප්රකාශ කරන ලද 321 Leetcode දත්ත පදනම ගැටළු රැස්වීමක් තිබුණා. 
 
 
 
 
 
 
 
 
 Easy 
 Medium 
 Hard 
 Total 
 
 
 
 
 
 114 
 142 
 65 
 321 114 142 65 321 මම ඉලෙක්ට්රොයිමීය බැංකු මාතෘකාව වැනි එකම පහක් භාවිතා කළා, නමුත් භාෂා දෙකක් සඳහා පමණක්: MySQL සහ Oracle SQL. ඒ දෙකේ යෙදුම් බොහෝ විට හුවමාරු කළ හැකි වුවද, පුළුල් වෙනස ඇත. Oracle SQL සඳහා, Leetcode මත ප්රකාශ කරන විසඳුම් MySQL වලට වඩා 15 වතාවක් අඩු වේ. TIOBE සහ GitHub එම භාෂා සඳහා කිසිදු සංඛ්යාතයක් සපයන්නේ නැත - ඔවුන්, ඇත්ත වශයෙන්ම, වැඩසටහන් භාෂා නොවේ. බොහෝ ප්රශ්න ආකෘති දැනුම කපන දිනයකට පෙර වන බැවින්, අපද්රව්ය විය හැකි වන අතර මෙම ප්රතිඵල පරිවර්තනය කරන විට සැලකිලිමත් විය යුතුය. 
 
 
 
 
 
 
 
 
 
 
 
 
 Model 
 MySQL 
 Oracle SQL 
 𝝙 
 
 
 
 
 
 claude-sonnet-4-5-20250929 
 87.5% 
 76.3% 
 -11.2 
 
 
 
 
 
 gemini-2.5-flash 
 86.6% 
 67.9% 
 -18.7 
 
 
 
 
 
 gemini-3-flash-preview 
 95.6% 
 85.7% 
 -9.9 
 
 
 
 
 
 gpt-5-mini 
 89.1% 
 79.4% 
 -9.7 
 
 
 
 
 
 grok-code-fast-1-0825 
 80.4% 
 66.7% 
 -13.7 claude-sonnet-4-5-20250929 87,5 % 76.3% ක් -11.2 gemini-2.5-flash 86% ක් 67.9% ක් -18.7 gemini-3-flash-preview 95.6% ක් 85.7% ක් -9.9 gpt-5-mini 89.1% ක් 79.4% ක් -9.7 grok-code-fast-1-0825 84.4% ක් 67.7% ක් -13.7 N = 321 ප්රශ්න සහ සාමාන්ය ප්රවේශ ප්රතිශත 82%, වැදගත්කම අර්ධ 6 ප්රතිශත වේ. එයින් අදහස් වන්නේ, පරීක්ෂා කරන ලද සෑම ආකෘතියක්ම MySQL සඳහා ඉතා ඉහළ පිළිගැනීමේ ප් රතිශතයක් පෙන්වනවා. ප් රතිඵල අපි දකිනවා LLM කේත ප්රශ්න පිළිබඳ ප්රතිඵල භාෂා ප්රසිද්ධිය සමග සම්බන්ධ වේ. මෙය විශේෂයෙන් පුදුමාකාර වේ: ඇල්ගාටීමි ප්රශ්න ප්රධාන වශයෙන් භාෂා-ඇග්නස්ක්, එබැවින් පදනම සංකල්පය භාෂා හරහා මාරු කිරීමට බලාපොරොත්තු විය හැක. Python සහ Java සමඟ, වඩාත් පුළුල් ලෙස භාවිතා කරන භාෂා, ආකෘති Elixir, නයිස් භාෂාව ඉටු කරයි. වඩාත් ප්රමාණවත් පැහැදිලි කිරීම පුහුණු දත්ත ගැඹුරුකම වේ: වඩාත් ජනප්රිය භාෂා වඩාත් කේත උදාහරණ නිර්මාණය, ආකෘති වඩාත් ද්රව්ය ඉගෙන ගැනීමට ලබා දෙයි. ප්රායෝගික බලපෑම සරල ය: ඔබ coding උපකාර සඳහා LLMs මත රඳා පවතී නම්, ඔබේ භාෂා තෝරා ගැනීම වැදගත් වන අතර, ඔබගේ ආකෘති තෝරාගැනීමේ හැකියාවත් සමාන ය. අසාමාන්ය භාෂා සමඟ වැඩ කිරීම අර්ථයෙන් දුර්වල AI සහාය පිළිගැනීමට අදහස් කරයි, කෙසේ වෙතත් Gemini 3 Flash Preview අමුද්රව්ය ගැටළු සඳහා පරීක්ෂා කරන ලද සියලු භාෂා වල ප්රතිඵල සාපේක්ෂව සමාන වේ. කෙසේ වෙතත්, සැබෑ ජනප්රියත්වය සම්බන්ධතාවය කුමක්ද යන්න පැහැදිලි නැත.Rust, වඩාත් අඩු ප්රකාශගත ප්රතිපත්තිය සහ ප්රකාශයට පත් කරන ලද Leetcode විසඳුම් ඇති වුවද, සංඛ්යාත වශයෙන් වැදගත් වෙනසක් පෙන්වන්නේ නැත. කිහිපයක් අධ්යයනය කිරීමට සුදුසු වනු ඇත. පළමුව, ප්රශ්න සංකේතය පුළුල් කිරීම Rust සොයාගැනීම තහවුරු කිරීමට හෝ ඉවත් කිරීමට ඉඩ දෙනු ඇත. දෙවනුව, Scala, Dart, හෝ Racket වැනි අමතර භාෂා පරීක්ෂා කිරීම වඩාත් නිශ්චිතව ජනප්රියත්වය හා ප්රතිඵලතාවය සම්බන්ධතාවය සකස් කිරීමට උපකාරී වනු ඇත. වම් මෙම benchmark සඳහා භාවිතා කරන දත්ත සමුදාය: https://huggingface.co/datasets/whiskwhite/leetcode-complete https://huggingface.co/datasets/whiskwhite/leetcode-complete විසඳුම් ඉදිරිපත් කිරීම හා ඉදිරිපත් කිරීම සඳහා භාවිතා කරන මෙවලම: https://github.com/whisk/leetgptsolver https://github.com/whisk/leetgptsolver

This story contains new, firsthand information uncovered by the writer.

Read My Stories

මෙම ශ්‍රව්‍යය කතාවේ මුල් භාෂාවෙන් නිෂ්පාදනය කර ඇත!

වැඩසටහන් භාෂා හරහා LLMs' coding හැකියාවන් සමාන කිරීම

About Author

අදහස්

ටැග් එල්ලන්න

මෙම ලිපිය ඉදිරිපත් කරන ලදී

Related Stories

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

Verified Writers

The #blockchain-api Writing Contest by dRPC & HackerNoon: Results Announcement 🎉

Meet PennyFly Entertainment, Startups of the Year Winner (Malibu, CA)

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

Verified Writers

The #blockchain-api Writing Contest by dRPC & HackerNoon: Results Announcement 🎉

Meet PennyFly Entertainment, Startups of the Year Winner (Malibu, CA)

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps