Mūsu iepriekšējie kritēriji [ , ], es parādīju, ka LLM var veiksmīgi atrisināt lielāko daļu Leetcode problēmas. tomēr, tie ir labāk atrisināt pazīstamas problēmas nekā jaunas. Tādējādi 1 2 3 1 2 3 Sākotnējais SWE Bench un SWE Bench Verified izmanto Python. Es arī izmantoju Python, bet arī Go, C#, JavaScript, Bash un citi reizēm. Tātad es biju dabiski ieinteresēts: kā LLM rezultāti atšķiras dažādās valodās? Mans pieņēmums bija, ka modeļi labāk darbojas ar populārākām valodām, ņemot vērā lielāku publiski pieejamā koda apjomu. Tas atbilst konstatējumiem no , kas novēroja līdzīgus veiktspējas kritumus ne-Python valodās reālās pasaules programmatūras inženierijas uzdevumos. Tomēr reālās pasaules problēmas ietver papildu sarežģītību - rīkus, bibliotēkas, cauruļvadus utt. Es gribēju pārbaudīt modeli, izmantojot tīrāku iestatījumu. Leetcode problēmas izolē valodu, jo pamatalgoritmi lielā mērā ir valodas agnostikas. Tas ir tas, kas padara konstatējumu pārsteidzošāku: pat tad, ja loģika nemainās, valoda, kurā to rakstāt, joprojām ietekmē to, vai modelis to dara pareizi. SWE-bench daudzvalodu SWE-bench daudzvalodu Benchmark Tāpat kā mani iepriekšējie kritēriji, es izmantoju Leetcode tiešsaistes vērtētāju, lai pārbaudītu LLM prasmes algoritmisko problēmu risināšanā. bet šoreiz es eksperimentēju ar četrām dažādām valodām, ar dažādiem popularitātes līmeņiem. Valodas Rakstīšanas brīdī ir aptuveni 20 valodas, ko Leetcode atbalsta algoritmiskām problēmām. Leetcode nesniedz valodas statistiku skaidri, bet lietotāji publicē savus risinājumus, un platforma nodrošina statistiku par šiem publicētajiem risinājumiem. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Language 
 Published solutions, % 
 
 
 
 C++ 
 26.21% 
 
 
 
 Java 
 25.60% 
 
 
 
 Python3 
 17.81% 
 
 
 
 Python 
 7.99% 
 
 
 
 JavaScript 
 6.68% 
 
 
 
 C 
 6.45% 
 
 
 
 Go 
 2.17% 
 
 
 
 C# 
 2.12% 
 
 
 
 TypeScript 
 1.44% 
 
 
 
 Swift 
 0.86% 
 
 
 
 Kotlin 
 0.74% 
 
 
 
 Rust 
 0.65% 
 
 
 
 Ruby 
 0.36% 
 
 
 
 PHP 
 0.43% 
 
 
 
 Dart 
 0.25% 
 
 
 
 Scala 
 0.16% 
 
 
 
 Elixir 
 0.05% 
 
 
 
 Racket 
 0.03% C + + 26 21 % Java 25.60% Python3 17.81% Python 7,99% no visiem JavaScript lietošana 6,68% no kopējā C 6,45% no kopējā Iet 2.17 procenti C # 2.12 procenti Tipogrāfija 1.44 procenti Swift 0,86 procenti Kotlins Par 0,74% Rust 0.65% Ruby 0,36 procenti PHP 0,43 procenti Dartā 0,25 % no Skala 0,16 % Elixir 0.05% raķete 0,03 % no Es izvēlējos četras valodas: Java un Python3, kā divas no populārākajām. Leetcode atšķir Python 3 un 2; starp tām ir minimālas atšķirības, un risinājumi 2. versijai gandrīz vienmēr darbosies 3. versijai. Šo četru popularitāte Leetcode korelē ar Lai gan tas precīzi neatbilst. Dzīves indekss Dzīves indekss 
 
 
 
 
 
 
 
 
 
 Language 
 TIOBE Ratings, % 
 
 
 
 Python 
 21.8 
 
 
 
 Java 
 8.12 
 
 
 
 Rust 
 1.32 
 
 
 
 Elixir 
 0.19 Python 21.8 Java 8.12 Atpūta 1.32 Elixīns 0.19 Turklāt es apskatīju publisko GitHub repos skaitu šīm četrām: 
 
 
 
 
 
 
 
 
 
 Language 
 GitHub Repos, Millions 
 
 
 
 Java 
 20.20 
 
 
 
 Python 
 26.50 
 
 
 
 Rust 
 1.00 
 
 
 
 Elixir 
 0.12 Java 20.20 Python 26.50 Atpūta 1.00 Elixīns 0.12 Īsāk sakot, Java un Python3 ir visbiežāk sastopamās programmēšanas valodas ar miljoniem publisku projektu, un es sagaidīju, ka LLM tos ļoti labi pārvaldīs. Elixir ir pretējā mēroga pusē, ar mazāk pieejamu kodu, tāpēc LLM spējas ar to var samazināties. Problēma Set Es izvēlējos 100 problēmas, kas publicētas no 2025. gada oktobra līdz 2026. gada februārim. 
 
 
 
 
 
 
 
 
 Easy 
 Medium 
 Hard 
 Total 
 
 
 
 
 
 15 
 59 
 26 
 100 15 59 26 100 Mērķis bija iegūt nesenās problēmas, iespējams, "nav redzams" LLMs. Ir zināms, ka risinājumi vecākiem, un jo īpaši populāras problēmas, iekļūt modeļu apmācību komplektos. modeļi References rādītājā izmantotie modeļi ir uzskaitīti zemāk esošajā tabulā, norādot visus neparedzētos parametrus. Izlaišanas un zināšanu pārtraukšanas datumi ir iegūti no piegādātāja oficiālās dokumentācijas un ir sniegti atsaucei. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Vendor 
 Model 
 Release date 
 Knowledge cutoff date 
 "Reasoning" 
 Parameters 
 
 
 
 
 
 
 
 Anthropic 
 claude-sonnet-4-5-20250929 
 Sep 2025 
 Jul 2025 
 No 
 temperature = 0.0 max_tokens = 4096 
 
 
 
 
 
 
 
 Google 
 gemini-3-flash-preview 
 Dec 2025 
 unknown 
 Yes 
 temperature = 0.0 
 
 
 
 
 
 
 
 
 gemini-2.5-flash 
 Apr 2025 
 unknown 
 Yes 
 temperature = 0.0 
 
 
 
 
 
 
 
 xAI 
 grok-code-fast-1-0825 
 Aug 2025 
 unknown 
 Yes 
 seed = 42 
 
 
 
 
 
 
 
 OpenAI 
 gpt-5-mini 
 Aug 2025 
 May 2024 
 Yes 
 seed = 42 Anthropic klavieres-sonete-4-5-20250929 Septembris 2025 Ziemassvētki 2025 Nē Temperatūra ir 0,0 max_tokens = 4096 skaitļi Google gemini-3-flash-preview Dec 2025. gadā Nezināms Jā Temperatūra ir 0,0 Gemini-2.5 izšķirtspēja Apr 2025. gadā unknown Jā Temperatūra ir 0,0 xAI grok-code-fast 1 025 Augs 2025 unknown Jā Sēklinieki = 42 OpenAI LG G5 mini Aug 2025 Maijs 2024 Jā Sēklinieki = 42 Visi modeļi, izņemot Gemini 3 Flash (Preview), tika izlaisti agrāk nekā vecākā problēma datu kopā (oktobris 2025). References mērķis bija būt pēc iespējas deterministiskam un reproducējamam; tāpēc tika izmantoti tādi parametri kā "temperatūra" vai "sēklas".Tomēr neviens no pārbaudītajiem modeļiem negarantē pilnīgi deterministisku izeju. Visi modeļi atbalsta "domāšanas" vai "domāšanas" režīmus pēc noklusējuma, izņemot Claude Sonnet 4.5. Rezultāti A problem is considered "accepted" or "solved" if the solution was accepted by the online judge. All other outcomes, like "wrong answer" or "time limit exceeded," are simply "not accepted" without any differentiation. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Model 
 python3 
 java 
 𝝙 python3 
 rust 
 𝝙 python3 
 elixir 
 𝝙 python3 
 
 
 
 
 
 
 
 
 
 claude-sonnet-4-5-20250929 
 50% 
 52% 
 +2 
 51% 
 +1 
 35% 
 -15 
 
 
 
 
 
 
 
 
 
 gemini-2.5-flash 
 82% 
 82% 
 +0 
 77% 
 -5 
 39% 
 -43 
 
 
 
 
 
 
 
 
 
 gemini-3-flash-preview 
 84% 
 93% 
 +9 
 78% 
 -6 
 83% 
 -1 
 
 
 
 
 
 
 
 
 
 gpt-5-mini 
 93% 
 94% 
 +1 
 80% 
 -13 
 63% 
 -30 
 
 
 
 
 
 
 
 
 
 grok-code-fast-1-0825 
 73% 
 65% 
 -8 
 65% 
 -8 
 30% 
 -43 claude-sonnet-4-5-20250929 50% no 52 procenti +2 +2 51% no +1 +1 35 % -15 -15 gemini-2.5-flash 82% no 82% no +0 +0 77 % -5 -5 39 % -43 -43 gemini-3-flash-preview 84 % 93 % +9 +9 78 procenti -6 -6 83 % -1 -1 gpt-5-mini 93 % 94 procenti +1 +1 80% no -13 -13 63 % -30 -30 grok-code-fast-1-0825 73 % 65 % -8 -8 65 % -8 -8 30 % -43 Rezultāti parāda skaidru Elixir samazināšanos lielākajā daļā modeļu, bet vai šīs atšķirības ir statistiski nozīmīgas? Lai novērtētu, vai starp valodām ir statistiski nozīmīgas atšķirības, es izmantoju divu proporciju z-testu. divām valodām, kuras katra pārbaudīta par N = 100 problēmām, minimālo atklājamo atšķirību p = 0,05 norāda ar 1,96×√(2p̄(1-p̄)/N), kur p̄ ir vidējais pieņemšanas ātrums starp abām valodām. Ņemot Python kā bāzes līniju, Python-Java un Python-Rust plaisas nav nozīmīgas visiem modeļiem (slieksnis ~11.7pp un ~12.3pp, attiecīgi). Tomēr Python-Elixir atšķirība ievērojami pārsniedz ~13.4pp slieksni visiem modeļiem, izņemot Gemini 3 Flash Preview, kas norāda, ka tie apstrādā Elixir ievērojami sliktāk. Datubāzes problēmas Interesanti, ka šis modelis attiecas arī uz SQL. Man bija 321 Leetcode datu bāzes problēmu kolekcija, kas publicēta no 2015. līdz 2025. gadam. 
 
 
 
 
 
 
 
 
 Easy 
 Medium 
 Hard 
 Total 
 
 
 
 
 
 114 
 142 
 65 
 321 114 142 65 321 Es izmantoju tās pašas piecas LLM kā algoritmiskajā references, bet tikai divām valodām: MySQL un Oracle SQL. Lai gan šīs divas īstenošanas galvenokārt ir savstarpēji aizstājamas, ir smalkas atšķirības. Attiecībā uz Oracle SQL ir 15 reizes mazāk publicētu risinājumu par Leetcode nekā par MySQL. TIOBE un GitHub nesniedz nekādus statistikas datus par šīm valodām, jo tās faktiski nav programmēšanas valodas. Ņemot vērā, ka lielākā daļa problēmu ir pirms modeļu zināšanu pārtraukšanas datumiem, piesārņojums ir iespējams un jāņem vērā, interpretējot šos rezultātus. 
 
 
 
 
 
 
 
 
 
 
 
 
 Model 
 MySQL 
 Oracle SQL 
 𝝙 
 
 
 
 
 
 claude-sonnet-4-5-20250929 
 87.5% 
 76.3% 
 -11.2 
 
 
 
 
 
 gemini-2.5-flash 
 86.6% 
 67.9% 
 -18.7 
 
 
 
 
 
 gemini-3-flash-preview 
 95.6% 
 85.7% 
 -9.9 
 
 
 
 
 
 gpt-5-mini 
 89.1% 
 79.4% 
 -9.7 
 
 
 
 
 
 grok-code-fast-1-0825 
 80.4% 
 66.7% 
 -13.7 claude-sonnet-4-5-20250929 87,5 procenti 76.3% -11.2 gemini-2.5-flash 86,6 procenti 67.9 % no visiem -18.7 gemini-3-flash-preview 95,6 % no 85.7% no visiem -9.9 gpt-5-mini 89.1 % no visiem 79.4 procenti -9.7 grok-code-fast-1-0825 80.4 procenti 66,7% no visiem -13.7 Ar N = 321 problēmām un vidējo pārejas ātrumu aptuveni 82%, nozīmīguma slieksnis ir aptuveni 6 procentu punkti. Tas nozīmē, ka katram pārbaudītajam modelim ir ievērojami augstāks MySQL pieņemšanas līmenis. Secinājums We can see that LLM performance on coding problems correlates with language popularity. This is perhaps surprising: algorithmic problems are largely language-agnostic, so one might expect the underlying logic to transfer across languages. Yet, the data shows otherwise — the language you write in matters, even when the algorithm itself does not change. Ar Python un Java, visplašāk izmantotajām valodām, modeļi pārspēj Elixir, nišas valodu. Visticamākais izskaidrojums ir apmācības datu blīvums: populārākas valodas rada vairāk kodu piemēru, dodot modeļiem vairāk materiāla, no kura mācīties. Praktiskā nozīme ir vienkārša: ja jūs paļauties uz LLM kodēšanas palīdzību, jūsu valodas izvēle ir svarīga - potenciāli tikpat daudz kā jūsu modeļa izvēle. Tomēr nav skaidrs, kāda ir faktiskā popularitātes attiecība.Rust, neskatoties uz to, ka ir daudz mazāk publisku repozitoriju un publicēti Leetcode risinājumi, neparādīja statistiski nozīmīgas atšķirības. Vairāki virzieni būtu vērts izpētīt. Pirmkārt, problēmu kopuma paplašināšana ļautu apstiprināt vai izslēgt Rust konstatējumu. Otrkārt, papildu valodu, piemēram, Scala, Dart vai Racket, testēšana palīdzētu precīzāk noteikt popularitātes un veiktspējas attiecības. Un, tā kā LLM turpina attīstīties, būs vērts izsekot, vai nišu valodu plaisa laika gaitā sašaurināsies. Kreisajā Datu kopums, kas izmantots šim benchmark: https://huggingface.co/datasets/whiskwhite/leetcode-complete https://huggingface.co/datasets/whiskwhite/leetcode-complete Rīks, ko izmanto, lai ierosinātu un iesniegtu risinājumus: https://github.com/whisk/leetgptsolver https://github.com/whisk/leetgptsolver

This story contains new, firsthand information uncovered by the writer.

Read My Stories

Šis audio ir izveidots stāsta oriģinālvalodā!

LLM kodēšanas prasmju salīdzināšana dažādās programmēšanas valodās

About Author

KOMENTĀRI

PAKARINĀT TAGUS

ŠIS RAKSTS TIKS PĀRSTRĀDĀTS

Related Stories

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps