Mūsu iepriekšējie kritēriji [ , ], es parādīju, ka LLM var veiksmīgi atrisināt lielāko daļu Leetcode problēmas. tomēr, tie ir labāk atrisināt pazīstamas problēmas nekā jaunas. Tādējādi 1 2 3 1 2 3 Sākotnējais SWE Bench un SWE Bench Verified izmanto Python. Es arī izmantoju Python, bet arī Go, C#, JavaScript, Bash un citi reizēm. Tātad es biju dabiski ieinteresēts: kā LLM rezultāti atšķiras dažādās valodās? Mans pieņēmums bija, ka modeļi labāk darbojas ar populārākām valodām, ņemot vērā lielāku publiski pieejamā koda apjomu. Tas atbilst konstatējumiem no , kas novēroja līdzīgus veiktspējas kritumus ne-Python valodās reālās pasaules programmatūras inženierijas uzdevumos. Tomēr reālās pasaules problēmas ietver papildu sarežģītību - rīkus, bibliotēkas, cauruļvadus utt. Es gribēju pārbaudīt modeli, izmantojot tīrāku iestatījumu. Leetcode problēmas izolē valodu, jo pamatalgoritmi lielā mērā ir valodas agnostikas. Tas ir tas, kas padara konstatējumu pārsteidzošāku: pat tad, ja loģika nemainās, valoda, kurā to rakstāt, joprojām ietekmē to, vai modelis to dara pareizi. SWE-bench daudzvalodu SWE-bench daudzvalodu Benchmark Tāpat kā mani iepriekšējie kritēriji, es izmantoju Leetcode tiešsaistes vērtētāju, lai pārbaudītu LLM prasmes algoritmisko problēmu risināšanā. bet šoreiz es eksperimentēju ar četrām dažādām valodām, ar dažādiem popularitātes līmeņiem. Valodas Rakstīšanas brīdī ir aptuveni 20 valodas, ko Leetcode atbalsta algoritmiskām problēmām. Leetcode nesniedz valodas statistiku skaidri, bet lietotāji publicē savus risinājumus, un platforma nodrošina statistiku par šiem publicētajiem risinājumiem. Language Published solutions, % C++ 26.21% Java 25.60% Python3 17.81% Python 7.99% JavaScript 6.68% C 6.45% Go 2.17% C# 2.12% TypeScript 1.44% Swift 0.86% Kotlin 0.74% Rust 0.65% Ruby 0.36% PHP 0.43% Dart 0.25% Scala 0.16% Elixir 0.05% Racket 0.03% C + + 26 21 % Java 25.60% Python3 17.81% Python 7,99% no visiem JavaScript lietošana 6,68% no kopējā C 6,45% no kopējā Iet 2.17 procenti C # 2.12 procenti Tipogrāfija 1.44 procenti Swift 0,86 procenti Kotlins Par 0,74% Rust 0.65% Ruby 0,36 procenti PHP 0,43 procenti Dartā 0,25 % no Skala 0,16 % Elixir 0.05% raķete 0,03 % no Es izvēlējos četras valodas: Java un Python3, kā divas no populārākajām. Leetcode atšķir Python 3 un 2; starp tām ir minimālas atšķirības, un risinājumi 2. versijai gandrīz vienmēr darbosies 3. versijai. Šo četru popularitāte Leetcode korelē ar Lai gan tas precīzi neatbilst. Dzīves indekss Dzīves indekss Language TIOBE Ratings, % Python 21.8 Java 8.12 Rust 1.32 Elixir 0.19 Python 21.8 Java 8.12 Atpūta 1.32 Elixīns 0.19 Turklāt es apskatīju publisko GitHub repos skaitu šīm četrām: Language GitHub Repos, Millions Java 20.20 Python 26.50 Rust 1.00 Elixir 0.12 Java 20.20 Python 26.50 Atpūta 1.00 Elixīns 0.12 Īsāk sakot, Java un Python3 ir visbiežāk sastopamās programmēšanas valodas ar miljoniem publisku projektu, un es sagaidīju, ka LLM tos ļoti labi pārvaldīs. Elixir ir pretējā mēroga pusē, ar mazāk pieejamu kodu, tāpēc LLM spējas ar to var samazināties. Problēma Set Es izvēlējos 100 problēmas, kas publicētas no 2025. gada oktobra līdz 2026. gada februārim. Easy Medium Hard Total 15 59 26 100 15 59 26 100 Mērķis bija iegūt nesenās problēmas, iespējams, "nav redzams" LLMs. Ir zināms, ka risinājumi vecākiem, un jo īpaši populāras problēmas, iekļūt modeļu apmācību komplektos. modeļi References rādītājā izmantotie modeļi ir uzskaitīti zemāk esošajā tabulā, norādot visus neparedzētos parametrus. Izlaišanas un zināšanu pārtraukšanas datumi ir iegūti no piegādātāja oficiālās dokumentācijas un ir sniegti atsaucei. Vendor Model Release date Knowledge cutoff date "Reasoning" Parameters Anthropic claude-sonnet-4-5-20250929 Sep 2025 Jul 2025 No temperature = 0.0 max_tokens = 4096 Google gemini-3-flash-preview Dec 2025 unknown Yes temperature = 0.0 gemini-2.5-flash Apr 2025 unknown Yes temperature = 0.0 xAI grok-code-fast-1-0825 Aug 2025 unknown Yes seed = 42 OpenAI gpt-5-mini Aug 2025 May 2024 Yes seed = 42 Anthropic klavieres-sonete-4-5-20250929 Septembris 2025 Ziemassvētki 2025 Nē Temperatūra ir 0,0 max_tokens = 4096 skaitļi Google gemini-3-flash-preview Dec 2025. gadā Nezināms Jā Temperatūra ir 0,0 Gemini-2.5 izšķirtspēja Apr 2025. gadā unknown Jā Temperatūra ir 0,0 xAI grok-code-fast 1 025 Augs 2025 unknown Jā Sēklinieki = 42 OpenAI LG G5 mini Aug 2025 Maijs 2024 Jā Sēklinieki = 42 Visi modeļi, izņemot Gemini 3 Flash (Preview), tika izlaisti agrāk nekā vecākā problēma datu kopā (oktobris 2025). References mērķis bija būt pēc iespējas deterministiskam un reproducējamam; tāpēc tika izmantoti tādi parametri kā "temperatūra" vai "sēklas".Tomēr neviens no pārbaudītajiem modeļiem negarantē pilnīgi deterministisku izeju. Visi modeļi atbalsta "domāšanas" vai "domāšanas" režīmus pēc noklusējuma, izņemot Claude Sonnet 4.5. Rezultāti A problem is considered "accepted" or "solved" if the solution was accepted by the online judge. All other outcomes, like "wrong answer" or "time limit exceeded," are simply "not accepted" without any differentiation. Model python3 java 𝝙 python3 rust 𝝙 python3 elixir 𝝙 python3 claude-sonnet-4-5-20250929 50% 52% +2 51% +1 35% -15 gemini-2.5-flash 82% 82% +0 77% -5 39% -43 gemini-3-flash-preview 84% 93% +9 78% -6 83% -1 gpt-5-mini 93% 94% +1 80% -13 63% -30 grok-code-fast-1-0825 73% 65% -8 65% -8 30% -43 claude-sonnet-4-5-20250929 50% no 52 procenti +2 +2 51% no +1 +1 35 % -15 -15 gemini-2.5-flash 82% no 82% no +0 +0 77 % -5 -5 39 % -43 -43 gemini-3-flash-preview 84 % 93 % +9 +9 78 procenti -6 -6 83 % -1 -1 gpt-5-mini 93 % 94 procenti +1 +1 80% no -13 -13 63 % -30 -30 grok-code-fast-1-0825 73 % 65 % -8 -8 65 % -8 -8 30 % -43 Rezultāti parāda skaidru Elixir samazināšanos lielākajā daļā modeļu, bet vai šīs atšķirības ir statistiski nozīmīgas? Lai novērtētu, vai starp valodām ir statistiski nozīmīgas atšķirības, es izmantoju divu proporciju z-testu. divām valodām, kuras katra pārbaudīta par N = 100 problēmām, minimālo atklājamo atšķirību p = 0,05 norāda ar 1,96×√(2p̄(1-p̄)/N), kur p̄ ir vidējais pieņemšanas ātrums starp abām valodām. Ņemot Python kā bāzes līniju, Python-Java un Python-Rust plaisas nav nozīmīgas visiem modeļiem (slieksnis ~11.7pp un ~12.3pp, attiecīgi). Tomēr Python-Elixir atšķirība ievērojami pārsniedz ~13.4pp slieksni visiem modeļiem, izņemot Gemini 3 Flash Preview, kas norāda, ka tie apstrādā Elixir ievērojami sliktāk. Datubāzes problēmas Interesanti, ka šis modelis attiecas arī uz SQL. Man bija 321 Leetcode datu bāzes problēmu kolekcija, kas publicēta no 2015. līdz 2025. gadam. Easy Medium Hard Total 114 142 65 321 114 142 65 321 Es izmantoju tās pašas piecas LLM kā algoritmiskajā references, bet tikai divām valodām: MySQL un Oracle SQL. Lai gan šīs divas īstenošanas galvenokārt ir savstarpēji aizstājamas, ir smalkas atšķirības. Attiecībā uz Oracle SQL ir 15 reizes mazāk publicētu risinājumu par Leetcode nekā par MySQL. TIOBE un GitHub nesniedz nekādus statistikas datus par šīm valodām, jo tās faktiski nav programmēšanas valodas. Ņemot vērā, ka lielākā daļa problēmu ir pirms modeļu zināšanu pārtraukšanas datumiem, piesārņojums ir iespējams un jāņem vērā, interpretējot šos rezultātus. Model MySQL Oracle SQL 𝝙 claude-sonnet-4-5-20250929 87.5% 76.3% -11.2 gemini-2.5-flash 86.6% 67.9% -18.7 gemini-3-flash-preview 95.6% 85.7% -9.9 gpt-5-mini 89.1% 79.4% -9.7 grok-code-fast-1-0825 80.4% 66.7% -13.7 claude-sonnet-4-5-20250929 87,5 procenti 76.3% -11.2 gemini-2.5-flash 86,6 procenti 67.9 % no visiem -18.7 gemini-3-flash-preview 95,6 % no 85.7% no visiem -9.9 gpt-5-mini 89.1 % no visiem 79.4 procenti -9.7 grok-code-fast-1-0825 80.4 procenti 66,7% no visiem -13.7 Ar N = 321 problēmām un vidējo pārejas ātrumu aptuveni 82%, nozīmīguma slieksnis ir aptuveni 6 procentu punkti. Tas nozīmē, ka katram pārbaudītajam modelim ir ievērojami augstāks MySQL pieņemšanas līmenis. Secinājums We can see that LLM performance on coding problems correlates with language popularity. This is perhaps surprising: algorithmic problems are largely language-agnostic, so one might expect the underlying logic to transfer across languages. Yet, the data shows otherwise — the language you write in matters, even when the algorithm itself does not change. Ar Python un Java, visplašāk izmantotajām valodām, modeļi pārspēj Elixir, nišas valodu. Visticamākais izskaidrojums ir apmācības datu blīvums: populārākas valodas rada vairāk kodu piemēru, dodot modeļiem vairāk materiāla, no kura mācīties. Praktiskā nozīme ir vienkārša: ja jūs paļauties uz LLM kodēšanas palīdzību, jūsu valodas izvēle ir svarīga - potenciāli tikpat daudz kā jūsu modeļa izvēle. Tomēr nav skaidrs, kāda ir faktiskā popularitātes attiecība.Rust, neskatoties uz to, ka ir daudz mazāk publisku repozitoriju un publicēti Leetcode risinājumi, neparādīja statistiski nozīmīgas atšķirības. Vairāki virzieni būtu vērts izpētīt. Pirmkārt, problēmu kopuma paplašināšana ļautu apstiprināt vai izslēgt Rust konstatējumu. Otrkārt, papildu valodu, piemēram, Scala, Dart vai Racket, testēšana palīdzētu precīzāk noteikt popularitātes un veiktspējas attiecības. Un, tā kā LLM turpina attīstīties, būs vērts izsekot, vai nišu valodu plaisa laika gaitā sašaurināsies. Kreisajā Datu kopums, kas izmantots šim benchmark: https://huggingface.co/datasets/whiskwhite/leetcode-complete https://huggingface.co/datasets/whiskwhite/leetcode-complete Rīks, ko izmanto, lai ierosinātu un iesniegtu risinājumus: https://github.com/whisk/leetgptsolver https://github.com/whisk/leetgptsolver