U mojim prethodnim referentnim vrijednostima [ , ], Pokazao sam da LLM-ovi mogu uspješno riješiti većinu Leetcode problema. međutim, oni su bolji u rješavanju poznatih problema od novih. To se može objasniti kontaminiranim podacima o osposobljavanju - rješenja za poznate probleme vjerojatno će biti uključena u podatke o osposobljavanju (to je djelomično potvrđeno nedavnim OpenAI komentarima o SWE Bench [ Na primjer.) 1 2 3 1 2 3 Originalni SWE Bench i SWE Bench Verified koriste Python. Također koristim Python, ali i Go, C#, JavaScript, Bash i drugi povremeno. Dakle, bio sam prirodno zainteresiran: kako se rezultati LLM-a razlikuju među jezicima? Moja pretpostavka je bila da modeli bolje rade s popularnijim jezicima, s obzirom na veći volumen javno dostupnog koda. To je u skladu s nalazima iz , koji je promatrao slične padove performansi na ne-Python jezicima u stvarnom svijetu softverskih inženjerskih zadataka. Međutim, stvarni problemi uključuju dodatnu složenost - alat, knjižnice, cijevi, itd Htio sam provjeriti uzorak, koristeći čistiju konfiguraciju. Leetcode problemi izoliraju jezik sam, jer su osnovni algoritmi uglavnom jezik-agnostički. To je ono što čini otkriće još iznenađujuće: čak i kada se logika ne mijenja, jezik koji pišete u još uvijek utječe na to da li model to ispravno. SWE-bench Multilingual SWE-bench višejezični Benchmark Kao i u mojim prethodnim referentnim vrijednostima, upotrijebio sam Leetcode online sudiju, kako bih provjerio vještine LLM-a u rješavanju algoritamskih problema. Jezici Postoji oko 20 jezika koje Leetcode podržava za algoritamske probleme u trenutku pisanja. Leetcode ne pruža statistiku jezika izričito, ali korisnici objavljuju svoja rješenja, a platforma pruža statistiku za ta objavljena rješenja. Language Published solutions, % C++ 26.21% Java 25.60% Python3 17.81% Python 7.99% JavaScript 6.68% C 6.45% Go 2.17% C# 2.12% TypeScript 1.44% Swift 0.86% Kotlin 0.74% Rust 0.65% Ruby 0.36% PHP 0.43% Dart 0.25% Scala 0.16% Elixir 0.05% Racket 0.03% C++ 26 21 posto Java 25.60% Python3 17.81% Python 7,99 posto javascript 6,68 posto C 6.45 posto Idite 2.17 posto C# 2.12 posto Tipografija 1.44 posto Swift 0,86 posto Kotlin 0.74% Rust 0.65% Rubij 0,36 posto PHP 0,43 posto Dart 0.25% Scala 0,16 % Elixir 0.05% Raketa 0,03 posto Odabrao sam četiri jezika: Java i Python3, kao dva od najpopularnijih. Leetcode razlikuje Python 3 i 2; postoje minimalne razlike između njih, a rješenja za verziju 2 gotovo će uvijek raditi za verziju 3. Popularnost tih četiri na Leetcode korelira s Iako se ne uklapa točno. Sljedeći indeks Sljedeći indeks Language TIOBE Ratings, % Python 21.8 Java 8.12 Rust 1.32 Elixir 0.19 Python 21.8 Java 8.12 odmor 1.32 Elixir 0.19 Osim toga, pogledao sam broj javnih GitHub repos za te četiri: Language GitHub Repos, Millions Java 20.20 Python 26.50 Rust 1.00 Elixir 0.12 Java 20.20 Python 26.50 odmor 1.00 Elixir 0.12 In short, Java and Python3 represent the most common programming languages with millions of public projects, and I expected that LLMs would handle them very well. Elixir is on the opposite side of the scale, with orders of magnitude less available code, so LLMs' abilities may diminish with it. Rust is somewhere in the middle — clearly popular, but can LLMs handle it well? Problem sastavljen Odabrao sam 100 problema, objavljenih između listopada 2025. i veljače 2026. Easy Medium Hard Total 15 59 26 100 15 59 26 100 Namjera je bila dobiti nedavne probleme, vjerojatno "neviđene" od strane LLM-a. Poznato je da rješenja za starije, a posebno popularne probleme, ulaze u modelove treninga. Modeli Modeli koji se koriste u referentnoj vrijednosti navedeni su u donjoj tablici, a navedeni su svi parametri koji nisu podrazumijevani. Vendor Model Release date Knowledge cutoff date "Reasoning" Parameters Anthropic claude-sonnet-4-5-20250929 Sep 2025 Jul 2025 No temperature = 0.0 max_tokens = 4096 Google gemini-3-flash-preview Dec 2025 unknown Yes temperature = 0.0 gemini-2.5-flash Apr 2025 unknown Yes temperature = 0.0 xAI grok-code-fast-1-0825 Aug 2025 unknown Yes seed = 42 OpenAI gpt-5-mini Aug 2025 May 2024 Yes seed = 42 Anthropic claude-sonnet-4-5-20250929 Sep 2025. godine Božić 2025. Ne Temperatura zraka 0,0 max_tokeni = 4096 Google Gemini-3 flash-pregled Dec 2025. godine unknown Yes Temperatura zraka 0,0 Sljedeći članak Gemini-2.5 Flash Apr 2025. godine nepoznat da Temperatura zraka 0,0 xAI grok-code-fast-1-0825 Aug 2025. nepoznat da sjeme = 42 OpenAI Sljedeći članakGPT-5-mini Aug 2025 May 2024 Yes seed = 42 Svi modeli, osim Gemini 3 Flash (Preview), objavljeni su ranije od najstarijeg problema u skupu podataka (okt 2025.). Cilj referentne vrijednosti bio je biti što deterministskiji i reproduktivniji; stoga su korišteni parametri kao što su "temperatura" ili "sjemenke". Svi modeli podupiru načine "razumijevanje" ili "razmišljanje" podrazumijevano, osim za Claude Sonnet 4.5. Druge značajke modela (ili "outils") poput pretraživanja na mreži nisu bile omogućene, čak i ako su podržane. Rezultati Problem se smatra "prihvaćenim" ili "riješenim" ako je rješenje prihvaćeno od strane online suca. svi ostali rezultati, kao što su "pogrešan odgovor" ili "vremenski rok prekoračen", jednostavno su "ne prihvaćeni" bez ikakve diferencijacije. Model python3 java 𝝙 python3 rust 𝝙 python3 elixir 𝝙 python3 claude-sonnet-4-5-20250929 50% 52% +2 51% +1 35% -15 gemini-2.5-flash 82% 82% +0 77% -5 39% -43 gemini-3-flash-preview 84% 93% +9 78% -6 83% -1 gpt-5-mini 93% 94% +1 80% -13 63% -30 grok-code-fast-1-0825 73% 65% -8 65% -8 30% -43 claude-sonnet-4-5-20250929 50 posto 52 posto +2 +2 51 posto +1 +1 35 posto -15 -15 gemini-2.5-flash 82 posto 82 posto +0 +0 77 posto -5 -5 39 posto -43 -43 gemini-3-flash-preview 84 posto 93 posto +9 +9 78 posto -6 -6 83 posto -1 -1 gpt-5-mini 93 posto 94 posto +1 +1 80 posto -13 -13 63 posto -30 -30 grok-code-fast-1-0825 73 posto 65 posto -8 -8 65 posto -8 -8 30% -43 Rezultati pokazuju jasan pad za Elixir u većini modela. ali jesu li te razlike statistički značajne? To assess whether differences in pass rates between languages are statistically significant, I used a two-proportion z-test. For two languages each tested on N=100 problems, the minimum detectable difference at p=0.05 is given by 1.96×√(2p̄(1-p̄)/N), where p̄ is the average acceptance rate across the two languages. Uzimajući Python kao osnovnu liniju, praznine Python-Java i Python-Rust nisu značajne za sve modele (granične vrijednosti ~11.7pp i ~12.3pp, odnosno). Razlika Python-Elixir, međutim, dobro premašuje prag od ~13.4pp za sve modele osim Gemini 3 Flash Preview, što ukazuje na to da oni rješavaju Elixir znatno lošije. Problemi baze podataka Imala sam zbirku od 321 Leetcode baza podataka problema, objavljen od 2015. do 2025. Easy Medium Hard Total 114 142 65 321 114 142 65 321 Koristio sam istih pet LLM-ova kao u algoritamskoj referenci, ali samo za dva jezika: MySQL i Oracle SQL. For Oracle SQL, there are 15 times fewer published solutions on Leetcode than for MySQL. TIOBE and GitHub don't provide any statistics for those languages — because they are, in fact, not programming languages. Budući da većina problema prethodi datumu prekida znanja modela, kontaminacija je moguća i treba imati na umu prilikom tumačenja tih rezultata. Model MySQL Oracle SQL 𝝙 claude-sonnet-4-5-20250929 87.5% 76.3% -11.2 gemini-2.5-flash 86.6% 67.9% -18.7 gemini-3-flash-preview 95.6% 85.7% -9.9 gpt-5-mini 89.1% 79.4% -9.7 grok-code-fast-1-0825 80.4% 66.7% -13.7 claude-sonnet-4-5-20250929 87,5 posto 76,3 posto -11.2 gemini-2.5-flash 86,6 posto 67.9 posto -18.7 gemini-3-flash-preview 95,6 posto 85.7% -9.9 gpt-5-mini 89.1 posto 79.4 posto -9.7 grok-code-fast-1-0825 84.4 posto 66,7 posto -13.7 Uz N = 321 problema i prosječne stope prodaje oko 82%, prag značajnosti je oko 6 postotnih bodova. To znači da svaki testiran model pokazuje znatno veću stopu prihvaćanja za MySQL. Conclusion We can see that LLM performance on coding problems correlates with language popularity. This is perhaps surprising: algorithmic problems are largely language-agnostic, so one might expect the underlying logic to transfer across languages. Yet, the data shows otherwise — the language you write in matters, even when the algorithm itself does not change. S Pythonom i Java-om, najčešće korištenim jezicima, modeli nadmašuju Elixir, jezik niše.Ista je tendencija za SQL probleme, gdje LLM-ovi rade bolje u MySQL nego u Oracle SQL. Najvjerojatnije objašnjenje je usavršavanje gustoće podataka: popularniji jezici generiraju više primjeraka koda, dajući modelima više materijala za učenje. The practical implication is straightforward: if you rely on LLMs for coding assistance, your language choice matters — potentially as much as your model choice. Working with uncommon languages means accepting meaningfully weaker AI support, though Gemini 3 Flash Preview is a notable exception, showing near-uniform results across all tested languages for algorithmic problems. Rust, unatoč tome što ima mnogo manje javnih repozitorija i objavljenih Leetcode rješenja, nije pokazao statistički značajnu razliku. Nekoliko smjerova bilo bi vrijedno istraživanja. Prvo, proširenje skup problema omogućilo bi potvrdu ili isključenje nalaza Rust. Drugo, testiranje dodatnih jezika kao što su Scala, Dart ili Racket pomoći bi da se točnije uspostavi odnos popularnosti i uspješnosti. lijevo Dataset koji se koristi za ovu referentnu vrijednost: https://huggingface.co/datasets/whiskwhite/leetcode-complete https://huggingface.co/datasets/whiskwhite/leetcode-complete Alat koji se koristi za promicanje i podnošenje rješenja: https://github.com/whisk/leetgptsolver https://github.com/whisk/leetgptsolver