У мојим претходним бенчмарковима [ , ], показао сам да ЛЛМс могу успешно решити већину Леетцоде проблема. Међутим, они су бољи у решавању познатих проблема од нових. Ово се може објаснити контаминираним подацима о обуци - решења за познате проблеме вероватно ће бити укључена у податке о обуци (ово је делимично потврђено недавним ОпенАИ коментарима о СВЕ Бенцху [ ] ) ) 1 2 3 1 2 3 Оригинални СВЕ Бенцх и СВЕ Бенцх Верифиед користе Питхон. Такође користим Питхон, али и Го, Ц#, ЈаваСцрипт, Басх и друге повремено. Тако сам био природно заинтересован: како се резултати ЛЛМ разликују по језицима? Моја претпоставка је била да модели боље раде са популарнијим језицима, с обзиром на већи волумен јавно доступног кода. Ово је усклађено са резултатима из , који је посматрао сличне падове у перформансама на не-Питон језицима у стварним софтверским инжењерским задацима. Међутим, проблеми у стварном свету укључују додатну сложеност - алатке, библиотеке, цевоводи, итд Желео сам да проверим образац, користећи чистију конфигурацију. Проблеми Леетцоде изолују сам језик, јер су основни алгоритми углавном језички агностични. То је оно што чини налаз још изненађујућим: чак и када се логика не мења, језик који пишете још увијек утиче на то да ли је модел у праву. СВЕ-Бенцх вишејезични СВЕ-Бенцх вишејезични Бенчмарк Као иу мојим претходним бенчмарковима, користио сам ЛиетЦоде онлине судију, да проверим вештине ЛЛМ-а о решавању алгоритамских проблема. језици Постоји око 20 језика које подржава Leetcode за алгоритамске проблеме у тренутку писања. Leetcode не пружа статистику језика експлицитно, али корисници објављују своја решења, а платформа пружа статистику за та објављена решења. Language Published solutions, % C++ 26.21% Java 25.60% Python3 17.81% Python 7.99% JavaScript 6.68% C 6.45% Go 2.17% C# 2.12% TypeScript 1.44% Swift 0.86% Kotlin 0.74% Rust 0.65% Ruby 0.36% PHP 0.43% Dart 0.25% Scala 0.16% Elixir 0.05% Racket 0.03% С++ 26 21% Java 25.60% Python3 17.81% Python 7,99 одсто javascript 6 68% C 6.45% од Иди 2.17 одсто c# 2.12 одсто Типографија 1,4 одсто Брзо 0,86 одсто котлин 0,74 одсто Rust 0.65% Руби 0,36 % PHP 0,43 одсто Дарт 0,25 одсто скала 0,16 % Elixir 0.05% ракета 0,03% од Изабрао сам четири језика: Јава и Пајтон3, као два од најпопуларнијих. Леетцоде разликује између Пајтона 3 и 2; постоје минималне разлике између њих, а решења за верзију 2 ће скоро увек радити за верзију 3. Популарност ових четири на Леетцоде-у корелира са Iako se ne uklapa tačno. Индекс Тиобе Индекс Тиобе Language TIOBE Ratings, % Python 21.8 Java 8.12 Rust 1.32 Elixir 0.19 Python 21.8 Јава 8.12 Спокој 1.32 Еликсир 0.19 Поред тога, погледао сам број јавних ГитХуб репоса за те четири: Language GitHub Repos, Millions Java 20.20 Python 26.50 Rust 1.00 Elixir 0.12 Јава 20.20 Python 26.50 Спокој 1.00 Еликсир 0.12 Укратко, Јава и Питхон3 представљају најчешће програмске језике са милионима јавних пројеката, и очекивао сам да ће их ЛЛМс врло добро управљати. Еликир је на супротној страни скале, са редовима величине мање доступним кодом, тако да се способности ЛЛМ-а могу смањити са њим. Проблем сет Изабрао сам 100 проблема, објављених између октобра 2025. и фебруара 2026. Easy Medium Hard Total 15 59 26 100 15 59 26 100 Намера је била да добије недавне проблеме, вероватно "невидљиве" од стране ЛЛМ-а. Познато је да решења за старије, а нарочито популарне проблеме, улазе у тренинг сетове модела. Модели Модели који се користе у бенчмарку су наведени у табели испод, са свим не-подразумеваним параметрима наведеним. Vendor Model Release date Knowledge cutoff date "Reasoning" Parameters Anthropic claude-sonnet-4-5-20250929 Sep 2025 Jul 2025 No temperature = 0.0 max_tokens = 4096 Google gemini-3-flash-preview Dec 2025 unknown Yes temperature = 0.0 gemini-2.5-flash Apr 2025 unknown Yes temperature = 0.0 xAI grok-code-fast-1-0825 Aug 2025 unknown Yes seed = 42 OpenAI gpt-5-mini Aug 2025 May 2024 Yes seed = 42 Anthropic клауде-сонет-4-5-20250929 Сеп 2025 Божић 2025 Не Температура = 0,0 макс_токенс = 4096 Google gemini-3-фласх преглед Дец 2025 непознато Да Температура = 0,0 Гемини-2.5 Фласх Април 2025 непознато Да Температура = 0,0 xAI грок-код-фаст-1-0825 Ауг 2025 непознато Да семена = 42 OpenAI ГПТ-5 мини Ауг 2025 мај 2024 Да семена = 42 Сви модели, осим Гемини 3 Фласх (Преглед), објављени су раније од најстаријег проблема у скупу података (Октобар 2025). Бенчмарк је имао за циљ да буде што детерминистичнији и репродуктивнији; стога су коришћени параметри као што су "температура" или "семе". Међутим, ниједан од тестираних модела не гарантује потпуно детерминистички излаз. Сви модели подржавају "разумијевање" или "мислити" режиме подразумевано, осим за Claude Sonnet 4.5. Остале функције модела (или "инструменти") попут веб претраге нису били омогућени, чак и ако су подржани. Резултати Проблем се сматра "прихваћеним" или "решеним" ако је решење прихваћено од стране онлине судије. Сви остали резултати, као што су "погрешан одговор" или "временски рок прекорачен", једноставно "не прихватају" без икакве диференцијације. Model python3 java 𝝙 python3 rust 𝝙 python3 elixir 𝝙 python3 claude-sonnet-4-5-20250929 50% 52% +2 51% +1 35% -15 gemini-2.5-flash 82% 82% +0 77% -5 39% -43 gemini-3-flash-preview 84% 93% +9 78% -6 83% -1 gpt-5-mini 93% 94% +1 80% -13 63% -30 grok-code-fast-1-0825 73% 65% -8 65% -8 30% -43 claude-sonnet-4-5-20250929 50% од 52 одсто +2 +2 51 одсто +1 +1 35% од -15 -15 gemini-2.5-flash 82 одсто 82 одсто +0 +0 77 одсто -5 -5 39 одсто -43 -43 gemini-3-flash-preview 84 одсто 93 одсто +9 +9 78 одсто -6 -6 83 одсто -1 -1 gpt-5-mini 93 одсто 94 одсто +1 +1 80% од -13 -13 63 одсто -30 -30 grok-code-fast-1-0825 73 одсто 65% од -8 -8 65% од -8 -8 30 % -43 Резултати показују јасан пад за Еликсир у већини модела.Али да ли су ове разлике статистички значајне? Да бих проценио да ли су разлике у стопама пролаза између језика статистички значајне, користио сам два пропорционална з-теста.За два језика сваки тестиран на Н = 100 проблема, минимална откривена разлика на п = 0,05 даје се 1.96×√(2p̄(1-p̄)/N), где је п̄ просечна стопа прихватања између два језика. Узимајући Питхон као излазну линију, празнине Питхон-Јава и Питхон-Руст нису значајне за све моделе (прагови ~11.7пп и ~12.3пп, респективно). Пајтон-Еликир јаз, међутим, добро прелази свој праг од ~13.4пп за све моделе осим Гемини 3 Фласх Превиев, што указује на то да они управљају Еликир значајно лошије. Проблеми база података Занимљиво је да се овај образац односи и на СКЛ.Имао сам збирку од 321 проблема Леетцоде базе података, објављених од 2015. до 2025. године. Easy Medium Hard Total 114 142 65 321 114 142 65 321 Користио сам исте пет ЛЛМ-а као у алгоритамској референци, али само за два језика: МиСКЛ и Орацле СКЛ. Иако су те две имплементације углавном заменљиве, постоје суптилне разлике. За Орацле СКЛ, постоји 15 пута мање објављених решења на Леетцоде него за МиСКЛ. TIOBE и ГитХуб не пружају никакве статистике за те језике - јер они, у ствари, нису програмски језици. С обзиром да већина проблема претходи датуму прекида знања модела, контаминација је могућа и треба имати на уму приликом тумачења ових резултата. Model MySQL Oracle SQL 𝝙 claude-sonnet-4-5-20250929 87.5% 76.3% -11.2 gemini-2.5-flash 86.6% 67.9% -18.7 gemini-3-flash-preview 95.6% 85.7% -9.9 gpt-5-mini 89.1% 79.4% -9.7 grok-code-fast-1-0825 80.4% 66.7% -13.7 claude-sonnet-4-5-20250929 87,5 одсто 76,3 одсто -11.2 gemini-2.5-flash 86,6 одсто 67,9 одсто -18.7 gemini-3-flash-preview 95,6 одсто 85,7 одсто -9.9 gpt-5-mini 89.1 одсто 79.4 одсто -9.7 grok-code-fast-1-0825 80.4 одсто 66,7 одсто -13.7 Са Н = 321 проблемима и просечним стопама пролаза око 82%, праг значаја је око 6 процентних поена. То значи да сваки тестирани модел показује значајно већу стопу прихватања за МиСКЛ. Закључак Можемо видети да перформансе ЛЛМ-а о проблемима кодирања корелирају са популарношћу језика. Ово је нарочито изненађујуће: алгоритамски проблеми су углавном језички агностички, тако да се може очекивати да ће се основна логика пренијети преко језика. Са Пајтоном и Јавом, најчешће коришћеним језицима, модели превазилазе Еликир, језик нише.Исти тренд се примењује на СКЛ проблеме, где ЛЛМ-ови боље раде у МиСКЛ-у него у Орацле СКЛ-у. Највероватније објашњење је густина података обуке: популарнији језици генеришу више примера кода, дајући моделима више материјала за учење. Практична импликација је једноставна: ако се ослањате на ЛЛМ-ове за помоћ у кодирању, ваш избор језика је важан - потенцијално колико и ваш избор модела.Ради са неуобичајеним језицима значи прихватање значајно слабије подршке за АИ, иако је Гемини 3 Фласх Превиев изузетак, показујући готово униформне резултате на свим тестираним језицима за алгоритамске проблеме. Rust, uprkos tome što ima mnogo manje javnih repozitorija i objavljenih Leetcode rešenja, nije pokazao statistički značajnu razliku. Неколико праваца би било вредно истраживања. Прво, проширење сета проблема омогућило би потврђивање или искључивање налаза Руста. Друго, тестирање додатних језика као што су Сцала, Дарт или Рацкет помогло би да се прецизније успостави однос популарности и перформанси. лево Сет података који се користи за овај бенчмарк: https://huggingface.co/datasets/whiskwhite/leetcode-complete https://huggingface.co/datasets/whiskwhite/leetcode-complete Алат који се користи за подстицање и подношење решења: https://github.com/whisk/leetgptsolver https://github.com/whisk/leetgptsolver