나의 이전 벤치마크에서 [ , ], LLM은 대부분의 Leetcode 문제를 성공적으로 해결할 수 있음을 보여주었습니다.그러나, 그들은 새로운 문제보다 잘 알려진 문제를 해결하는 데 더 나은 것입니다.이것은 오염된 교육 데이터에 의해 설명 될 수 있습니다 - 잘 알려진 문제에 대한 해결책은 교육 데이터에 포함 될 가능성이 있습니다 (이것은 SWE 벤치에 관한 최근 OpenAI 의견에 의해 부분적으로 확인됩니다. ] ) 1 2 3 1 2 3 원래 SWE 벤치와 SWE 벤치 검증은 파이썬을 사용합니다. 나는 또한 파이썬을 사용하지만 Go, C#, JavaScript, Bash 및 다른 사람들도 때때로 사용합니다. 그래서 나는 자연스럽게 관심이있었습니다 : LLM 결과는 어떻게 언어에 따라 다릅니까? 이것은 이들의 발견과 일치한다. 실제 소프트웨어 엔지니어링 작업에서 비 파이썬 언어에서 비슷한 성능 감소가 관찰되었습니다.그러나 실제 문제는 도구, 도서관, 파이프라인 등과 같은 추가적인 복잡성을 포함합니다.나는 깨끗한 설정을 사용하여 패턴을 확인하고 싶었습니다.Leetcode 문제는 기본 알고리즘이 대부분 언어-아노시스트이기 때문에 언어 자체를 고립합니다.이것이 발견을 더욱 놀랍게 만듭니다 : 논리가 변하지 않더라도, 당신이 그것을 쓰는 언어는 여전히 모델이 그것을 올바르게 얻는지 여부에 영향을 미칩니다. SWE-bench 다국어 SWE-bench 다국어 벤치마크 이전 기준과 마찬가지로, 나는 알고리즘 문제를 해결하기 위해 LLM 기술을 검증하기 위해 Leetcode 온라인 판단기를 사용했습니다. 언어 Leetcode는 언어 통계를 명시적으로 제공하지 않지만 사용자가 솔루션을 게시하고 플랫폼은 게시된 솔루션에 대한 통계를 제공합니다. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Language 
 Published solutions, % 
 
 
 
 C++ 
 26.21% 
 
 
 
 Java 
 25.60% 
 
 
 
 Python3 
 17.81% 
 
 
 
 Python 
 7.99% 
 
 
 
 JavaScript 
 6.68% 
 
 
 
 C 
 6.45% 
 
 
 
 Go 
 2.17% 
 
 
 
 C# 
 2.12% 
 
 
 
 TypeScript 
 1.44% 
 
 
 
 Swift 
 0.86% 
 
 
 
 Kotlin 
 0.74% 
 
 
 
 Rust 
 0.65% 
 
 
 
 Ruby 
 0.36% 
 
 
 
 PHP 
 0.43% 
 
 
 
 Dart 
 0.25% 
 
 
 
 Scala 
 0.16% 
 
 
 
 Elixir 
 0.05% 
 
 
 
 Racket 
 0.03% C++ 26.21 % Java 25.60% Python3 17.81% 파이썬 7.99 % 자바스크립트 6.68 % C 6.45 % 가라 2.17 % C # 2.12 % 타이프스크립 1.44 % 스위스 0.86 퍼센트 고양이 0.74 % Rust 0.65% 루비 0.36 % PHP 0.43 % 다트 0.25 % 스케일 0.16 % Elixir 0.05% 라켓 0 0 % Leetcode는 Python 3과 2를 구별합니다; 그들 사이에는 최소한의 차이가 있으며, 버전 2에 대한 솔루션은 거의 항상 버전 3에 작동합니다. Leetcode에서 이러한 네 가지의 인기는 그와 상관이 있습니다. 하지만 정확하게 일치하지는 않는다. 인덱스 인덱스 인덱스 인덱스 
 
 
 
 
 
 
 
 
 
 Language 
 TIOBE Ratings, % 
 
 
 
 Python 
 21.8 
 
 
 
 Java 
 8.12 
 
 
 
 Rust 
 1.32 
 
 
 
 Elixir 
 0.19 파이썬 21.8 java 8.12 쉬기 1.32 엘릭스 0.19 또한, 나는 그 4 개를위한 공공 GitHub 리포의 수를 살펴 보았다 : 
 
 
 
 
 
 
 
 
 
 Language 
 GitHub Repos, Millions 
 
 
 
 Java 
 20.20 
 
 
 
 Python 
 26.50 
 
 
 
 Rust 
 1.00 
 
 
 
 Elixir 
 0.12 java 20.20 파이썬 26.50 쉬기 1.00 엘릭스 0.12 간단히 말해서, Java와 Python3는 수백만 개의 공공 프로젝트를 가진 가장 일반적인 프로그래밍 언어를 대표하며, LLM이 그들을 매우 잘 처리할 것이라고 예상했습니다.Elixir는 규모의 반대편에 있으며, 코드의 규모가 덜 사용할 수 있으므로 LLM의 능력은 감소 할 수 있습니다.Rust는 중간에 있습니다. 문제 세트 나는 10 월 2025 년부터 2 월 2026 년 사이에 출판 된 100 가지 문제를 선택했습니다. 
 
 
 
 
 
 
 
 
 Easy 
 Medium 
 Hard 
 Total 
 
 
 
 
 
 15 
 59 
 26 
 100 15 59 26 100 의도는 LLMs에 의해 아마도 "보이지 않는"최근의 문제를 얻는 것이 었습니다.이 오래된, 특히 대중적인 문제에 대한 해결책이 모델의 훈련 세트에 들어가는 것으로 알려져 있습니다. 모델들 벤치마크에 사용된 모델은 아래 표에 나와 있으며, 모든 기본적인 매개 변수가 지정되어 있지 않습니다. 릴리스 및 지식 절단 날짜는 공급자의 공식 문서에서 얻어지고 참조를 위해 제공됩니다. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Vendor 
 Model 
 Release date 
 Knowledge cutoff date 
 "Reasoning" 
 Parameters 
 
 
 
 
 
 
 
 Anthropic 
 claude-sonnet-4-5-20250929 
 Sep 2025 
 Jul 2025 
 No 
 temperature = 0.0 max_tokens = 4096 
 
 
 
 
 
 
 
 Google 
 gemini-3-flash-preview 
 Dec 2025 
 unknown 
 Yes 
 temperature = 0.0 
 
 
 
 
 
 
 
 
 gemini-2.5-flash 
 Apr 2025 
 unknown 
 Yes 
 temperature = 0.0 
 
 
 
 
 
 
 
 xAI 
 grok-code-fast-1-0825 
 Aug 2025 
 unknown 
 Yes 
 seed = 42 
 
 
 
 
 
 
 
 OpenAI 
 gpt-5-mini 
 Aug 2025 
 May 2024 
 Yes 
 seed = 42 Anthropic 클라우드 소네트-4-5-20250929 세이프 2025 크리스마스 2025 아니오 온도 = 0.0 max_토큰 = 4096 Google 제미니-3 플래시 프리뷰 데크 2025 알려지지 않은 예 온도 = 0.0 제미니-2.5 플래시 아프리카 2025 알려지지 않은 예 온도 = 0.0 xAI 웨이브코드 - 빠른-1-0825 오브 2025 알려지지 않은 예 옥수수 = 42 OpenAI gpt-5 미니 오브 2025 2024년 5월 예 옥수수 = 42 Gemini 3 Flash (Preview)를 제외한 모든 모델은 데이터 세트에서 가장 오래된 문제 (Oct 2025)보다 일찍 출시되었습니다. 벤치마크는 가능한 한 결정적이고 재현 가능하도록 목표로 하였다; 따라서 "온도"또는 " 씨앗"과 같은 매개 변수가 사용되었습니다.그러나, 테스트 된 모델 중 어느 것도 완전히 결정적인 출력을 보장하지 않습니다.이 결과를 재현할 때 이것을 명심해야합니다. 모든 모델은 기본적으로 Claude Sonnet 4.5를 제외하고는 "모론" 또는 "생각" 모드를 지원합니다. 결과 모든 다른 결과는 "잘못된 대답"또는 "시간 제한이 초과되었습니다"와 같은 단순히 "차별화없이 받아 들여지지 않습니다. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Model 
 python3 
 java 
 𝝙 python3 
 rust 
 𝝙 python3 
 elixir 
 𝝙 python3 
 
 
 
 
 
 
 
 
 
 claude-sonnet-4-5-20250929 
 50% 
 52% 
 +2 
 51% 
 +1 
 35% 
 -15 
 
 
 
 
 
 
 
 
 
 gemini-2.5-flash 
 82% 
 82% 
 +0 
 77% 
 -5 
 39% 
 -43 
 
 
 
 
 
 
 
 
 
 gemini-3-flash-preview 
 84% 
 93% 
 +9 
 78% 
 -6 
 83% 
 -1 
 
 
 
 
 
 
 
 
 
 gpt-5-mini 
 93% 
 94% 
 +1 
 80% 
 -13 
 63% 
 -30 
 
 
 
 
 
 
 
 
 
 grok-code-fast-1-0825 
 73% 
 65% 
 -8 
 65% 
 -8 
 30% 
 -43 claude-sonnet-4-5-20250929 50 % 52 % +2 +2 51 % +1 +1 35 % -15 -15 gemini-2.5-flash 82 % 82 % +0 +0 77 % -5 -5 39 % -43 -43 gemini-3-flash-preview 84 % 93 % +9 +9 78 % -6 -6 83 % -1 -1 gpt-5-mini 93 % 94 % +1 +1 80 % -13 -13 63 % -30 -30 grok-code-fast-1-0825 73 % 65 % -8 -8 65 % -8 -8 30 % -43 결과는 대부분의 모델에서 Elixir의 분명한 감소를 보여줍니다.그러나 이러한 차이는 통계적으로 의미가 있습니까? N=100 문제를 각각 테스트 한 두 언어의 경우, p=0.05의 최소 감지 가능한 차이는 1.96×√(2p̄(1-p̄)/N로 표시되며, p̄는 두 언어 간의 평균 수용률입니다. Python을 기본으로 취할 때, Python-Java 및 Python-Rust 격차는 모든 모델에서 중요하지 않습니다 (약 ~11.7pp 및 ~12.3pp, 각각). 그러나 Python-Elixir 격차는 Gemini 3 플래시 프리뷰를 제외한 모든 모델에서 ~13.4pp의 경계를 훨씬 넘어, 그들이 Elixir를 훨씬 나쁘게 처리한다는 것을 나타냅니다. 데이터베이스 문제 흥미롭게도, 이 패턴은 SQL에도 적용됩니다.I had a collection of 321 Leetcode database problems, published from 2015 to 2025. 
 
 
 
 
 
 
 
 
 Easy 
 Medium 
 Hard 
 Total 
 
 
 
 
 
 114 
 142 
 65 
 321 114 142 65 321 나는 알고리즘 벤치마크에서와 동일한 다섯 개의 LLM을 사용했지만 MySQL과 Oracle SQL 두 개의 언어에 불과합니다.Though those two implementations are mostly interchangeable, there are subtle differences. Oracle SQL의 경우, Leetcode에 게시된 솔루션은 MySQL보다 15배 적습니다. TIOBE와 GitHub는 그 언어에 대한 통계를 제공하지 않습니다. 대부분의 문제는 모델의 지식 절단 날짜를 앞두고 있기 때문에 오염이 가능하며 이러한 결과를 해석할 때 염두에 두어야합니다. 
 
 
 
 
 
 
 
 
 
 
 
 
 Model 
 MySQL 
 Oracle SQL 
 𝝙 
 
 
 
 
 
 claude-sonnet-4-5-20250929 
 87.5% 
 76.3% 
 -11.2 
 
 
 
 
 
 gemini-2.5-flash 
 86.6% 
 67.9% 
 -18.7 
 
 
 
 
 
 gemini-3-flash-preview 
 95.6% 
 85.7% 
 -9.9 
 
 
 
 
 
 gpt-5-mini 
 89.1% 
 79.4% 
 -9.7 
 
 
 
 
 
 grok-code-fast-1-0825 
 80.4% 
 66.7% 
 -13.7 claude-sonnet-4-5-20250929 87,5 % 76.3 % -11.2 gemini-2.5-flash 86 % 67.9 % -18.7 gemini-3-flash-preview 95.6 % 85.7 % -9.9 gpt-5-mini 89.1 % 79.4 % -9.7 grok-code-fast-1-0825 80.4 % 66.7 % -13.7 N=321 문제와 평균 통과율이 약 82% 인 경우 중요성 경계는 약 6 퍼센트입니다. 즉, 테스트된 모든 모델은 MySQL에 대해 상당히 높은 수용률을 나타냅니다. 결론 우리는 코딩 문제에 대한 LLM의 성능이 언어의 인기가와 상관이 있다는 것을 볼 수 있습니다.이것은 특히 놀랍습니다 : 알고리즘 문제는 대부분 언어 아그네스틱, 그래서 당신은 언어를 통해 기본적인 논리를 전송 기대할 수 있습니다.그러나, 데이터는 다르게 보여줍니다 - 당신이 문제에 쓰는 언어, 알고리즘 자체가 변경되지 않을 때조차. 가장 널리 사용되는 언어인 파이썬과 자바와 함께 모델은 틈새 언어인 엘리시어(Elixir)를 뛰어넘는다.이와 같은 경향은 SQL 문제에 있어 LLM은 Oracle SQL보다 MySQL에서 더 잘 작동한다. 가장 확실한 설명은 교육 데이터 밀도입니다 : 더 인기있는 언어는 더 많은 코드 예를 생성하여 모델에게 더 많은 자료를 제공합니다. 실용적인 의미는 간단합니다 : 당신이 코딩 지원을 위해 LLM에 의존하는 경우, 당신의 언어 선택은 중요합니다 - 잠재적으로 당신의 모델 선택만큼.이 특이한 언어로 작업하는 것은 의미있는 약한 AI 지원을 받아들이는 것을 의미하지만, Gemini 3 플래시 프리뷰는 알고리즘 문제에 대한 모든 테스트 된 언어에서 거의 동일한 결과를 보여주는 눈에 띄는 예외입니다. Rust는 공공 저장소가 훨씬 적고 Leetcode 솔루션이 발표되었음에도 불구하고 통계적으로 중요한 차이를 보여주지 않았습니다. 여러 방향을 탐구할 가치가있을 것입니다. 첫째, 문제 세트를 확장하면 Rust 발견이 확인되거나 배제 될 수 있습니다. 둘째, Scala, Dart 또는 Racket과 같은 추가 언어를 테스트하면 인기가 성과 관계를보다 정확하게 설정하는 데 도움이됩니다. 그리고 LLM이 계속해서 진화함에 따라 틈새 언어의 격차가 시간이 지남에 따라 좁아지는지 여부를 추적하는 것이 가치가있을 것입니다. 왼쪽 이 벤치마크에 사용된 데이터 세트: Dataset used for this benchmark: https://huggingface.co/datasets/whiskwhite/leetcode-complete https://huggingface.co/datasets/whiskwhite/leetcode-complete 해결책을 촉구하고 제출하는 데 사용되는 도구: https://github.com/whisk/leetgptsolver https://github.com/whisk/leetgptsolver

This story contains new, firsthand information uncovered by the writer.

Read My Stories

이 오디오는 이야기의 원래 언어로 제작되었습니다!

LLM의 코딩 능력을 프로그래밍 언어에 비교하기

About Author

코멘트

태그 걸기

이 기사는 다음에서 발표되었습니다.

Related Stories

포럼에서 피드까지: 소셜 미디어 알고리즘이 디지털 상호작용을 형성하는 방식

AI의 힘을 발휘하세요. 최첨단 기술의 체계적 검토: 개요 및 소개

디지털 유목민 들어보기: 태국의 새로운 DTV 비자에 대해 알아야 할 사항

HackerNoon 글쓰기 대회에서 우승하고 싶으신가요? #crypto-api 대회 우승자들이 추천하는 내용은 다음과 같습니다.

포럼에서 피드까지: 소셜 미디어 알고리즘이 디지털 상호작용을 형성하는 방식

AI의 힘을 발휘하세요. 최첨단 기술의 체계적 검토: 개요 및 소개

디지털 유목민 들어보기: 태국의 새로운 DTV 비자에 대해 알아야 할 사항

HackerNoon 글쓰기 대회에서 우승하고 싶으신가요? #crypto-api 대회 우승자들이 추천하는 내용은 다음과 같습니다.

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps