En el caso de las referencias anteriores [ , de ], he demostrado que los LLM pueden resolver con éxito la mayoría de los problemas de Leetcode. sin embargo, son mejores en la resolución de problemas conocidos que los nuevos. Esto se puede explicar por datos de formación contaminados - soluciones a problemas conocidos son susceptibles de ser incluidos en los datos de formación (esto es confirmado parcialmente por los recientes comentarios de OpenAI sobre SWE Bench [ ] ) 1 2 3 1 2 3 El original SWE Bench y SWE Bench Verified usa Python. También uso Python, pero además Go, C#, JavaScript, Bash y otros ocasionalmente. Así que naturalmente me interesó: ¿cómo varían los resultados del LLM entre los idiomas? Mi suposición era que los modelos funcionaban mejor con los idiomas más populares, dado el mayor volumen de código disponible públicamente. Esto coincide con los hallazgos de , que observó caídas similares de rendimiento en lenguajes no Python en tareas de ingeniería de software en el mundo real. Sin embargo, los problemas del mundo real implican una complejidad adicional - herramientas, bibliotecas, tuberías, etc. Yo quería verificar el patrón, utilizando una configuración más limpia. Los problemas de Leetcode aislan el lenguaje mismo, ya que los algoritmos subyacentes son en gran parte idiomático-agnosticos. Esto es lo que hace que el hallazgo sea más sorprendente: incluso cuando la lógica no cambia, el idioma en el que lo escribe todavía afecta si el modelo lo consigue correctamente. SWE-bench Multilingüe SWE-bench Multilingüe Benchmark Como en mis referencias anteriores, usé el juez en línea Leetcode, para verificar las habilidades de LLM en la resolución de problemas algorítmicos. lenguas Hay alrededor de 20 idiomas soportados por Leetcode para problemas algorítmicos en el momento de escribir. Leetcode no proporciona estadísticas lingüísticas explícitamente, pero los usuarios publican sus soluciones, y la plataforma proporciona estadísticas para esas soluciones publicadas. Language Published solutions, % C++ 26.21% Java 25.60% Python3 17.81% Python 7.99% JavaScript 6.68% C 6.45% Go 2.17% C# 2.12% TypeScript 1.44% Swift 0.86% Kotlin 0.74% Rust 0.65% Ruby 0.36% PHP 0.43% Dart 0.25% Scala 0.16% Elixir 0.05% Racket 0.03% C++ El 26,21% Java 25.60% Python3 17.81% Python El 7,99% El JavaScript 6.68 por ciento C 6.45 por ciento Vaya El 2.17% C# 2.12 por ciento Tipografía 1.44 por ciento Siguiente 0,86 por ciento Kotlin 0,74 por ciento Rust 0.65% Rubí 0,36 por ciento PHP 0,43 por ciento Dart 0,25 por ciento Escala 0,16 por ciento Elixir 0.05% Raceta El 0,03% Leetcode distingue entre Python 3 y 2; hay diferencias mínimas entre ellos, y las soluciones para la versión 2 casi siempre funcionarán para la versión 3. La popularidad de estos cuatro en Leetcode se correlaciona con la Aunque no coincida exactamente. Índice de TIOBE Índice de TIOBE Language TIOBE Ratings, % Python 21.8 Java 8.12 Rust 1.32 Elixir 0.19 Python 21.8 Java 8.12 El descanso 1.32 Elixir 0.19 Además, miré el número de reposo público de GitHub para esos cuatro: Language GitHub Repos, Millions Java 20.20 Python 26.50 Rust 1.00 Elixir 0.12 Java 20.20 Python 26.50 El descanso 1.00 Elixir 0.12 En resumen, Java y Python3 representan los lenguajes de programación más comunes con millones de proyectos públicos, y esperaba que los LLM los manejaran muy bien. Elixir está en el lado opuesto de la escala, con órdenes de magnitud menos disponibles de código, por lo que las habilidades de los LLM pueden disminuir con ello. Problema del set He seleccionado 100 problemas, publicados entre octubre de 2025 y febrero de 2026. Easy Medium Hard Total 15 59 26 100 15 59 26 100 La intención era obtener problemas recientes, probablemente "invisibles" por los LLMs. Se sabe que las soluciones para problemas más antiguos, y especialmente populares, entran en los conjuntos de capacitación de los modelos. Los modelos Los modelos utilizados en el índice de referencia se enumeran en la tabla siguiente, con todos los parámetros no estándar especificados. Vendor Model Release date Knowledge cutoff date "Reasoning" Parameters Anthropic claude-sonnet-4-5-20250929 Sep 2025 Jul 2025 No temperature = 0.0 max_tokens = 4096 Google gemini-3-flash-preview Dec 2025 unknown Yes temperature = 0.0 gemini-2.5-flash Apr 2025 unknown Yes temperature = 0.0 xAI grok-code-fast-1-0825 Aug 2025 unknown Yes seed = 42 OpenAI gpt-5-mini Aug 2025 May 2024 Yes seed = 42 Anthropic claude-sonnet-4-5-20250929 Sep 2025 Navidad 2025 No Temperatura = 0,0 max_tokens = 4096 Google Gemini-3-Flash-Preview Más detalles Dec 2025 desconocido Sí Temperatura = 0,0 GEMINI-2.5 y Flash APR 2025 desconocido Sí Temperatura = 0,0 xAI Limpieza rápida-1-0825 Año 2025 desconocido Sí Hombres = 42 OpenAI El GPS-5-Mini Año 2025 mayo de 2024 Sí Hombres = 42 Todos los modelos, excepto Gemini 3 Flash (Preview), fueron lanzados antes que el problema más antiguo en el conjunto de datos (Octubre 2025). El índice de referencia tenía como objetivo ser lo más determinista y reproducible posible; por lo tanto, se utilizaron parámetros como "temperatura" o "semilla". sin embargo, ninguno de los modelos probados garantiza una salida totalmente determinista. Todos los modelos soportan los modos de "razonamiento" o "pensamiento" por defecto, excepto para Claude Sonnet 4.5. Resultados Un problema se considera "aceptado" o "resuelto" si la solución fue aceptada por el juez en línea.Todos los otros resultados, como "respuesta incorrecta" o "limite de tiempo superado", son simplemente "no aceptados" sin diferenciación alguna. Model python3 java 𝝙 python3 rust 𝝙 python3 elixir 𝝙 python3 claude-sonnet-4-5-20250929 50% 52% +2 51% +1 35% -15 gemini-2.5-flash 82% 82% +0 77% -5 39% -43 gemini-3-flash-preview 84% 93% +9 78% -6 83% -1 gpt-5-mini 93% 94% +1 80% -13 63% -30 grok-code-fast-1-0825 73% 65% -8 65% -8 30% -43 claude-sonnet-4-5-20250929 El 50% El 52% +2 +2 El 51% +1 +1 El 35% -15 -15 gemini-2.5-flash El 82% El 82% +0 +0 El 77% -5 -5 El 39% -43 -43 gemini-3-flash-preview El 84% El 93% +9 +9 El 78% -6 -6 El 83% -1 -1 gpt-5-mini El 93% El 94% +1 +1 El 80% -13 -13 El 63% -30 -30 grok-code-fast-1-0825 El 73% El 65% -8 -8 El 65% -8 -8 El 30 % -43 Los resultados muestran una clara caída para el Elixir en la mayoría de los modelos. pero ¿son estas diferencias estadísticamente significativas? Para evaluar si las diferencias en las tasas de paso entre idiomas son estadísticamente significativas, usé una prueba z de dos proporciones. Para dos idiomas cada uno probado en problemas N=100, la diferencia mínima detectable en p=0.05 se da por 1.96×√(2p̄(1-p̄)/N), donde p̄ es la tasa media de aceptación entre los dos idiomas. Tomando Python como base, las brechas Python-Java y Python-Rust no son significativas para todos los modelos (límites ~11.7pp y ~12.3pp, respectivamente). La brecha Python-Elixir, sin embargo, excede mucho su umbral de ~13.4pp para todos los modelos excepto Gemini 3 Flash Preview, lo que indica que manejan Elixir significativamente peor. Problemas de base de datos He tenido una colección de 321 problemas de base de datos Leetcode, publicados de 2015 a 2025. Easy Medium Hard Total 114 142 65 321 114 142 65 321 Utilizé los mismos cinco LLM como en el benchmark algorítmico, pero solo para dos idiomas: MySQL y Oracle SQL. Aunque esas dos implementaciones son principalmente intercambiables, hay diferencias sutiles. Para Oracle SQL, hay 15 veces menos soluciones publicadas en Leetcode que para MySQL. TIOBE y GitHub no proporcionan ninguna estadística para esos idiomas - porque, de hecho, no son lenguajes de programación. Dado que la mayoría de los problemas preceden a las fechas de corte del conocimiento de los modelos, la contaminación es posible y debe tenerse en cuenta al interpretar estos resultados. Model MySQL Oracle SQL 𝝙 claude-sonnet-4-5-20250929 87.5% 76.3% -11.2 gemini-2.5-flash 86.6% 67.9% -18.7 gemini-3-flash-preview 95.6% 85.7% -9.9 gpt-5-mini 89.1% 79.4% -9.7 grok-code-fast-1-0825 80.4% 66.7% -13.7 claude-sonnet-4-5-20250929 El 87.5% El 76,3% -11.2 gemini-2.5-flash 86.6 por ciento El 67.9% -18.7 gemini-3-flash-preview El 95.6% El 85.7% -9.9 gpt-5-mini 89.1 por ciento El 79.4% -9.7 grok-code-fast-1-0825 El 80.4 % El 66,7% -13.7 Con N = 321 problemas y tasas promedio de paso alrededor del 82%, el umbral de significancia es de aproximadamente 6 puntos porcentuales. Esto significa que cada modelo probado muestra una tasa de aceptación significativamente mayor para MySQL. Conclusión Podemos ver que el rendimiento del LLM en los problemas de codificación se correlaciona con la popularidad del lenguaje. Esto es particularmente sorprendente: los problemas de algoritmos son en gran parte agnósticos del lenguaje, por lo que se podría esperar que la lógica subyacente se transfiera a través de los idiomas. Con Python y Java, los lenguajes más utilizados, los modelos superan a Elixir, un lenguaje de nicho.La misma tendencia se aplica a los problemas SQL, donde los LLM funcionan mejor en MySQL que en Oracle SQL. La explicación más probable es la densidad de datos de entrenamiento: los idiomas más populares generan más ejemplos de código, dando a los modelos más material para aprender. La implicación práctica es simple: si usted confía en LLMs para la ayuda de codificación, su elección de idioma importa - potencialmente tanto como su elección de modelo. trabajar con idiomas poco comunes significa aceptar un soporte de IA significativamente más débil, aunque Gemini 3 Flash Preview es una notable excepción, mostrando resultados casi uniformes en todos los idiomas probados para problemas algorítmicos. Rust, a pesar de tener mucho menos repositorios públicos y soluciones publicadas Leetcode, no mostró ninguna diferencia estadísticamente significativa. Varias direcciones valdrían la pena explorar. En primer lugar, expandir el conjunto de problemas permitiría confirmar o descartar el hallazgo de Rust. En segundo lugar, probar idiomas adicionales como Scala, Dart o Racket ayudaría a establecer la relación popularidad-desempeño con más precisión. Y, a medida que los LLM continúen evolucionando, valdrá la pena rastrear si la brecha para los idiomas de nicho se agota con el tiempo. La izquierda Datos utilizados para este índice de referencia: https://huggingface.co/datasets/whiskwhite/leetcode-complete https://huggingface.co/datasets/whiskwhite/leetcode-complete Herramientas utilizadas para solicitar y enviar soluciones: https://github.com/whisk/leetgptsolver https://github.com/whisk/leetgptsolver