paint-brush
Demasiadas IA con demasiados nomes terribles: como elixir o teu modelo de IApor@lee.aao
824 lecturas
824 lecturas

Demasiadas IA con demasiados nomes terribles: como elixir o teu modelo de IA

por Leo Khomenko4m2025/03/25
Read on Terminal Reader

Demasiado longo; Ler

Os laboratorios de IA inundáronnos con tantos modelos novos que estou loitando por seguir. Os novos modelos son incribles, pero o seu nome é unha desorde completa. Xa nin sequera podes diferenciar os modelos por puntos de referencia. O simple "este é o mellor, todos usalo" non funciona agora.
featured image - Demasiadas IA con demasiados nomes terribles: como elixir o teu modelo de IA
Leo Khomenko HackerNoon profile picture

Desde principios de 2025, os laboratorios de IA inundáronnos con tantos modelos novos que estou a loitar por seguir.


Pero as tendencias di que a ninguén lle importa! Só hai ChatGPT:


Como é así?


Os novos modelos son incribles, pero o seu nome é unha desorde completa. Ademais, xa non podes diferenciar os modelos por puntos de referencia. O simple "este é o mellor, todos úsano" non funciona agora.


En resumo, hai moitos modelos de IA verdadeiramente fantásticos no mercado, pero poucas persoas os usan realmente.


E iso é unha mágoa!


Tentarei darlle sentido ao caos de nomenclatura, explicarei a crise de referencia e compartirei consellos sobre como elixir o modelo axeitado para as túas necesidades.

Demasiados modelos, nomes terribles

Dario Amodei leva moito tempo bromeando dicindo que podemos crear AGI antes de aprender a nomear claramente os nosos modelos. Google lidera tradicionalmente o xogo da confusión:



Para ser xustos, ten certo sentido. Cada modelo "base" agora ten moitas actualizacións. Non sempre son o suficientemente innovadores como para xustificar cada actualización como unha nova versión. De aí veñen todos estes prefixos.


Para simplificar as cousas, elaborei unha táboa de tipos de modelos dos principais laboratorios, eliminando todos os detalles innecesarios.



Entón, cales son estes tipos de modelos?


  1. Hai modelos base enormes e poderosos. Son impresionantes pero lentos e custosos a escala.


  2. É por iso que inventamos a destilación : toma un modelo base, adestra un modelo máis compacto sobre as súas respostas e obterás aproximadamente as mesmas capacidades, só máis rápido e máis barato.


  3. Isto é especialmente crítico para os modelos de razoamento . Os mellores agora seguen cadeas de razoamento en varios pasos: planifican a solución, executan e verifican o resultado. Eficaz pero caro.


Tamén hai modelos especializados: para busca, superbaratos para tarefas sinxelas, ou modelos para campos específicos como a medicina ou o dereito. Ademais dun grupo separado para imaxes, vídeo e audio. Non incluín todo isto para evitar confusións. Tamén ignorei deliberadamente algúns outros modelos e laboratorios para que fose o máis sinxelo posible.


Ás veces, máis detalles só empeoran as cousas.

Todos os modelos son basicamente iguais agora

É difícil escoller un gañador claro. Andrej Karpathy chamou a isto recentemente unha "crise de avaliación".


Non está claro que métricas mirar agora. MMLU está desactualizado e o SWE-Bench é demasiado estreito. Chatbot Arena é tan popular que os laboratorios aprenderon a "piratear".



Actualmente, hai varias formas de avaliar os modelos:


  1. Os puntos de referencia estreitos miden habilidades moi específicas, como a codificación de Python ou as taxas de alucinacións. Pero os modelos son cada vez máis intelixentes e dominan máis tarefas, polo que xa non podes medir o seu nivel con só unha métrica.


  1. Os benchmarks completos tentan capturar varias dimensións con moitas métricas. Non obstante, comparar todas estas puntuacións faise rapidamente caótico. Teña en conta que a xente tenta factorizar múltiplos destes complexos puntos de referencia. Cinco ou dez á vez! Un modelo gaña aquí, outro alí; boa sorte dándolle sentido.

LifeBench ten 3 métricas dentro de cada categoría. E iso é só un punto de referencia entre ducias.


  1. Arena, onde os humanos comparan cegamente as respostas do modelo en función das preferencias persoais. Os modelos reciben unha clasificación ELO, como os xogadores de xadrez. Gaña máis a miúdo, obtén un ELO máis alto. Pero isto foi xenial ata que os modelos se achegaron demasiado entre si.


Unha diferenza de 35 puntos significa que un modelo é mellor só o 55 % das veces.


Como no xadrez, o xogador con ELO máis baixo aínda ten boas posibilidades de gañar. Aínda cunha diferenza de 100 puntos, un modelo "peor" aínda supera nun terzo dos casos.


E de novo: algunhas tarefas resólvense mellor por un modelo, outras por outro. Escolle un modelo máis alto da lista e unha das túas 10 solicitudes pode ser mellor. Cal e canto mellor?


Quen sabe.

Entón, como elixes?

A falta de mellores opcións, Karpathy suxire confiar na comprobación de vibración.


Proba os modelos ti mesmo e mira cal se sente ben. Por suposto, é fácil enganarse.


É subxectivo e propenso a sesgos, pero é práctico.


Este é o meu consello persoal:


  1. Se a tarefa é nova, abra varias pestanas con modelos diferentes e compare os resultados. Confía no teu instinto en que modelo require menos axustes ou edicións.
  2. Se a tarefa é máis familiar, utiliza só o teu mellor modelo.
  3. Esquécete de perseguir os números de referencia. Concéntrase na UX que che gusta e prioriza a subscrición pola que xa estás disposto a pagar.
  4. Se aínda queres números, proba https://livebench.ai/#/ . Os creadores afirman que soluciona problemas comúns de benchmarking como a piratería, a obsolescencia, a estreiteza e a subxectividade.
  5. Para os creadores de produtos, aquí tes unha excelente guía de HuggingFace sobre como configurar o teu propio punto de referencia. https://github.com/huggingface/evaluation-guidebook/


Mentres tanto, se esperaches un sinal para probar algo que non sexa ChatGPT, aquí está:


https://claude.ai/

https://gemini.google.com/

https://grok.com/

https://chat.deepseek.com/

httрs://сhаt.openai.сom


A continuación, cubrirei os aspectos máis destacados de cada modelo e resumirei as comprobacións de vibración doutras persoas.


Se che gustou isto e non queres perder o seguinte artigo, subscríbete!



Queda máis por vir!!