Desde principios de 2025, os laboratorios de IA inundáronnos con tantos modelos novos que estou a loitar por seguir.
Pero as tendencias di que a ninguén lle importa! Só hai ChatGPT:
Como é así?
Os novos modelos son incribles, pero o seu nome é unha desorde completa. Ademais, xa non podes diferenciar os modelos por puntos de referencia. O simple "este é o mellor, todos úsano" non funciona agora.
En resumo, hai moitos modelos de IA verdadeiramente fantásticos no mercado, pero poucas persoas os usan realmente.
E iso é unha mágoa!
Tentarei darlle sentido ao caos de nomenclatura, explicarei a crise de referencia e compartirei consellos sobre como elixir o modelo axeitado para as túas necesidades.
Dario Amodei leva moito tempo bromeando dicindo que podemos crear AGI antes de aprender a nomear claramente os nosos modelos. Google lidera tradicionalmente o xogo da confusión:
Para ser xustos, ten certo sentido. Cada modelo "base" agora ten moitas actualizacións. Non sempre son o suficientemente innovadores como para xustificar cada actualización como unha nova versión. De aí veñen todos estes prefixos.
Para simplificar as cousas, elaborei unha táboa de tipos de modelos dos principais laboratorios, eliminando todos os detalles innecesarios.
Entón, cales son estes tipos de modelos?
Hai modelos base enormes e poderosos. Son impresionantes pero lentos e custosos a escala.
É por iso que inventamos a destilación : toma un modelo base, adestra un modelo máis compacto sobre as súas respostas e obterás aproximadamente as mesmas capacidades, só máis rápido e máis barato.
Isto é especialmente crítico para os modelos de razoamento . Os mellores agora seguen cadeas de razoamento en varios pasos: planifican a solución, executan e verifican o resultado. Eficaz pero caro.
Tamén hai modelos especializados: para busca, superbaratos para tarefas sinxelas, ou modelos para campos específicos como a medicina ou o dereito. Ademais dun grupo separado para imaxes, vídeo e audio. Non incluín todo isto para evitar confusións. Tamén ignorei deliberadamente algúns outros modelos e laboratorios para que fose o máis sinxelo posible.
Ás veces, máis detalles só empeoran as cousas.
É difícil escoller un gañador claro. Andrej Karpathy chamou a isto recentemente unha "crise de avaliación".
Non está claro que métricas mirar agora. MMLU está desactualizado e o SWE-Bench é demasiado estreito. Chatbot Arena é tan popular que os laboratorios aprenderon a "piratear".
Actualmente, hai varias formas de avaliar os modelos:
Unha diferenza de 35 puntos significa que un modelo é mellor só o 55 % das veces.
Como no xadrez, o xogador con ELO máis baixo aínda ten boas posibilidades de gañar. Aínda cunha diferenza de 100 puntos, un modelo "peor" aínda supera nun terzo dos casos.
E de novo: algunhas tarefas resólvense mellor por un modelo, outras por outro. Escolle un modelo máis alto da lista e unha das túas 10 solicitudes pode ser mellor. Cal e canto mellor?
Quen sabe.
A falta de mellores opcións, Karpathy suxire confiar na comprobación de vibración.
Proba os modelos ti mesmo e mira cal se sente ben. Por suposto, é fácil enganarse.
É subxectivo e propenso a sesgos, pero é práctico.
Este é o meu consello persoal:
Mentres tanto, se esperaches un sinal para probar algo que non sexa ChatGPT, aquí está:
A continuación, cubrirei os aspectos máis destacados de cada modelo e resumirei as comprobacións de vibración doutras persoas.
Se che gustou isto e non queres perder o seguinte artigo, subscríbete!