Anthropic, la empresa detrás de la serie de modelos Claude, ha lanzado el Claude 3.5 Sonnet. Llega en un momento en el que todos hemos aceptado que GPT-4o es el mejor modelo predeterminado para la mayoría de tareas como razonamiento, resumen, etc. Anthropic hace la audaz afirmación de que su modelo establece el nuevo "estándar de la industria" para la inteligencia.
Además, está disponible de forma gratuita en claude.ai si deseas probarlo. Entonces, nos entusiasmamos y quisimos probar el modelo y compararlo con GPT-4o. Este artículo comienza con una descripción general de las funciones lanzadas con Claude 3.5 y las prueba con GPT-4o en generación de código, así como tareas de razonamiento lógico y matemático.
El modelo viene con tres características o novedades principales que les hacen afirmar que supera al GPT-4o en la mayoría de tareas.
Profundicemos en las características y comparémoslas con el rey de los LLM, GPT-4o.
Para comenzar, debemos iniciar sesión en el sitio web claude.ai y habilitar la función de artefactos. Como es una característica experimental, debemos habilitarla. Tenemos que ir a la vista previa de funciones y habilitar Artefactos desde allí como se muestra a continuación.
Una vez habilitado, el modelo mostrará una ventana dedicada en el lateral para tareas que las necesiten, como codificación o animaciones.
Para probar la capacidad mejorada de razonamiento visual, cargamos los dos gráficos siguientes en el modelo de Claude Sonnet y formulamos la pregunta: "¿Qué puedes deducir de estos datos?".
Tramas como imágenes para probar el razonamiento visual.
La respuesta de Claude Sonnet fue asombrosa. Resumió con precisión el progreso del aprendizaje profundo diciendo: "Estos datos ilustran el rápido progreso en las arquitecturas de aprendizaje profundo y el escalamiento de modelos, mostrando una tendencia hacia modelos más grandes y potentes". También recibimos una respuesta similar de GPT-4o. Entonces, para comprender mejor cuál es mejor, comenzamos a comparar ambos modelos sistemáticamente en cuatro tareas: codificación, codificación con interfaz de usuario, razonamiento lógico y razonamiento matemático.
Ahora que hemos visto una descripción general, profundicemos y llevemos el modelo a dar una vuelta. Probemos la generación de código, el razonamiento lógico y el razonamiento matemático.
Para la generación de código, les pediré a ambos modelos que generen código para jugar el conocido juego Sudoku. Les pedí a ambos modelos el mensaje exacto: "escribe código Python para jugar el sudoku". Con este mensaje, tanto Claude 3.5 como GPT-4o generan código con el que podemos interactuar únicamente desde el símbolo del sistema. Esto es de esperarse ya que no especificamos cómo generar el código de la interfaz de usuario. Algunas observaciones iniciales:
Como interactuar con el símbolo del sistema no es para todos, quería que los modelos generaran código con la interfaz de usuario. Para esto, modifiqué el mensaje a "escribir código para jugar un juego de sudoku". Esta vez, eliminé "python" del mensaje porque sentí que le pediría que produjera solo el código de backend. Como era de esperar, Claude 3.5 produjo esta vez una interfaz de usuario funcional como se muestra a continuación. Aunque la interfaz de usuario no era completamente robusta y atractiva, era funcional.
Pero GPT-4o, desafortunadamente, no produjo una interfaz de usuario similar. Todavía generaba código con un símbolo del sistema interactivo.
Para el primer rompecabezas, hice la siguiente pregunta:
Jane fue a visitar a Jill. Jill es la única hija del único marido de la suegra del único marido de Jane. ¿Qué relación tiene Jane con Jill?
Ambos modelos propusieron una secuencia de pasos de razonamiento y respondieron la pregunta correctamente. Entonces tiene que haber un empate entre Claude 3.5 y GPT-4o en este caso.
Para el segundo acertijo, hice la siguiente pregunta:
¿Cuál de las palabras se parece menos a las demás? La diferencia no tiene nada que ver con vocales, consonantes o sílabas. MÁS, PARES, GRABADORES, CREMALLERA\
Para ello, a ambos modelos se les ocurrieron diferentes pasos de razonamiento lógico para llegar a diferentes respuestas. Claude razonó que cremallera es la única palabra que puede funcionar como sustantivo y verbo. Pero otros son sólo sustantivos o adjetivos. Entonces, identificó ZIPPER como la respuesta. GPT-4o, por otro lado, identificó MÁS razonamientos de que no se trata de un objeto concreto ni de un tipo específico de persona.
Todo esto indica que necesitamos hacer el mensaje más específico, lo que llevaría a un empate en este caso.
Pasemos a un conocido acertijo de razonamiento visual que se puede calcular mediante una fórmula. Así que proporcioné la siguiente figura junto con el siguiente mensaje como entrada para ambos modelos.
Los 3 círculos siguientes tienen puntos azules en su circunferencia que están conectados por líneas rectas. El primer círculo tiene dos puntos azules que lo separan en dos regiones. Dado un círculo con 7 puntos ubicados en cualquier lugar de su circunferencia, ¿cuál es el número máximo de regiones en las que se puede dividir el círculo?
En este caso, a GPT-4o se le ocurrió la respuesta correcta de 57. Pero a Claude 3.5 se le ocurrió la respuesta de 64, que no es del todo correcta. Ambos modelos dieron pasos de razonamiento lógico sobre por qué llegaron a la respuesta. El formato de las fórmulas matemáticas en GPT-4o es preferible al de Claude 3.5.
Según nuestras pruebas, llegamos a la conclusión de que el ganador en las tareas de generación de código, ya sea código con respaldo puro o código GUI, es Claude 3.5 Sonnet. Existe una estrecha relación con las tareas de razonamiento lógico. Pero cuando se trata de tareas de razonamiento matemático, GPT-4o todavía lidera el camino y Claude aún tiene que alcanzarlo.
En términos de velocidad de generación, Claude es sin duda el ganador, ya que produce texto o código mucho más rápido que GPT-4o. Echa un vistazo a nuestro
Si te gustó este artículo, ¿por qué no me sigues?
También suscríbete a mi