Imagínese esto: le hace una pregunta a su asistente de inteligencia artificial y, en lugar de darle una respuesta a medias en milisegundos, hace una pausa.
Piensa. Razona.
Y luego, da una respuesta tan bien pensada que parece casi… humana.
Suena futurista, ¿verdad?
Bueno, bienvenido al modelo o3 , la última creación de OpenAI que promete cambiar el juego por completo.
Durante años, la IA se ha quedado estancada en un patrón: respuestas más rápidas, resultados más llamativos, pero no necesariamente más inteligentes.
Con o3, OpenAI nos dice: “Vamos más despacio. Hagámoslo bien”.
Cuando OpenAI presentó o3 durante su evento “shipmas” de 12 días, no fue simplemente otro anuncio en un mercado de IA abarrotado.
Este modelo, afirmaron, no sólo es más inteligente sino también más reflexivo .
En esencia, o3 es parte de la familia de “modelos de razonamiento” de OpenAI.
A diferencia de la IA tradicional, que a menudo depende de la fuerza computacional bruta para brindar respuestas, los modelos de razonamiento como o3 están diseñados para procesar información más como los humanos.
Pero ¿qué es lo que diferencia al o3?
OpenAI omitió “o2” debido a un conflicto de marca registrada con un proveedor de telecomunicaciones británico, O2.
Sí, lo leíste bien.
Sam Altman, CEO de OpenAI, incluso lo confirmó durante una transmisión en vivo.
En el mundo de la tecnología, incluso nombrar modelos de IA puede acarrear problemas legales.
Pero basta de hablar del nombre. Hablemos de por qué este modelo llama la atención.
Si te gustan los datos, aquí es donde las cosas se ponen jugosas.
Uno de los logros más sorprendentes de O3 es su desempeño en el benchmark ARC AGI , una prueba diseñada para medir si la IA puede aprender y generalizar nuevas habilidades, no solo regurgitar aquello en lo que ha sido entrenada.
Imagínate lo siguiente: te dan una serie de patrones geométricos y te piden que predigas cuál será el siguiente.
No hay ejemplos previos ni plantillas memorizadas: solo razonamiento crudo.
Ése es el desafío que ARC AGI presenta a la IA.
Este hito es importante porque ARC AGI se considera el estándar de oro para evaluar la capacidad de una IA para pensar como un humano.
Por primera vez, un modelo de IA ha superado el rendimiento del nivel humano en esta prueba.
¿Que está pasando aquí?
Se le muestra una cuadrícula con formas coloridas y se le pregunta: "Si esta es la entrada, ¿cómo debería verse la salida?"
Se le dan a la IA algunos ejemplos de cómo las cuadrículas de entrada se transforman en cuadrículas de salida.
Los ejemplos siguen una lógica o reglas específicas.
Por ejemplo:
¿El objetivo?
¿Por qué es esto tan difícil para la IA?
Los humanos hacemos esto todo el tiempo.
Por ejemplo, si alguien dice: “Agrega un contorno rojo a cualquier cosa que tenga puntos rojos”, lo obtendrás de inmediato.
Sin embargo, la IA tiene dificultades porque no “entiende” el concepto de rojo o de contornos: solo procesa patrones en los datos.
La prueba ARC impulsa a la IA a pensar más allá de las respuestas previamente aprendidas.
Cada prueba es única, por lo que memorizarla no ayudará.
¿Qué pasa con la última prueba (con el emoji 🤔)?
Aquí es donde las cosas se ponen realmente complicadas.
La entrada de prueba mezcla las cosas: hay un cuadrado amarillo con puntos magenta.
La IA no ha visto el color magenta antes: ¿qué debería hacer?
Los humanos podrían pensar: “Quizás debería tener un borde magenta”, pero esto requiere razonamiento y un salto de lógica.
Para la IA, esto es como que le pidan saltar de un acantilado con los ojos vendados.
Está completamente fuera de su entrenamiento.
O3 ha establecido un nuevo punto de referencia en el razonamiento de IA al sobresalir en la prueba ARC AGI.
En configuraciones de bajo consumo de recursos, O3 obtuvo un puntaje de 76 % en el conjunto de retención semiprivada, un rendimiento muy por encima de cualquier modelo anterior.
Pero el verdadero avance llegó cuando se probó en configuraciones de alto consumo de recursos, donde O3 logró un extraordinario 88%, superando el umbral del 85% que a menudo se considera un rendimiento de nivel humano.
El gráfico muestra que O3 logra una precisión del 71,7 % en Bench Verified , un punto de referencia que simula tareas de ingeniería de software del mundo real.
Esto representa una mejora del 46% respecto de O1, lo que demuestra la fortaleza de O3 para resolver desafíos complejos y prácticos que los desarrolladores enfrentan a diario.
En la codificación competitiva, la diferencia es aún más dramática.
Con una puntuación ELO de 2727 , O3 no solo supera los 1891 de O1, sino que ingresa a una liga que rivaliza con los mejores programadores humanos.
Para contextualizar, un ELO superior a 2400 normalmente se considera de nivel gran maestro y su calificación Codeforces de 2727 lo ubica dentro del 0,8 % superior de los codificadores humanos.
En el examen de matemáticas por invitación estadounidense de 2024, o3 obtuvo un asombroso puntaje de 96,7 %, fallando solo una pregunta.
En GPQA Diamond, un conjunto de preguntas científicas de nivel de doctorado, o3 logró una precisión del 87,7 %, una hazaña inaudita para los modelos de IA.
Estos no son solo números: son una prueba de que o3 está abordando desafíos que antes parecían fuera del alcance de las máquinas.
O3 no se limita a responder como la mayoría de las IA: respira, hace una pausa y piensa.
Piense en ello como la diferencia entre decir bruscamente una respuesta y sopesar cuidadosamente las opciones antes de hablar.
Esto es posible gracias a algo llamado alineación deliberativa .
Es como darle a O3 una brújula moral, enseñándole las reglas de seguridad y ética en un lenguaje sencillo y mostrándole cómo razonar en situaciones difíciles en lugar de simplemente reaccionar.
Un ejemplo rápido
Imaginemos que alguien intenta burlar a O3 codificando una solicitud dañina utilizando un cifrado ROT13 (básicamente, un mensaje codificado).
Piden consejos para ocultar actividades ilegales.
Una IA menos avanzada podría morder el anzuelo, ¿pero O3?
Descifra la solicitud, se da cuenta de que es dudosa y la verifica con las políticas de seguridad de OpenAI.
No solo bloquea la respuesta.
Se explica por qué esta petición cruza los límites éticos y se formula una negativa tajante.
Esta es una IA con conciencia, o lo más parecido a una que hemos visto jamás.
Así es como funciona el proceso de pensamiento de O3:
1 - Lee las reglas
En lugar de adivinar qué está bien o mal, O3 está capacitado con pautas de seguridad reales escritas en lenguaje sencillo.
No se basa únicamente en ejemplos para inferir el comportamiento: aprende las reglas de antemano.
2 - Piensa paso a paso
Cuando se enfrenta a una tarea complicada o llena de matices, O3 no saca conclusiones precipitadas.
Utiliza lo que se denomina razonamiento en cadena de pensamiento : descomponer el problema, paso a paso, para determinar la mejor respuesta.
3 - Se adapta al momento
No todas las situaciones son iguales
Algunas tareas requieren respuestas rápidas, otras requieren una reflexión profunda.
O3 ajusta su esfuerzo en función de la complejidad del problema, de modo que es eficiente cuando puede serlo y minucioso cuando es necesario.
Junto con O3, OpenAI presentó O3 Mini, una versión rentable diseñada para tareas que no requieren toda la potencia de su hermano mayor.
¿Qué tiene de especial el O3 Mini?
Tiempo de pensamiento adaptativo Los usuarios pueden ajustar el esfuerzo de razonamiento del modelo en función de la complejidad de la tarea.
¿Necesita una respuesta rápida? Opte por un razonamiento que requiera poco esfuerzo.
¿Tiene que afrontar un problema de codificación complejo? Llévelo al modo de alto esfuerzo.
Equilibrio costo-rendimiento El O3 Mini ofrece casi el mismo nivel de precisión que el O3 para tareas más simples, pero a una fracción del costo.
Esta flexibilidad hace que O3 Mini sea una opción atractiva para desarrolladores e investigadores que trabajan con un presupuesto limitado.
Aquí es donde las cosas se ponen filosóficas.
AGI, o Inteligencia Artificial General , se refiere a una IA que puede realizar cualquier tarea que un humano puede realizar (y a menudo mejor).
OpenAI siempre ha tenido a la IAG como su estrella del norte, y con o3, parece que se están acercando cada vez más.
Considere esto:
Dicho esto, incluso OpenAI admite que o3 aún no es IAG.
Es más bien un prototipo de cómo podría ser la IAG: una IA que aprende, se adapta y razona de maneras que parecen… humanas.
Los desafíos futuros Incluso con sus increíbles capacidades, o3 no está libre de defectos:
o3 no es simplemente otro modelo de IA: es un vistazo a lo que la IA podría llegar a ser.
No es perfecto, pero es un paso hacia una era en la que las máquinas no sólo responden: razonan, aprenden y se adaptan de maneras que resultan profundamente humanas.
Y aunque todavía estamos lejos de la IAG, o3 nos recuerda que el progreso no es lineal: es exponencial.
Entonces, ¿qué piensas? ¿Estamos en el umbral de una nueva revolución de la IA? ¿O es o3 solo otro hito en un viaje mucho más largo?