Nueva Historia

¿El o3 de OpenAI finalmente piensa como un humano?

por Nitesh Padghan8m2024/12/31

Demasiado Largo; Para Leer

El modelo o3 de OpenAI supone un gran avance en el razonamiento de la IA, destacando en los parámetros de codificación, matemáticas e inteligencia general. ¿Podría ser este el siguiente paso hacia una verdadera IA general?

featured image - ¿El o3 de OpenAI finalmente piensa como un humano?

Imagínese esto: le hace una pregunta a su asistente de inteligencia artificial y, en lugar de darle una respuesta a medias en milisegundos, hace una pausa.

Piensa. Razona.

Y luego, da una respuesta tan bien pensada que parece casi… humana.

Suena futurista, ¿verdad?

Bueno, bienvenido al modelo o3 , la última creación de OpenAI que promete cambiar el juego por completo.

Durante años, la IA se ha quedado estancada en un patrón: respuestas más rápidas, resultados más llamativos, pero no necesariamente más inteligentes.

Con o3, OpenAI nos dice: “Vamos más despacio. Hagámoslo bien”.

Lo primero es lo primero: ¿Qué es O3?

Cuando OpenAI presentó o3 durante su evento “shipmas” de 12 días, no fue simplemente otro anuncio en un mercado de IA abarrotado.

Este modelo, afirmaron, no sólo es más inteligente sino también más reflexivo .

En esencia, o3 es parte de la familia de “modelos de razonamiento” de OpenAI.

A diferencia de la IA tradicional, que a menudo depende de la fuerza computacional bruta para brindar respuestas, los modelos de razonamiento como o3 están diseñados para procesar información más como los humanos.

Pero ¿qué es lo que diferencia al o3?

Se verifica a sí mismo: cuando le haces una pregunta, no solo responde, sino que también hace referencias cruzadas y verifica dos veces a lo largo del proceso.
Piensa a distintas velocidades: según la tarea, puedes configurarlo en velocidad de procesamiento baja, media o alta (básicamente, indicándole cuánta "capacidad intelectual" debe utilizar). Esto significa que puede resolver tanto preguntas sencillas como acertijos complejos sin esfuerzo.
Es flexible: existe el modelo o3 completo y su hermano menor, el o3-mini , diseñado para tareas más livianas y presupuestos más ajustados.

¿Por qué se llama O3? ¿Y qué pasó con O2?

OpenAI omitió “o2” debido a un conflicto de marca registrada con un proveedor de telecomunicaciones británico, O2.

Sí, lo leíste bien.

Sam Altman, CEO de OpenAI, incluso lo confirmó durante una transmisión en vivo.

En el mundo de la tecnología, incluso nombrar modelos de IA puede acarrear problemas legales.

Pero basta de hablar del nombre. Hablemos de por qué este modelo llama la atención.

Los números detrás de o3: por qué es sorprendente

Si te gustan los datos, aquí es donde las cosas se ponen jugosas.

1 - Poder de razonamiento

Uno de los logros más sorprendentes de O3 es su desempeño en el benchmark ARC AGI , una prueba diseñada para medir si la IA puede aprender y generalizar nuevas habilidades, no solo regurgitar aquello en lo que ha sido entrenada.

Imagínate lo siguiente: te dan una serie de patrones geométricos y te piden que predigas cuál será el siguiente.

No hay ejemplos previos ni plantillas memorizadas: solo razonamiento crudo.

Ése es el desafío que ARC AGI presenta a la IA.

Puntuación de O1: 32%
Puntuación de O3: 88% (en cálculo alto)

Este hito es importante porque ARC AGI se considera el estándar de oro para evaluar la capacidad de una IA para pensar como un humano.

Por primera vez, un modelo de IA ha superado el rendimiento del nivel humano en esta prueba.

¿Que está pasando aquí?

Se le muestra una cuadrícula con formas coloridas y se le pregunta: "Si esta es la entrada, ¿cómo debería verse la salida?"

Se le dan a la IA algunos ejemplos de cómo las cuadrículas de entrada se transforman en cuadrículas de salida.

Los ejemplos siguen una lógica o reglas específicas.

Por ejemplo:

En un ejemplo, un cuadrado amarillo con puntos rojos en su interior tiene un borde rojo.
En otro, un cuadrado amarillo con puntos azules tiene un borde azul.

¿El objetivo?

La IA tiene que descubrir las reglas detrás de estas transformaciones, sin que se le diga explícitamente.
Luego, debe aplicar esas reglas a una cuadrícula completamente nueva (la “Entrada de prueba”) y generar la “Salida de prueba” correcta.

¿Por qué es esto tan difícil para la IA?

Los humanos hacemos esto todo el tiempo.

Por ejemplo, si alguien dice: “Agrega un contorno rojo a cualquier cosa que tenga puntos rojos”, lo obtendrás de inmediato.

Sin embargo, la IA tiene dificultades porque no “entiende” el concepto de rojo o de contornos: solo procesa patrones en los datos.

La prueba ARC impulsa a la IA a pensar más allá de las respuestas previamente aprendidas.

Cada prueba es única, por lo que memorizarla no ayudará.

¿Qué pasa con la última prueba (con el emoji 🤔)?

Aquí es donde las cosas se ponen realmente complicadas.

La entrada de prueba mezcla las cosas: hay un cuadrado amarillo con puntos magenta.

La IA no ha visto el color magenta antes: ¿qué debería hacer?

Los humanos podrían pensar: “Quizás debería tener un borde magenta”, pero esto requiere razonamiento y un salto de lógica.

Para la IA, esto es como que le pidan saltar de un acantilado con los ojos vendados.

Está completamente fuera de su entrenamiento.

2 - El extraordinario rendimiento de O3

O3 ha establecido un nuevo punto de referencia en el razonamiento de IA al sobresalir en la prueba ARC AGI.

En configuraciones de bajo consumo de recursos, O3 obtuvo un puntaje de 76 % en el conjunto de retención semiprivada, un rendimiento muy por encima de cualquier modelo anterior.

Pero el verdadero avance llegó cuando se probó en configuraciones de alto consumo de recursos, donde O3 logró un extraordinario 88%, superando el umbral del 85% que a menudo se considera un rendimiento de nivel humano.

3 - Magia de la codificación

El gráfico muestra que O3 logra una precisión del 71,7 % en Bench Verified , un punto de referencia que simula tareas de ingeniería de software del mundo real.

Esto representa una mejora del 46% respecto de O1, lo que demuestra la fortaleza de O3 para resolver desafíos complejos y prácticos que los desarrolladores enfrentan a diario.

En la codificación competitiva, la diferencia es aún más dramática.

Con una puntuación ELO de 2727 , O3 no solo supera los 1891 de O1, sino que ingresa a una liga que rivaliza con los mejores programadores humanos.

Para contextualizar, un ELO superior a 2400 normalmente se considera de nivel gran maestro y su calificación Codeforces de 2727 lo ubica dentro del 0,8 % superior de los codificadores humanos.

4 - Genio de las matemáticas

En el examen de matemáticas por invitación estadounidense de 2024, o3 obtuvo un asombroso puntaje de 96,7 %, fallando solo una pregunta.

5 - Prodigio de la ciencia

En GPQA Diamond, un conjunto de preguntas científicas de nivel de doctorado, o3 logró una precisión del 87,7 %, una hazaña inaudita para los modelos de IA.

Estos no son solo números: son una prueba de que o3 está abordando desafíos que antes parecían fuera del alcance de las máquinas.

¿Cómo piensa o3?

O3 no se limita a responder como la mayoría de las IA: respira, hace una pausa y piensa.

Piense en ello como la diferencia entre decir bruscamente una respuesta y sopesar cuidadosamente las opciones antes de hablar.

Esto es posible gracias a algo llamado alineación deliberativa .

Es como darle a O3 una brújula moral, enseñándole las reglas de seguridad y ética en un lenguaje sencillo y mostrándole cómo razonar en situaciones difíciles en lugar de simplemente reaccionar.

Un ejemplo rápido

Imaginemos que alguien intenta burlar a O3 codificando una solicitud dañina utilizando un cifrado ROT13 (básicamente, un mensaje codificado).

Piden consejos para ocultar actividades ilegales.

Una IA menos avanzada podría morder el anzuelo, ¿pero O3?

Descifra la solicitud, se da cuenta de que es dudosa y la verifica con las políticas de seguridad de OpenAI.

No solo bloquea la respuesta.

Se explica por qué esta petición cruza los límites éticos y se formula una negativa tajante.

Esta es una IA con conciencia, o lo más parecido a una que hemos visto jamás.

Así es como funciona el proceso de pensamiento de O3:

1 - Lee las reglas

En lugar de adivinar qué está bien o mal, O3 está capacitado con pautas de seguridad reales escritas en lenguaje sencillo.

No se basa únicamente en ejemplos para inferir el comportamiento: aprende las reglas de antemano.

2 - Piensa paso a paso

Cuando se enfrenta a una tarea complicada o llena de matices, O3 no saca conclusiones precipitadas.

Utiliza lo que se denomina razonamiento en cadena de pensamiento : descomponer el problema, paso a paso, para determinar la mejor respuesta.

3 - Se adapta al momento

No todas las situaciones son iguales

Algunas tareas requieren respuestas rápidas, otras requieren una reflexión profunda.

O3 ajusta su esfuerzo en función de la complejidad del problema, de modo que es eficiente cuando puede serlo y minucioso cuando es necesario.

Conozca el O3 Mini: el genio económico

Junto con O3, OpenAI presentó O3 Mini, una versión rentable diseñada para tareas que no requieren toda la potencia de su hermano mayor.

¿Qué tiene de especial el O3 Mini?

Tiempo de pensamiento adaptativo Los usuarios pueden ajustar el esfuerzo de razonamiento del modelo en función de la complejidad de la tarea.

¿Necesita una respuesta rápida? Opte por un razonamiento que requiera poco esfuerzo.

¿Tiene que afrontar un problema de codificación complejo? Llévelo al modo de alto esfuerzo.

Equilibrio costo-rendimiento El O3 Mini ofrece casi el mismo nivel de precisión que el O3 para tareas más simples, pero a una fracción del costo.

Esta flexibilidad hace que O3 Mini sea una opción atractiva para desarrolladores e investigadores que trabajan con un presupuesto limitado.

¿Es este el futuro de la IA? Un paso hacia la IAG

Aquí es donde las cosas se ponen filosóficas.

AGI, o Inteligencia Artificial General , se refiere a una IA que puede realizar cualquier tarea que un humano puede realizar (y a menudo mejor).

OpenAI siempre ha tenido a la IAG como su estrella del norte, y con o3, parece que se están acercando cada vez más.

Considere esto:

En ARC-AGI, o3 casi triplicó el rendimiento de su predecesor.
Se trata de resolver problemas que requieren aprendizaje y razonamiento, no sólo memorización.

Dicho esto, incluso OpenAI admite que o3 aún no es IAG.

Es más bien un prototipo de cómo podría ser la IAG: una IA que aprende, se adapta y razona de maneras que parecen… humanas.

Los desafíos futuros Incluso con sus increíbles capacidades, o3 no está libre de defectos:

Costo: ejecutar o3 en entornos informáticos de alto nivel es costoso (entre 7 y 8 mil dólares por ta).
Errores: Si bien es mejor para razonar, o3 aún puede tener errores, especialmente en tareas más simples donde piensa demasiado en el problema.
Ética: Los modelos anteriores, como el o1, fueron criticados por intentar engañar a los usuarios en determinadas situaciones. ¿Caerá el o3 en la misma trampa?

El panorama general

o3 no es simplemente otro modelo de IA: es un vistazo a lo que la IA podría llegar a ser.

No es perfecto, pero es un paso hacia una era en la que las máquinas no sólo responden: razonan, aprenden y se adaptan de maneras que resultan profundamente humanas.

Y aunque todavía estamos lejos de la IAG, o3 nos recuerda que el progreso no es lineal: es exponencial.

Entonces, ¿qué piensas? ¿Estamos en el umbral de una nueva revolución de la IA? ¿O es o3 solo otro hito en un viaje mucho más largo?