Creo que OpenAI no está siendo honesto acerca de los rendimientos decrecientes de escalar la IA con solo datos y computación. Creo que también están poniendo en peligro gran parte de la economía, el mundo y toda esta industria al no hablar más abiertamente sobre el tema.
Al principio, creí lo que nos decían, que todo lo que hay que hacer es añadir más potencia de cálculo y más datos, y los LLM, así como otros modelos, simplemente mejorarán. Que esta relación entre los modelos, su potencia de cálculo y sus datos podría crecer linealmente hasta el fin de los tiempos. El salto de GPT-3 a GPT-3.5 fue inmenso. El salto de GPT-3.5 a GPT-4 parecía una prueba clara de que esta presunción era correcta. Pero luego las cosas se pusieron raras.
En lugar de lanzar un modelo llamado GPT-5 o incluso GPT-4.5, lanzaron el GPT-4-turbo. El GPT-4-turbo no es tan inteligente como el GPT-4, pero es mucho más rápido y más barato. Todo eso tiene sentido. Pero luego, esta tendencia continuó.
Después de GPT-4-turbo, el siguiente lanzamiento de OpenAI fue GPT-4o (fresa). GPt-4o es más o menos tan inteligente como GPT-4-turbo, pero es incluso más rápido y más barato. Sin embargo, la funcionalidad que realmente nos convenció fue su capacidad de hablar y entender cosas a través del audio y su velocidad. Sin embargo, tomen nota, en este punto de nuestra historia, GPT-4-turbo no es más inteligente que GPT-4 y GPT-4o no es más inteligente que GPT-4-turbo. Y ninguno de ellos es más inteligente que GPT-4.
Su siguiente y más reciente lanzamiento fue GPT-o1. GPT-o1 puede tener un mejor desempeño que GPT-4 en algunas tareas, pero eso se debe a que o1 no es realmente un modelo único. GPT-o1 es en realidad una caja negra de múltiples modelos LLM livianos que trabajan juntos. Quizás o1 se describa mejor como software o middleware que como un modelo real. Le haces una pregunta, obtiene una respuesta y luego usa repetidamente otros modelos encargados de verificar la respuesta para asegurarse de que sea correcta, y disfraza todas estas operaciones. Hace todo esto muy, muy rápido.
¿Por qué no crear un LLM más potente que GPT-4? ¿Por qué recurrir a técnicas tan encubiertas para lograr nuevas versiones? GPT-4 salió hace dos años, y ahora deberíamos haber superado con creces sus capacidades. Bueno, Noam Brown, un investigador de OpenAI, tenía algo que decir sobre por qué tomaron este camino con o1 en TED AI. Dijo: "Resultó que hacer que un bot pensara durante solo 20 segundos en una mano de póquer obtenía el mismo rendimiento de impulso que escalar el modelo en 100.000 veces y entrenarlo durante 100.000 veces más".
Ahora, deténgase y piense en serio sobre lo que se dice allí. Un robot que piensa durante 20 segundos es tan bueno como un robot entrenado 100.000 veces más tiempo con 100.000 veces más poder de cómputo. Si las leyes de escala son infinitas, esa matemática es imposible. O bien algo está mal aquí o alguien está mintiendo.
¿Por qué es importante todo esto? OpenAI vale 150 mil millones de dólares y la mayor parte de esa capitalización de mercado se basa en proyecciones que dependen de la mejora de los modelos a lo largo del tiempo. Si la IA es tan buena como lo es hoy, ese sigue siendo un futuro interesante, pero eso no es lo que las empresas de IA cuya propiedad intelectual es toda su modelo les venden a los inversores. Eso también cambia la hoja de ruta de productos de muchas otras empresas que dependen del avance continuo de sus LLM para crear sus propios productos. El objetivo y las ambiciones de OpenAI en materia de IAG se retrasan gravemente si todo esto es cierto.
La razón por la que los LLM son tan asombrosos se debe a un fenómeno filosófico de nivel superior que nunca consideramos: el lenguaje posee inherentemente una cantidad extremadamente grande de contexto y datos sobre el mundo incluso dentro de pequeñas secciones de texto. A diferencia de los píxeles de una imagen o un video, las palabras de una oración se describen implícitamente entre sí. Una oración completamente coherente es, por definición, "racional". Si es verdad o no es una historia muy diferente y un problema que trasciende el lenguaje por sí solo. No importa cuánto texto consumas, la "verdad" y las "falsedades" no son simplemente conceptos lingüísticos. Puedes decir que algo es completamente racional, pero de ninguna manera "verdadero". Es en este punto que los LLM se toparán constantemente con un muro de ladrillos. Durante los últimos 12 meses, me gustaría especular formalmente que a puertas cerradas no ha habido grandes avances en los LLM en OpenAI, GrokAI o en Google. Para ser específico, no creo que nadie, en ningún lugar, haya creado un LLM que sea incluso 1,5 veces mejor que GPT-4.
Parece que en OpenAI el personal de alto nivel está renunciando. Ahora mismo dicen que es por cuestiones de seguridad, pero ahora voy a ponerme mi sombrero de papel de aluminio y a proponer una idea. Son conscientes de este problema y se marcharán antes de que sea demasiado tarde.
Comencé a hablar de esta preocupación con mis amigos hace 3 meses. Me insultaron de muchas maneras, jaja.
Pero en las últimas tres semanas, gran parte de la prensa ha comenzado a sentir que algo no anda bien:
OpenAI ya no lanza Orion (GPT-5) porque no cumplió con los parámetros de rendimiento esperados y está viendo rendimientos decrecientes. ( https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows )
Bloomberg informa que OpenAI, Google y Anthropic están teniendo dificultades para desarrollar una IA más avanzada. ( https://www.bloomberg.com/news/articles/2024-11-13/openai-google-and-anthropic-are-struggling-to-build-more-advanced-ai )
Es difícil recomendar una única solución. La tecnología detrás de o1 es una prueba de que incluso los modelos de bajo rendimiento pueden reutilizarse para realizar operaciones complicadas. Pero esa no es una solución al problema de la escalabilidad de la IA. Creo que es necesario realizar una inversión sustancial y probar rápidamente las nuevas arquitecturas de modelos. También nos hemos quedado sin datos y necesitamos nuevas formas de extrapolar datos utilizables para que los LLM se entrenen con ellos. Tal vez utilizando un etiquetado multidimensional que ayude a guiar sus referencias para obtener información veraz directamente. Otra buena idea podría ser simplemente seguir ajustando los LLM para casos de uso específicos como matemáticas, ciencias y atención médica ejecutando y utilizando flujos de trabajo de agentes de IA, similares a o1. Podría dar a muchas empresas margen de maniobra hasta que surja una nueva arquitectura. Este problema es realmente grave, pero creo que la creatividad en el aprendizaje automático y el desarrollo de software que inspirará será inmensa. Una vez que superemos este obstáculo, sin duda estaremos bien encaminados para la AGI y tal vez la ASI.