Tomemos un momento para pensar en aprender a conducir. Cualquiera de nosotros puede aprender los principios básicos de la conducción con tan solo unas pocas demostraciones y, una vez que entendamos conceptos como la dirección, la aceleración y el frenado, podremos aplicar esas habilidades a cualquier automóvil, desde un sedán compacto hasta un camión grande. Con estas habilidades, también podemos adaptarnos rápidamente a diferentes condiciones de la carretera, el clima y las situaciones de tráfico, incluso si nunca las hemos enfrentado antes. Sin embargo, la IA actual necesitará miles de horas de datos de entrenamiento para cada vehículo y condición específicos, mientras que la IAG podría comprender los principios fundamentales de la conducción y aplicarlos ampliamente.
La IA general tiene como objetivo crear sistemas de IA que puedan generalizar verdaderamente conocimientos y habilidades, aprendiendo principios fundamentales que se puedan aplicar a situaciones completamente nuevas: conducir un coche, jugar al queso, al Go, al Minecraft, etc. Esto difiere notablemente de los sistemas de IA actuales, incluidos los LLM, que funcionan principalmente a través de una sofisticada comparación de patrones en grandes conjuntos de datos de entrenamiento.
Si bien los LLM modernos pueden entablar conversaciones aparentemente inteligentes y resolver problemas complejos, funcionan fundamentalmente reconociendo y recombinando patrones que han encontrado durante el entrenamiento. Esto se parece más a una memorización y correlación estadística extremadamente avanzadas que a una verdadera comprensión y generalización, ya que no construyen modelos causales genuinos ni representaciones abstractas del mundo. Cuando parecen generalizar, por lo general solo encuentran patrones estadísticos sutiles en sus datos de entrenamiento en lugar de comprender principios más profundos.
ARC aborda un problema de medición crucial en la investigación de IA: ¿cómo probamos realmente si un sistema de IA puede generalizar?
Los puntos de referencia tradicionales suelen medir el rendimiento en tareas específicas con grandes conjuntos de datos de entrenamiento, pero las puntuaciones altas no necesariamente indican una verdadera capacidad de generalización. Una IA podría tener un buen rendimiento simplemente memorizando patrones en los datos de entrenamiento en lugar de desarrollar una comprensión genuina.
Como escribe F. Chollet: “Hasta donde sabemos, no parece que ARC sea abordable mediante ninguna técnica de aprendizaje automático existente (incluido el aprendizaje profundo)”.
Las principales dificultades son las siguientes:
– El resultado esperado no es una etiqueta ni un conjunto de etiquetas, sino una cuadrícula de colores con tamaños de hasta 30x30 y con hasta 10 colores diferentes. Por lo tanto, se trata de un campo de predicción estructurada.
– El resultado previsto debe coincidir exactamente con el esperado. Si una sola celda es incorrecta, la tarea se considera fallida. Para compensar esto, se permiten tres intentos para cada cuadrícula de entrada.
– En cada tarea, generalmente hay entre dos y cuatro instancias de entrenamiento (cuadrícula de entrada + cuadrícula de salida) y una o dos instancias de prueba para las que se debe realizar una predicción.
– Cada tarea se basa en una transformación distinta de la cuadrícula de entrada a la cuadrícula de salida. En particular, ninguna tarea de evaluación se puede resolver reutilizando una transformación aprendida en las tareas de entrenamiento. Cada tarea es un problema de aprendizaje distinto, y lo que ARC evalúa es una generalización amplia y un aprendizaje de pocos intentos.
ARC ofrece una prueba de generalización más rigurosa al presentar cada rompecabezas con solo 3 a 5 muestras, de pocas opciones. Estos datos de entrenamiento mínimos significan que la IA no puede depender de una amplia comparación de patrones: debe extraer los principios subyacentes y aplicarlos a nuevas situaciones, tal como lo hacen los humanos. Los rompecabezas también están diseñados deliberadamente para resistir soluciones abreviadas o estrategias de memorización.
Lo que hace que el ARC sea particularmente valioso es que proporciona una medida cuantificable de la capacidad de generalización. En lugar de debatir si un sistema de IA realmente “entiende” en algún sentido filosófico, podemos medir el desempeño concreto en estas tareas de razonamiento cuidadosamente diseñadas. Esto brinda a los investigadores un punto de referencia claro para el progreso hacia la inteligencia artificial general.
Si desea obtener más información sobre el punto de referencia ARC y lo que significa para el desarrollo de IA, este video es un excelente lugar para comenzar:
La competencia Kaggle 2020 reveló uno de los primeros enfoques para resolver ARC: la búsqueda por fuerza bruta a través de un espacio de transformaciones predefinidas. La solución ganadora construyó un lenguaje específico de dominio (DSL) que contenía 142 operaciones de cuadrícula creadas a mano. Al buscar sistemáticamente a través de combinaciones de estas operaciones, logró una precisión del 20 % en tareas de evaluación privadas. Otra solución similar que utiliza la evolución gramatical para guiar la búsqueda de transformaciones alcanzó una precisión del 3 al 7,68 %.
Si bien estas soluciones fueron notables por su éxito inicial, pusieron de relieve una limitación clave: se basaban en una búsqueda exhaustiva de reglas preprogramadas en lugar de desarrollar una comprensión real o una capacidad de generalización. Esta brecha entre la búsqueda programática y la inteligencia real demuestra por qué ARC sigue siendo un parámetro difícil para medir las capacidades de generalización.
El enfoque actual ( https://github.com/sebferre/ARC-MDL/tree/master ) se basa en un principio fundamental que se utiliza para descubrir patrones y construir modelos que expliquen mejor los datos de la forma más concisa posible. En esencia, MDL afirma que “el mejor modelo para algunos datos es el que comprime la mayor parte de los datos”.
La solución utiliza un lenguaje de modelado especializado para describir patrones de cuadrícula de manera eficiente. Este lenguaje proporciona una forma estructurada de representar cuadrículas de entrada y salida como combinaciones de elementos básicos:
En el nivel más alto, cada rompecabezas se representa como un par y contiene dos cuadrículas:
● Una cuadrícula de entrada (en)
● Una rejilla de salida (out)
Cada cuadrícula está definida por tres componentes:
Los objetos son formas posicionadas, donde cada forma puede ser:
● Un punto de un solo color
● Un rectángulo con un tamaño, color y máscara específicos.
El sistema de máscaras es particularmente potente y permite que los rectángulos adopten diversas formas:
● Completo (rectángulo sólido)
● Borde (solo contorno)
● Patrones de tablero de ajedrez (pares o impares)
● Patrones cruzados (forma de más o de más)
● Patrones de mapas de bits personalizados
Este lenguaje permite al sistema describir patrones de cuadrícula complejos de forma compacta. Por ejemplo, en lugar de almacenar una cuadrícula de 10x10 píxel por píxel (100 valores), podría almacenarla como “un fondo negro con un rectángulo rojo de 3x3 en la posición (2,2)”, utilizando muchos menos valores y capturando la estructura esencial.
Al buscar patrones, el sistema intenta encontrar la descripción más concisa de las cuadrículas de entrada y salida utilizando este lenguaje. Las buenas soluciones tienden a reutilizar elementos entre la entrada y la salida (como tomar una forma de la entrada y transformarla en la salida), lo que conduce a descripciones más breves y una mejor compresión.
El éxito de este enfoque (94/400 tareas de entrenamiento resueltas) sugiere que este lenguaje captura muchos de los patrones clave presentes en los rompecabezas ARC y al mismo tiempo está lo suficientemente restringido para evitar el sobreajuste a ejemplos específicos.
Si bien los LLM han demostrado capacidades impresionantes en muchos dominios, su uso directo para resolver ARC presenta oportunidades y desafíos. El enfoque ingenuo implica proporcionar al LLM ejemplos de entrada y salida y pedirle que prediga la respuesta para nuevas entradas. Sin embargo, este método tiene limitaciones significativas. Los LLM demuestran capacidades de razonamiento espacial muy limitadas en este contexto y son muy propensos a alucinaciones cuando intentan predecir transformaciones de cuadrícula.
Este enfoque se basa en el método de predicción directa, al pedirle primero al LLM que analice y describa los patrones que observa en los pares de entrada-salida. Si bien este paso de razonamiento adicional produce mejores resultados al ayudar al LLM a descomponer el problema, aún tiene las mismas limitaciones fundamentales. El modelo continúa exhibiendo una alta tasa de alucinaciones cuando intenta predecir los resultados finales, incluso después de identificar patrones potenciales. Esto sugiere que agregar pasos de razonamiento explícitos por sí solo no es suficiente para superar las limitaciones de razonamiento espacial del LLM para resolver los desafíos de ARC.
En WLTech.AI , consideramos que el papel de los agentes de IA en la búsqueda de la inteligencia artificial general es de gran importancia. Están diseñados para interactuar con sus entornos de forma dinámica, adaptarse en función de lo que aprenden y aprender por sí solos. A diferencia de los modelos estáticos que se entrenan solo una vez, los agentes de IA pueden aprender de las interacciones continuas y adaptarse a las circunstancias cambiantes, lo que los convierte en un componente vital en el desarrollo de la inteligencia artificial general.
Los agentes de IA son el cerebro de la operación y coordinan una variedad de técnicas que se adaptan a las demandas específicas de una tarea. Los sistemas simbólicos son excelentes para el razonamiento preciso basado en reglas, lo que los hace perfectos para tareas que requieren comprender transformaciones como rotaciones o reflexiones. Las redes neuronales son excelentes para reconocer patrones y generalizar a partir de datos, lo que resulta realmente útil para identificar las estructuras subyacentes en las tareas de ARC.
Sin embargo, los desafíos de ARC no terminan con la manipulación simbólica o el reconocimiento de patrones. Muchas tareas requieren un nivel de abstracción más avanzado, incluida la capacidad de crear nuevas reglas, hacer conexiones y adaptarse a nuevas situaciones. Los modelos de lenguaje son útiles en este caso, ya que se pueden utilizar para cosas como la síntesis de programas y el razonamiento abstracto. Los algoritmos de búsqueda son otra herramienta más, ya que pueden explorar posibles transformaciones de manera eficiente para identificar soluciones. Los sistemas de planificación, por otro lado, proporcionan el marco para descomponer y abordar problemas complejos paso a paso.
Lo que hace que los agentes de IA sean tan inteligentes es que pueden combinar todos estos enfoques diferentes. No solo utilizan un método a la vez, sino que evalúan e implementan la mejor combinación de técnicas para abordar cada problema específico. Esta capacidad de adaptarse sobre la marcha es lo que distingue a los humanos y es una parte importante del avance de la IA general.
En esencia, los agentes de IA son coordinadores inteligentes. Llevan un registro actualizado de lo que funciona y lo que no, de modo que pueden aprender de experiencias pasadas.
Nuestra solución de inteligencia artificial Agentic Puede encontrar nuestra solución aquí: https://colab.research.google.com/drive/1-rQoqrGRGQE6M8bMpfzqf6tV3TnUi-Mp?usp=sharing o en Github: https://github.com/weblab-technology/arc-challenge-2024-10
Nuestro avance se produjo al imitar el comportamiento humano en la resolución de problemas: analizar ejemplos, plantear hipótesis sobre reglas, probar y refinar. En lugar de recurrir a la fuerza bruta, nuestra IA se centra en escribir funciones de generación (código Python que define transformaciones) y probarlas inmediatamente en los datos de entrenamiento.
Un descubrimiento sorprendente de nuestro enfoque fue que las mejoras iterativas a menudo obstaculizan el progreso en lugar de ayudar. Si la suposición inicial detrás de una función de generación es errónea, intentar refinarla generalmente amplifica el error en lugar de corregirlo. Esta constatación reformuló fundamentalmente nuestra metodología.
En lugar de refinar suposiciones incorrectas, descubrimos que era más eficaz:
Esto refleja el comportamiento humano de reiniciar y repensar cuando una solución resulta improductiva, en lugar de arreglar una estrategia rota.
Esta idea también explica por qué los algoritmos genéticos no lograron mejorar los resultados. Por diseño, los algoritmos genéticos desarrollan soluciones de manera incremental, perfeccionándolas a lo largo de generaciones. Sin embargo, cuando los supuestos básicos son erróneos, los cambios incrementales conducen a soluciones complicadas que se alejan aún más de la transformación correcta.
Evaluación de LLM: Claude 3.5 Sonnet supera a sus competidores
Para afrontar el desafío de ARC, probamos exhaustivamente varios modelos de lenguaje grandes (LLM) para ayudar a escribir funciones de generación. Entre ellos, Claude 3.5 Sonnet resultó ser el más capaz, superando significativamente a sus competidores.
Principales hallazgos:
Soneto Claude 3.5 vs. GPT-4o:
● Rendimiento: Claude 3.5 Sonnet identificó más patrones que GPT-4o, logrando casi el doble de precisión en el reconocimiento de patrones.
● Eficiencia: Claude logró los mismos resultados que GPT-4o de OpenAI en 1/7 del tiempo de ejecución, lo que lo hace no solo más efectivo sino también más rápido.
La decadencia del GPT-4o:
● Observamos una notable disminución en el rendimiento de GPT-4o con el tiempo. La versión inicial de GPT-4o era mucho más capaz para las tareas de ARC que las versiones posteriores, lo que indica un posible cambio en su optimización que dificultaba el reconocimiento de patrones y el razonamiento para este desafío.
Por qué se destaca el soneto Claude 3.5
La ventaja de Claude radica en su capacidad de generalizar e identificar transformaciones sutiles, lo que es crucial para la naturaleza de pocos intentos de ARC. Su rendimiento y eficiencia constantes lo convirtieron en la opción clara para integrarlo en nuestro marco de agente de IA, estableciendo un nuevo estándar para el razonamiento impulsado por LLM en la resolución estructurada de problemas.
Nuestro enfoque logró una precisión cercana al 30 % en el conjunto de evaluación de ARC , superando significativamente a los métodos de referencia. Este resultado destaca la fortaleza de imitar el comportamiento humano de resolución de problemas, aprovechando nuevas hipótesis en lugar de mejoras iterativas y utilizando los LLM más capaces como Claude 3.5 Sonnet. Si bien todavía hay un margen sustancial para mejorar, este hito demuestra un progreso significativo en el abordaje de los desafíos de ARC y el avance hacia una generalización más amplia en IA.
En WLTech.AI creemos que el futuro de la resolución de problemas de ARC reside en el crecimiento continuo de las capacidades de LLM combinadas con marcos de razonamiento de nivel superior como la Longitud Mínima de Descripción (MDL) o enfoques similares para la explicación concisa de patrones. Estos avances podrían permitir que los modelos abstraigan y generalicen mejor las transformaciones. Además, la integración de un sistema de indicaciones de autorrefinamiento basado en un banco de soluciones en crecimiento permitiría a los modelos mejorar iterativamente su razonamiento y aprovechar los éxitos pasados, creando un proceso de resolución de problemas más adaptativo y eficiente. Esta sinergia entre LLM avanzados, explicaciones estructuradas y aprendizaje adaptativo tiene el potencial de desbloquear nuevos hitos en el desarrollo de ARC y AGI.
El punto de referencia del corpus de abstracción y razonamiento (ARC) ha sido clave para probar qué tan bien la IA puede aplicar reglas generales y pensar de una manera más abstracta. A lo largo de los años, hemos visto surgir una serie de solucionadores destacados, cada uno de los cuales aporta algo diferente al campo.
● El enfoque de Ryan Greenblatt
En 2024, Ryan Greenblatt, ingeniero de Redwood Research, alcanzó un hito importante al obtener un 42 % en el conjunto de evaluación pública de ARC-AGI, con una puntuación de verificación del 43 %. Su enfoque implicó usar GPT-4o para generar y refinar varios programas Python y seleccionar los mejores para enviarlos. Esto demuestra cómo podemos usar modelos de lenguaje grandes con síntesis de programas para abordar tareas de razonamiento complejas.
● Icecuber 2020
La solución “icecuber 2020”, ganadora de un concurso anterior, obtuvo una puntuación de evaluación pública del 39 % y una puntuación de verificación del 17 %. Si bien no tenemos todos los detalles sobre la metodología, esta solución ha sido muy importante para establecer el estándar para los solucionadores de ARC posteriores.
La clasificación del Premio ARC 2024 incluye a los siguientes participantes destacados :
● MindsAI está a la cabeza con una puntuación del 55,5%.
● Los ARChitects le siguen de cerca con una puntuación del 53,5%.
● Guillermo Barbadillo en tercer lugar con una puntuación de 40%.
● Alijs ocupa el cuarto lugar, también con un 40%.
● TuMinhDang quinto con una puntuación de 38%.
Estas puntuaciones muestran cómo todos están trabajando duro y encontrando nuevas formas de abordar el punto de referencia ARC. También muestran cómo los diferentes equipos están usando diferentes estrategias.
El benchmark ARC sigue siendo una excelente manera de probar qué tan bien los sistemas de IA pueden razonar y generalizar. Si bien ha habido algunos grandes avances, ningún modelo ha logrado dominar completamente el ARC, lo que demuestra lo complicado que es lograr una inteligencia artificial general. Los investigadores y los profesionales siempre están buscando formas de combinar diferentes enfoques, utilizando el razonamiento simbólico con redes neuronales, para acercarse a la solución de problemas.
Puntos de referencia como el ARC nos permiten vislumbrar lo que depara el futuro a la investigación en IA. Están llevando el campo hacia sistemas que pueden pensar y adaptarse como los humanos. Si bien aún estamos haciendo avances lentos, el ARC ya ha establecido un camino claro para lograr la IAG.
● El enfoque se está moviendo hacia la generalización. ( https://arxiv.org/abs/2305.07141?utm_source=chatgpt.com )
En el futuro, los sistemas de IA se diseñarán para generalizar en lugar de especializarse. Como muestran las tareas de ARC, ser capaz de resolver nuevos problemas sin tener que volver a entrenarse es un signo clave de verdadera inteligencia. Parece probable que los investigadores desarrollen modelos que sean excelentes para el aprendizaje de pocos intentos o de cero intentos, inspirándose en cómo funciona nuestro cerebro.
● Los modelos híbridos serán la norma.
El éxito de los solucionadores ARC ya nos ha demostrado que los sistemas de enfoque único tienen sus límites. El futuro de la IA va a estar en los modelos híbridos que integran redes neuronales, sistemas simbólicos y razonamiento probabilístico. Estos modelos funcionarán bien en ARC, pero también podrán manejar problemas del mundo real donde la flexibilidad y la adaptabilidad son clave.
● Hay un nuevo enfoque en la arquitectura cognitiva.
El ARC ha hecho que la gente piense en arquitecturas cognitivas que copien la capacidad del cerebro humano de combinar diferentes formas de razonamiento. Veremos más investigaciones sobre la memoria de trabajo, el metaaprendizaje y los sistemas multiagente, lo que ayudará a allanar el camino para una IA que pueda razonar, aprender y adaptarse sobre la marcha.
A medida que los sistemas de IA se vuelvan más inteligentes, comenzarán a trabajar con nosotros en lugar de simplemente hacer nuestro trabajo por nosotros. Puntos de referencia como ARC están ayudando a desarrollar sistemas de IA que trabajan junto con los humanos, ofreciendo conocimientos y soluciones en áreas complejas como el descubrimiento científico y la resolución creativa de problemas.
Concursos como estos han inspirado realmente a la comunidad de IA. Con una recompensa de más de 1.000.000 de dólares, el premio ARC es un gran incentivo para que los investigadores propongan soluciones de código abierto que puedan superar los estándares actuales.
En WLTech.AI , reconocemos que el valor de dichas soluciones supera ampliamente el millón de dólares y estamos entusiasmados de participar en el desafío nuevamente el próximo año para seguir avanzando en este campo.