paint-brush
L'agent IA de WLTech remporte un gros lot dans un défi d'un million de dollarspar@wltechai
Nouvelle histoire

L'agent IA de WLTech remporte un gros lot dans un défi d'un million de dollars

Trop long; Pour lire

L'IAG vise à créer des systèmes d'IA capables de généraliser véritablement les connaissances et les compétences. Elle peut apprendre des principes fondamentaux qui peuvent être appliqués à des situations totalement nouvelles. L'IA actuelle nécessitera des milliers d'heures de données de formation.
featured image - L'agent IA de WLTech remporte un gros lot dans un défi d'un million de dollars
WLTech.AI (WebLab Technology) HackerNoon profile picture


Prenons un instant pour réfléchir à l’apprentissage de la conduite. Chacun d’entre nous peut apprendre les principes de base de la conduite à partir de quelques démonstrations seulement, et une fois que nous aurons compris des concepts tels que la direction, l’accélération et le freinage, nous pourrons appliquer ces compétences à n’importe quelle voiture, d’une berline compacte à un gros camion. Grâce à ces compétences, nous pouvons également nous adapter rapidement aux différentes conditions routières, météorologiques et de circulation, même si nous ne les avons jamais rencontrées auparavant. Cependant, l’IA actuelle aura besoin de milliers d’heures de données d’entraînement pour chaque véhicule et chaque condition spécifique, tandis que l’AGI serait capable de saisir les principes fondamentaux de la conduite et de les appliquer à grande échelle.


L'AGI vise à créer des systèmes d'IA capables de généraliser véritablement les connaissances et les compétences, en apprenant des principes fondamentaux qui peuvent être appliqués à des situations totalement nouvelles. Conduire une voiture, jouer au fromage, au go, à Minecraft, etc. Cela diffère sensiblement des systèmes d'IA actuels, y compris les LLM, qui fonctionnent principalement grâce à une mise en correspondance de modèles sophistiqués sur de vastes ensembles de données de formation.


Si les LLM modernes peuvent s'engager dans des conversations apparemment intelligentes et résoudre des problèmes complexes, ils fonctionnent fondamentalement en reconnaissant et en recombinant les modèles qu'ils ont rencontrés au cours de leur formation. Cela s'apparente davantage à une mémorisation et une corrélation statistique extrêmement avancées qu'à une véritable compréhension et généralisation, car ils ne construisent pas de véritables modèles causaux ou de représentations abstraites du monde. Lorsqu'ils semblent généraliser, ils se contentent généralement de trouver des modèles statistiques subtils dans leurs données de formation plutôt que de comprendre des principes plus profonds.

Pourquoi l'ARC est-il important ?

L’ARC aborde un problème de mesure crucial dans la recherche en IA : comment pouvons-nous réellement tester si un système d’IA peut généraliser ?


Les tests de performance traditionnels mesurent généralement les performances sur des tâches spécifiques avec de grands ensembles de données d'entraînement, mais des scores élevés n'indiquent pas nécessairement une véritable capacité de généralisation. Une IA peut être performante simplement en mémorisant des modèles dans les données d'entraînement plutôt qu'en développant une véritable compréhension.


Comme l’écrit F. Chollet : « À notre connaissance, l’ARC ne semble pas accessible par aucune technique d’apprentissage automatique existante (y compris le Deep Learning) ».


Les principales difficultés sont les suivantes :

– Le résultat attendu n’est pas une étiquette ni même un ensemble d’étiquettes, mais une grille colorée avec des tailles allant jusqu’à 30x30 et avec jusqu’à 10 couleurs différentes. Il s’agit donc du domaine de la prédiction structurée.

– Le résultat prédit doit correspondre exactement au résultat attendu. Si une seule cellule est erronée, la tâche est considérée comme échouée. Pour compenser cela, trois tentatives sont autorisées pour chaque grille d'entrée.

– Dans chaque tâche, il y a généralement entre deux et quatre instances d’entraînement (grille d’entrée + grille de sortie), et une ou deux instances de test pour lesquelles une prédiction doit être faite.

– Chaque tâche repose sur une transformation distincte de la grille d’entrée vers la grille de sortie. En particulier, aucune tâche d’évaluation ne peut être résolue en réutilisant une transformation apprise sur les tâches d’entraînement. Chaque tâche est un problème d’apprentissage distinct, et ce que l’ARC évalue est une généralisation large et un apprentissage en quelques coups.


L'ARC propose un test de généralisation plus rigoureux en présentant chaque puzzle avec seulement 3 à 5 échantillons, en quelques coups seulement. Ces données d'entraînement minimales signifient que l'IA ne peut pas s'appuyer sur une recherche approfondie de modèles : elle doit extraire les principes sous-jacents et les appliquer à de nouvelles situations, tout comme le font les humains. Les puzzles sont également délibérément conçus pour résister aux solutions de raccourci ou aux stratégies de mémorisation.


L’ARC est particulièrement utile car elle fournit une mesure quantifiable de la capacité de généralisation. Plutôt que de débattre de la question de savoir si un système d’IA « comprend » vraiment au sens philosophique du terme, nous pouvons mesurer les performances concrètes de ces tâches de raisonnement soigneusement conçues. Cela donne aux chercheurs un point de référence clair pour les progrès vers l’intelligence artificielle générale.


Si vous souhaitez en savoir plus sur le benchmark ARC et ce que cela signifie pour le développement de l'IA, cette vidéo est un excellent point de départ :

Approches pour résoudre le problème de l'ARC

  1. Approches par force brute

Le concours Kaggle 2020 a révélé l’une des premières approches de résolution de l’ARC : la recherche par force brute dans un espace de transformations prédéfinies. La solution gagnante a construit un langage spécifique au domaine (DSL) contenant 142 opérations de grille élaborées à la main. En recherchant systématiquement des combinaisons de ces opérations, elle a atteint une précision de 20 % sur les tâches d’évaluation privées. Une autre solution similaire utilisant l’évolution grammaticale pour guider la recherche de transformation a atteint une précision de 3 à 7,68 %.


Bien que remarquables par leur succès initial, ces solutions ont mis en évidence une limitation majeure : elles reposaient sur une recherche exhaustive de règles préprogrammées plutôt que sur le développement d’une véritable compréhension ou capacité de généralisation. Cet écart entre la recherche programmatique et la véritable intelligence démontre pourquoi l’ARC reste une référence difficile pour mesurer les capacités de généralisation.


  1. Longueur minimale de la description (MDL)

L’approche actuelle ( https://github.com/sebferre/ARC-MDL/tree/master ) repose sur un principe fondamental utilisé pour découvrir des modèles et créer des modèles qui expliquent au mieux les données de la manière la plus concise possible. À la base, MDL stipule que « le meilleur modèle pour certaines données est celui qui les compresse le plus ».


La solution utilise un langage de modélisation spécialisé pour décrire efficacement les modèles de grille. Ce langage fournit une manière structurée de représenter les grilles d'entrée et de sortie sous forme de combinaisons d'éléments de base :


Au niveau le plus élevé, chaque puzzle est représenté par une paire et contient deux grilles :

● Une grille d'entrée (in)

● Une grille de sortie (out)


Chaque grille est définie par trois composants :

  1. Un vecteur de taille (définissant la hauteur et la largeur)
  2. Une couleur d'arrière-plan
  3. Une liste de calques contenant des objets


Les objets sont des formes positionnées, où chaque forme peut être soit :

● Un point unicolore

● Un rectangle avec une taille, une couleur et un masque spécifiés


Le système de masque est particulièrement puissant, permettant aux rectangles de prendre diverses formes :

● Complet (rectangle plein)

● Bordure (contour uniquement)

● Motifs en damier (pairs ou impairs)

● Motifs croisés (forme plus ou moins multipliée)

● Motifs bitmap personnalisés


Ce langage permet au système de décrire des grilles complexes de manière compacte. Par exemple, au lieu de stocker une grille 10x10 pixel par pixel (100 valeurs), il peut la stocker sous la forme d'un « arrière-plan noir avec un rectangle rouge 3x3 à la position (2,2) » — en utilisant beaucoup moins de valeurs tout en capturant la structure essentielle.


Lors de la recherche de modèles, le système essaie de trouver la description la plus concise possible des grilles d'entrée et de sortie à l'aide de ce langage. Les bonnes solutions ont tendance à réutiliser des éléments entre l'entrée et la sortie (par exemple en prenant une forme de l'entrée et en la transformant dans la sortie), ce qui conduit à des descriptions plus courtes et à une meilleure compression.


Le succès de cette approche (94/400 tâches de formation résolues) suggère que ce langage capture de nombreux modèles clés présents dans les puzzles ARC tout en étant suffisamment contraint pour éviter le surajustement à des exemples spécifiques.


  1. Prédiction de sortie directe avec les LLM de base

Bien que les LLM aient montré des capacités impressionnantes dans de nombreux domaines, leur utilisation directe pour résoudre des problèmes d'ARC présente à la fois des opportunités et des défis. L'approche naïve consiste à fournir au LLM des exemples d'entrées-sorties et à lui demander de prédire la réponse pour de nouvelles entrées. Cependant, cette méthode présente des limites importantes. Les LLM démontrent des capacités de raisonnement spatial très limitées dans ce contexte et sont très sujets aux hallucinations lorsqu'ils tentent de prédire les transformations de grille.


  1. Amélioration de la chaîne de pensée pour la résolution de problèmes LLM

Cette approche s'appuie sur la méthode de prédiction directe en demandant d'abord au LLM d'analyser et de décrire les modèles qu'il observe dans les paires entrée-sortie. Bien que cette étape de raisonnement supplémentaire donne de meilleurs résultats en aidant le LLM à décomposer le problème, elle présente toujours les mêmes limites fondamentales. Le modèle continue de présenter un taux élevé d'hallucinations lorsqu'il tente de prédire les résultats finaux, même après avoir identifié des modèles potentiels. Cela suggère que l'ajout d'étapes de raisonnement explicites à lui seul ne suffit pas à surmonter les limites du raisonnement spatial du LLM pour résoudre les défis ARC.

Agents IA et leur rôle dans l'AGI

Chez WLTech.AI , nous considérons que le rôle des agents IA dans la recherche de l'AGI est d'une grande importance. Ils sont conçus pour interagir avec leurs paramètres de manière dynamique, s'adapter en fonction de ce qu'ils apprennent et apprendre par eux-mêmes. Contrairement aux modèles statiques formés une seule fois, les agents IA peuvent apprendre des interactions en cours et s'adapter aux circonstances changeantes, ce qui en fait un élément essentiel du développement de l'AGI.


Les agents d’IA sont les cerveaux de l’opération, coordonnant une gamme de techniques adaptées aux exigences spécifiques d’une tâche. Les systèmes symboliques sont excellents pour le raisonnement précis basé sur des règles, ce qui les rend parfaits pour les tâches qui nécessitent de comprendre des transformations telles que des rotations ou des réflexions. Les réseaux neuronaux sont excellents pour reconnaître des modèles et généraliser à partir de données, ce qui est vraiment utile pour identifier les structures sous-jacentes dans les tâches ARC.


Cependant, les défis de l'ARC ne se limitent pas à la manipulation symbolique ou à la reconnaissance de modèles. De nombreuses tâches nécessitent un niveau d'abstraction plus avancé, notamment la capacité de créer de nouvelles règles, d'établir des connexions et de s'adapter à de nouvelles situations. Les modèles de langage sont utiles ici, car ils peuvent être utilisés pour des tâches telles que la synthèse de programmes et le raisonnement abstrait. Les algorithmes de recherche sont un autre outil à disposition, car ils peuvent explorer efficacement les transformations possibles pour identifier des solutions. Les systèmes de planification, quant à eux, fournissent le cadre nécessaire pour décomposer et résoudre des problèmes complexes une étape à la fois.


Ce qui rend les agents d'IA si intelligents, c'est qu'ils peuvent combiner toutes ces différentes approches. Ils n'utilisent pas seulement une méthode à la fois. Ils évaluent et déploient la meilleure combinaison de techniques pour résoudre chaque problème unique. Cette capacité d'adaptation à la volée est ce qui distingue les humains et constitue un élément important de l'avancement de l'IA générale.

À la base, les agents d'IA sont des coordinateurs intelligents. Ils conservent un enregistrement continu de ce qui fonctionne et de ce qui ne fonctionne pas, afin de pouvoir tirer des leçons de leurs expériences passées.


Notre solution Agentic AI Vous pouvez retrouver notre solution ici : https://colab.research.google.com/drive/1-rQoqrGRGQE6M8bMpfzqf6tV3TnUi-Mp?usp=sharing ou sur Github : https://github.com/weblab-technology/arc-challenge-2024-10



Notre percée est venue de l'imitation du comportement humain en matière de résolution de problèmes : analyse d'exemples, élaboration d'hypothèses sur les règles, tests et perfectionnement. Au lieu de recourir à la force brute, notre IA se concentre sur l'écriture de fonctions de génération (un code Python qui définit les transformations) et les teste immédiatement sur les données d'entraînement.

Étapes clés :

  1. Analyser les modèles : l’IA identifie les relations dans les paires entrée-sortie.
  2. Générer une fonction : il écrit une fonction de transformation (entrée) : sortie basée sur les modèles observés.
  3. Test immédiat : la fonction est testée sur les entrées d'apprentissage. Si les sorties correspondent exactement, la solution est considérée comme valide et appliquée aux entrées de test.
  4. Itérer : si les tests échouent, la fonction est affinée et re-testée.


Une découverte surprenante de notre approche a été que les améliorations itératives entravent souvent les progrès plutôt que de les aider. Si l’hypothèse initiale sur laquelle repose une fonction de génération est erronée, tenter de l’affiner amplifie généralement l’erreur au lieu de la corriger. Cette constatation a fondamentalement remodelé notre méthodologie.

Des idées nouvelles plutôt que raffinées

Au lieu d’affiner des hypothèses erronées, nous avons trouvé plus efficace de :

  1. Abandonnez complètement cette approche erronée.
  2. Générez une nouvelle hypothèse à partir de zéro en vous basant sur de nouvelles informations issues des données de formation.


Cela reflète le comportement humain qui consiste à réinitialiser et à repenser lorsqu’une solution s’avère improductive, plutôt que de corriger une stratégie défaillante.

Pourquoi les algorithmes génétiques n'ont pas fonctionné

Cette idée explique également pourquoi les algorithmes génétiques n’ont pas réussi à améliorer les résultats. Par conception, les algorithmes génétiques font évoluer les solutions de manière incrémentielle, en les affinant au fil des générations. Cependant, lorsque les hypothèses fondamentales sont erronées, les changements incrémentiels conduisent à des solutions alambiquées qui s’éloignent encore plus de la transformation correcte.


Évaluation LLM : Claude 3.5 Sonnet surpasse ses concurrents

Pour relever le défi ARC, nous avons testé de manière approfondie plusieurs grands modèles de langage (LLM) pour aider à écrire des fonctions de génération. Parmi eux, Claude 3.5 Sonnet s'est révélé le plus performant, surpassant largement ses concurrents.


Principales conclusions :

Claude 3.5 Sonnet contre GPT-4o :

Performances : Claude 3.5 Sonnet a identifié plus de modèles que GPT-4o, atteignant presque le double de précision dans la reconnaissance de modèles.

Efficacité : Claude a obtenu les mêmes résultats que GPT-4o d'OpenAI en 1/7 du temps d'exécution, le rendant non seulement plus efficace mais aussi plus rapide.


Déclin du GPT-4o :

● Nous avons observé une baisse notable des performances de GPT-4o au fil du temps. La version initiale de GPT-4o était bien plus performante pour les tâches ARC que les versions ultérieures, ce qui indique un changement potentiel dans son optimisation qui a entravé la reconnaissance des formes et le raisonnement pour ce défi.


Pourquoi le Sonnet Claude 3.5 se démarque


L'avantage de Claude réside dans sa capacité à généraliser et à identifier des transformations subtiles, ce qui est crucial pour la nature peu fréquente d'ARC. Ses performances et son efficacité constantes en ont fait le choix évident pour l'intégration dans notre cadre d'agent d'IA, établissant une nouvelle norme pour le raisonnement basé sur LLM dans la résolution de problèmes structurés.

Résultats

Notre approche a atteint une précision de près de 30 % sur l'ensemble d'évaluation ARC , surpassant considérablement les méthodes de base. Ce résultat met en évidence la force de l'imitation du comportement humain de résolution de problèmes, l'exploitation de nouvelles hypothèses plutôt que des améliorations itératives et l'utilisation des LLM les plus performants comme Claude 3.5 Sonnet. Bien qu'il y ait encore une marge de progression substantielle, cette étape démontre des progrès significatifs dans la résolution des défis de l'ARC et dans la progression vers une généralisation plus large de l'IA.

Orientations futures de l'ARC

Chez WLTech.AI, nous pensons que l'avenir de la résolution des problèmes ARC réside dans la croissance continue des capacités LLM combinées à des cadres de raisonnement de plus haut niveau comme la longueur de description minimale (MDL) ou des approches similaires pour une explication concise des modèles. Ces avancées pourraient permettre aux modèles de mieux abstraire et généraliser les transformations. De plus, l'intégration d'un système d'invite auto-affiné basé sur une banque de solutions croissante permettrait aux modèles d'améliorer leur raisonnement de manière itérative et de s'inspirer des succès passés, créant ainsi un pipeline de résolution de problèmes plus adaptatif et plus efficace. Cette synergie entre les LLM avancés, les explications structurées et l'apprentissage adaptatif a le potentiel de franchir de nouvelles étapes dans le développement des ARC et des AGI.

Résolveurs ARC notables

Le benchmark ARC (Abstraction and Reasoning Corpus) a été essentiel pour tester la capacité de l'IA à appliquer des règles générales et à penser de manière plus abstraite. Au fil des ans, nous avons vu apparaître un certain nombre de solveurs remarquables, chacun apportant quelque chose de différent au domaine.


● L'approche de Ryan Greenblatt

En 2024, Ryan Greenblatt, ingénieur chez Redwood Research, a franchi une étape importante en obtenant un score de 42 % à l'évaluation publique ARC-AGI, avec un score de vérification de 43 %. Son approche consistait à utiliser GPT-4o pour générer et affiner plusieurs programmes Python et sélectionner les meilleurs pour les soumettre. Cela montre comment nous pouvons utiliser de grands modèles de langage avec la synthèse de programmes pour aborder des tâches de raisonnement complexes.


● Glaçon 2020

La solution « icecuber 2020 », lauréate d'un précédent concours, a obtenu un score d'évaluation publique de 39 % et un score de vérification de 17 %. Bien que nous ne disposions pas de tous les détails sur la méthodologie, cette solution a été très importante pour fixer la barre pour les résolveurs ARC ultérieurs.

Classement du prix ARC 2024

Le classement du Prix ARC 2024 présente les meilleurs résultats suivants :


● MindsAI est en tête avec un score de 55,5 %.

● Les ARChitects suivent de près avec un score de 53,5%.

● Guillermo Barbadillo en troisième position avec un score de 40%.

● Alijs en quatrième position, également à 40%.

● TuMinhDang cinquième avec un score de 38%.


Ces scores montrent que tout le monde travaille dur et propose de nouvelles façons d'aborder le benchmark ARC. Ils montrent également comment différentes équipes utilisent différentes stratégies.

Le rôle de l'ARC dans l'inspiration des chercheurs en IA

Le benchmark ARC reste un excellent moyen de tester la capacité des systèmes d’IA à raisonner et à généraliser. Même si des avancées majeures ont été réalisées, aucun modèle n’a réussi à maîtriser complètement l’ARC, ce qui montre à quel point il est difficile de parvenir à une intelligence artificielle générale. Les chercheurs et les praticiens sont toujours à la recherche de moyens de combiner différentes approches, en utilisant le raisonnement symbolique avec les réseaux neuronaux, pour se rapprocher de la résolution des problèmes.


Des études de référence comme celle de l'ARC nous donnent un aperçu de ce que l'avenir réserve à la recherche en IA. Elles font évoluer le domaine vers des systèmes capables de penser et de s'adapter comme les humains. Même si nos progrès sont encore lents, l'ARC a déjà tracé une voie claire vers l'IA générale.


L'accent est mis sur la généralisation. ( https://arxiv.org/abs/2305.07141?utm_source=chatgpt.com )

À l’avenir, les systèmes d’IA seront conçus pour généraliser plutôt que pour se spécialiser. Comme le montrent les tâches ARC, être capable de résoudre de nouveaux problèmes sans avoir à se recycler est un signe clé d’une véritable intelligence. Il semble probable que les chercheurs développeront des modèles performants dans l’apprentissage à faible ou à zéro coup, en s’inspirant du fonctionnement de notre cerveau.


Les modèles hybrides vont devenir la norme.

Le succès des solveurs ARC nous a déjà montré que les systèmes à approche unique ont leurs limites. L'avenir de l'IA sera celui des modèles hybrides qui intègrent des réseaux neuronaux, des systèmes symboliques et un raisonnement probabiliste. Ces modèles fonctionneront bien sur ARC, mais ils seront également capables de gérer des problèmes du monde réel où la flexibilité et l'adaptabilité sont essentielles.


Il y a un nouvel accent sur l’architecture cognitive.

L'ARC a fait réfléchir les gens à des architectures cognitives qui copient la capacité du cerveau humain à combiner différentes manières de raisonner. Nous verrons davantage de recherches sur la mémoire de travail, le méta-apprentissage et les systèmes multi-agents, ce qui contribuera à ouvrir la voie à une IA capable de raisonner, d'apprendre et de s'adapter à la volée.


À mesure que les systèmes d’IA deviennent plus intelligents, ils commenceront à travailler avec nous plutôt que de simplement faire le travail à notre place. Des références comme ARC aident à développer des systèmes d’IA qui travaillent aux côtés des humains, offrant des perspectives et des solutions dans des domaines complexes comme la découverte scientifique et la résolution créative de problèmes.


Des concours comme celui-ci ont véritablement inspiré la communauté de l’IA. Avec une récompense de plus d’un million de dollars, le prix ARC est une formidable incitation pour les chercheurs à proposer des solutions open source capables de surpasser les normes actuelles.


Chez WLTech.AI , nous reconnaissons que la valeur de telles solutions dépasse largement 1 000 000 $ et nous sommes ravis de participer à nouveau au défi l'année prochaine pour continuer à faire progresser le domaine.