Le raisonnement mathématique constitue depuis longtemps une frontière difficile pour l’intelligence artificielle. Bien que les modèles linguistiques tels que GPT-3 et ChatGPT aient atteint des performances impressionnantes sur de nombreuses tâches linguistiques, ils ont encore du mal à résoudre avec précision des problèmes mathématiques complexes de niveau universitaire. La maîtrise de capacités sophistiquées de raisonnement mathématique pourrait débloquer des applications d’IA dans divers domaines tels que la science, l’ingénierie, la finance, etc.
Récemment, des chercheurs de l'Université Tsinghua et de Microsoft ont réalisé des progrès significatifs dans le renforcement des capacités de raisonnement mathématique des grands modèles de langage. Leur innovation technique clé (
Voyons voir comment ça fonctionne!
Des tâches telles que le calcul numérique et l’algèbre de base peuvent être raisonnablement bien gérées par les modèles existants. Cependant, la résolution de problèmes mathématiques complexes impliquant une inférence en plusieurs étapes, des manipulations symboliques et des concepts abstraits reste problématique.
Par exemple, les modèles échouent souvent à résoudre des problèmes de mots algébriques qui nécessitent l’identification de variables, la mise en place de systèmes d’équations et la formalisation mathématique des relations décrites verbalement dans le texte. La géométrie pose des défis en raison de la nécessité de compétences en raisonnement spatial. Les exercices de mathématiques au lycée et à l'université introduisent également des concepts tels que les preuves, les intégrales, les matrices, etc. qui confondent les modèles de langage existants.
Les chercheurs attribuent ces difficultés à deux facteurs principaux :
Manque de capacités de raisonnement abstrait : les modèles de langage sont aujourd'hui formés principalement sur des corpus de textes Internet. Bien que cela enseigne des compétences linguistiques, cela ne fournit pas les connaissances structurées et la logique nécessaires au raisonnement mathématique.
Incapacité à effectuer des calculs symboliques : Le langage manque de rigueur et de précision nécessaires à la manipulation de symboles mathématiques. Les modèles peuvent commettre de petites erreurs à chaque étape qui s’accumulent sur des problèmes à plusieurs étapes.
Pour relever ces défis, les chercheurs proposent d'enseigner aux modèles de langage à raisonner dans un format qu'ils appellent raisonnement intégré aux outils . L'innovation clé consiste à entrelacer les logiques en langage naturel générées par le modèle avec le code pour invoquer des outils mathématiques externes.
Par exemple, étant donné un problème de mots d'algèbre complexe, le modèle peut d'abord décrire l'approche avec des mots, puis écrire un programme Python utilisant SymPy pour configurer symboliquement le système d'équations, l'exécuter pour obtenir une solution et enfin expliquer le résultat verbalement.
Cela complète les atouts des modèles de langage en matière de raisonnement et de planification de haut niveau avec la précision et la puissance de calcul des outils mathématiques. Ils prévoient que cela pourrait améliorer considérablement la capacité des modèles à résoudre des problèmes nécessitant à la fois une compréhension sémantique et une manipulation symbolique.
Pour concrétiser cette vision, les chercheurs ont d’abord dû créer un ensemble de données démontrant un raisonnement intégré à des outils sur des problèmes mathématiques. Ils ont exploité les capacités de GPT-3 pour générer automatiquement 16 000 exemples de GPT-3 lui-même, résolvant les problèmes des ensembles de données GSM8k et MATH tout en interagissant avec des outils comme SymPy.
Avec ce corpus de trajectoires d'interaction avec les outils, l'équipe a pré-entraîné des versions du modèle LLaMA en utilisant l'apprentissage par imitation. Autrement dit, les modèles ont été entraînés pour prédire le comportement d’utilisation des outils et les justifications en langage naturel entrelacées démontrées dans l’ensemble de données.
Cette approche a produit une série d'agents de raisonnement open source (TORA) intégrés à l' outil allant de 7 milliards à 70 milliards de paramètres.
Les chercheurs ont systématiquement évalué les modèles TORA sur 10 ensembles de données de raisonnement mathématique différents et comparé les performances aux techniques de pointe antérieures.
Les résultats démontrent que la formation au raisonnement intégrée aux outils génère des gains substantiels quelle que soit la taille des modèles et les tâches :
Les modèles TORA ont atteint en moyenne une précision supérieure de 13 à 19 % par rapport aux meilleurs modèles open source existants.
Lors d'un test de mathématiques exigeant au niveau d'une compétition (ensemble de données MATH), TORA-7B a obtenu un taux de précision de 40 % , battant le meilleur modèle précédent de 22 points de pourcentage.
TORA-34B a atteint une précision de 51 % en MATH, dépassant les performances de GPT-4 de 43 % sur les mêmes problèmes.
Cela suggère qu’apprendre à tirer parti d’outils externes pourrait améliorer considérablement le raisonnement mathématique, même avec des modèles très volumineux comme GPT-4.
Il est intéressant de noter que les améliorations ont été cohérentes dans divers types de problèmes couvrant l'arithmétique, l'algèbre, le calcul, la géométrie, les probabilités, etc. L'intégration des outils semble offrir de nombreux avantages.
Pour mieux comprendre le comportement des modèles, les chercheurs ont systématiquement analysé les modèles d'utilisation des outils dans les domaines mathématiques :
Ils ont également évalué les ablations en supprimant soit les justifications du langage naturel, soit l'intégration d'outils :
Ces idées mettent en lumière les forces complémentaires du raisonnement linguistique et symbolique.
Malgré les gains liés à l’intégration des outils, d’importantes marges d’amélioration demeurent. Les chercheurs ont identifié la géométrie et l’algèbre avancée comme des domaines dans lesquels les modèles rencontraient encore des difficultés.
La géométrie pose un défi car les outils actuels comme SymPy ont des capacités limitées en matière de raisonnement spatial. Les progrès du raisonnement multimodal et une intégration plus étroite avec les bibliothèques graphiques pourraient être utiles.
Pour l'algèbre abstraite, des techniques utilisées par les mathématiciens humains, comme l'exploitation de théorèmes connus et le traitement des problèmes à rebours du résultat, peuvent être nécessaires. Des capacités de raisonnement symbolique plus fortes sont également probablement nécessaires.
Dans l’ensemble, cette recherche fournit des preuves prometteuses selon lesquelles la combinaison des atouts des modèles linguistiques avec des outils externes spécialisés peut améliorer considérablement le raisonnement mathématique. Cependant, l’intégration efficace de différentes modalités de raisonnement et de stratégies de résolution de problèmes mathématiques de niveau supérieur reste un problème ouvert. Ce sont des orientations importantes pour les travaux futurs.
Le paradigme de formation intégré aux outils présenté ici pourrait également inciter à étudier l’intégration de capacités externes pour améliorer le raisonnement dans des disciplines telles que la logique, le raisonnement de bon sens et l’art. Cela pourrait constituer une étape importante vers des systèmes d’IA plus performants et plus polyvalents.
Également publié ici.