O raciocínio matemático sempre foi uma fronteira desafiadora para a inteligência artificial. Embora modelos de linguagem como GPT-3 e ChatGPT tenham alcançado um desempenho impressionante em muitas tarefas linguísticas, eles ainda lutam para resolver problemas matemáticos complexos de nível universitário com precisão. Dominar capacidades sofisticadas de raciocínio matemático poderia desbloquear aplicações de IA em diversos campos, como ciência, engenharia, finanças e muito mais.
Recentemente, pesquisadores da Universidade de Tsinghua e da Microsoft fizeram progressos significativos no fortalecimento das habilidades de raciocínio matemático de grandes modelos de linguagem. Sua principal inovação técnica (
Vamos ver como isso funciona!
Tarefas como cálculo numérico e álgebra básica podem ser razoavelmente bem realizadas pelos modelos existentes. No entanto, a resolução de problemas matemáticos complexos envolvendo inferência em várias etapas, manipulações simbólicas e conceitos abstratos permanece problemática.
Por exemplo, os modelos muitas vezes não conseguem resolver problemas de álgebra que exigem a identificação de variáveis, o estabelecimento de sistemas de equações e a formalização matemática de relações descritas verbalmente no texto. A geometria apresenta desafios devido à necessidade de habilidades de raciocínio espacial. Os exercícios de matemática do ensino médio e universitário também introduzem conceitos como provas, integrais, matrizes e muito mais que confundem os modelos de linguagem existentes.
Os pesquisadores atribuem essas dificuldades a dois fatores principais:
Falta de capacidades de raciocínio abstrato : os modelos de linguagem hoje são treinados principalmente em corpora de texto da Internet. Embora isto ensine competências linguísticas, não fornece o conhecimento estruturado e a lógica necessários para o raciocínio matemático.
Incapacidade de realizar cálculos simbólicos : a linguagem carece do rigor e da precisão necessários para manipular símbolos matemáticos. Os modelos podem cometer pequenos erros em cada etapa que se acumulam em problemas de várias etapas.
Para enfrentar esses desafios, os pesquisadores propõem o ensino de modelos de linguagem para raciocinar em um formato que eles chamam de Raciocínio Integrado em Ferramentas . A principal inovação é intercalar os fundamentos da linguagem natural gerados pelo modelo com o código para invocar ferramentas matemáticas externas.
Por exemplo, dado um problema complexo de palavras de álgebra, o modelo pode primeiro descrever a abordagem em palavras, depois escrever um programa Python usando SymPy para configurar simbolicamente o sistema de equações, executá-lo para obter uma solução e, finalmente, explicar o resultado verbalmente.
Isto complementa os pontos fortes dos modelos de linguagem no raciocínio e planejamento de alto nível com a precisão e o poder computacional das ferramentas matemáticas. Eles antecipam que isso poderia melhorar significativamente a capacidade dos modelos de resolver problemas que exigem compreensão semântica e manipulação simbólica.
Para concretizar esta visão, os investigadores tiveram primeiro de criar um conjunto de dados que demonstrasse o raciocínio integrado em ferramentas sobre problemas matemáticos. Eles aproveitaram os recursos do GPT-3 para gerar automaticamente 16.000 exemplos do próprio GPT-3, resolvendo problemas dos conjuntos de dados GSM8k e MATH enquanto interagiam com ferramentas como SymPy.
Com esse corpus de trajetórias de interação de ferramentas, a equipe pré-treinou versões do modelo LLaMA usando aprendizagem por imitação. Ou seja, os modelos foram treinados para prever o comportamento de uso da ferramenta e os raciocínios de linguagem natural intercalados demonstrados no conjunto de dados.
Essa abordagem produziu uma série de agentes de raciocínio de código aberto (TORA) integrados em ferramentas , variando de 7 bilhões a 70 bilhões de parâmetros.
Os pesquisadores avaliaram sistematicamente os modelos TORA em 10 conjuntos de dados de raciocínio matemático diversos e compararam o desempenho com técnicas de última geração anteriores.
Os resultados demonstram que o treinamento de raciocínio integrado a ferramentas produz ganhos substanciais em todos os tamanhos e tarefas de modelos:
Os modelos TORA alcançaram, em média , uma precisão 13-19% maior em comparação com os melhores modelos de código aberto existentes.
Em um teste desafiador de matemática em nível de competição (conjunto de dados MATH), o TORA-7B obteve 40% de precisão , superando o melhor modelo anterior em 22 pontos percentuais.
O TORA-34B atingiu 51% de precisão no MATH, superando o desempenho do GPT-4 de 43% nos mesmos problemas.
Isto sugere que aprender a aproveitar ferramentas externas poderia melhorar notavelmente até mesmo modelos muito grandes como o GPT-4 no raciocínio matemático.
Curiosamente, as melhorias foram consistentes em diversos tipos de problemas, abrangendo aritmética, álgebra, cálculo, geometria, probabilidade, etc. A integração de ferramentas parece proporcionar amplos benefícios.
Para entender melhor o comportamento do modelo, os pesquisadores analisaram sistematicamente os padrões de uso de ferramentas em domínios matemáticos:
Eles também avaliaram as ablações removendo os fundamentos da linguagem natural ou a integração de ferramentas:
Esses insights iluminam os pontos fortes complementares do raciocínio linguístico e simbólico.
Apesar dos ganhos decorrentes da integração de ferramentas, ainda há espaço significativo para melhorias. Os pesquisadores identificaram a geometria e a álgebra avançada como áreas onde os modelos ainda enfrentavam dificuldades.
A geometria representa um desafio, pois ferramentas atuais como o SymPy têm capacidades limitadas para raciocínio espacial. Avanços no raciocínio multimodal e maior integração com bibliotecas gráficas poderiam ajudar.
Para álgebra abstrata, podem ser necessárias técnicas usadas por matemáticos humanos, como aproveitar teoremas conhecidos e resolver problemas de trás para frente a partir do resultado. Provavelmente também serão necessárias capacidades de raciocínio simbólico mais fortes.
No geral, esta pesquisa fornece evidências promissoras de que a combinação dos pontos fortes do modelo de linguagem com ferramentas externas especializadas pode melhorar notavelmente o raciocínio matemático. No entanto, a integração eficiente de diferentes modalidades de raciocínio e estratégias de resolução de problemas matemáticos de nível superior permanece um problema em aberto. Estas são orientações importantes para trabalhos futuros.
O paradigma de formação integrada em ferramentas aqui introduzido também poderia estimular uma investigação sobre a integração de capacidades externas para melhorar o raciocínio em disciplinas como lógica, raciocínio de senso comum e arte. Este poderia ser um passo importante em direção a sistemas de IA mais capazes e versáteis.
Também publicado aqui.