Autores:
(1) Zhan Ling, UC San Diego e contribuição igual;
(2) Yunhao Fang, UC San Diego e contribuição igual;
(3) Xuanlin Li, Universidade da Califórnia em San Diego;
(4) Zhiao Huang, Universidade da Califórnia em San Diego;
(5) Mingu Lee, Pesquisa de IA da Qualcomm e Pesquisa de IA da Qualcomm
(6) Roland Memisevic, Pesquisa de IA da Qualcomm;
(7) Hao Su, Universidade da Califórnia em San Diego.
Motivação e Formulação de Problemas
Raciocínio de cadeia de pensamento verificável dedutivamente
Conclusão, Agradecimentos e Referências
Uma Verificação Dedutiva com Modelos de Vicunha
C Mais detalhes sobre extração de respostas
E Mais Exemplos de Verificação Dedutiva
Raciocínio com grandes modelos de linguagem. Modelos de grandes linguagens (LLMs) recentes [3, 8, 57, 47, 38, 18, 9, 37] demonstraram uma capacidade incrível na resolução de tarefas complexas de raciocínio. Em vez de deixar que os LLMs gerem diretamente respostas finais como saída, trabalhos anteriores mostraram que, ao encorajar o raciocínio passo a passo por meio de prompts adequados, como o prompting Chain-of-Thought (CoT) [50] e muitos outros [21, 59, 58, 44, 48, 60, 25, 54], os LLMs exibem desempenho significativamente melhor em diversas tarefas de raciocínio. Para melhorar ainda mais o processo de raciocínio passo a passo, alguns estudos recentes investigaram o aproveitamento de solucionadores externos, como intérpretes de programas [39, 5, 27], o treinamento e a chamada de módulos de raciocínio externo [11] ou a realização de pesquisa explícita para gerar etapas dedutivas [2, 46]. Paralelamente a esses trabalhos, não dependemos de módulos e algoritmos externos e aproveitamos diretamente a capacidade de aprendizagem em contexto dos LLMs para gerar raciocínios dedutivos mais precisos e rigorosos.
Grandes modelos de linguagem como verificadores. Usar modelos de linguagem para avaliar gerações de modelos é uma ideia antiga [22, 36, 40, 4]. Como os LLMs exibem capacidades impressionantes em diversas tarefas, torna-se uma ideia natural usar os LLMs como ferramentas de avaliação e verificação. Por exemplo, [10, 11, 33] ajustam os LLMs para verificar soluções e etapas intermediárias. Os LLMs alinhados com RLHF [32, 31, 48] também foram empregados para comparar diferentes gerações de modelos. Além disso, trabalhos recentes como [43, 52, 28, 6] alavancam designs de prompt para permitir que os LLMs se autoverifiquem, se autorefinem e se autodepurem sem a necessidade de ajuste fino. No entanto, esses trabalhos não se concentram no rigor e na confiabilidade dos processos de raciocínio dedutivo em cada etapa do raciocínio. Neste trabalho, propomos um formato de raciocínio dedutivo baseado em linguagem natural que permite que os LLMs autoverifiquem cada etapa intermediária de um processo de raciocínio dedutivo, melhorando assim o rigor e a confiabilidade do raciocínio.
Além disso, embora alguns trabalhos recentes [12, 53, 15, 34] tenham proposto métodos para verificar etapas individuais em um processo de raciocínio, nossa abordagem se distingue desses trabalhos nas seguintes perspectivas: (1) Nossa abordagem alavanca o aprendizado em contexto para obter a verificação do raciocínio, sem a necessidade de ajuste fino do modelo de linguagem. (2) Nossa abordagem de verificação LLM baseada em Programa Natural não apenas identifica etapas de raciocínio inválidas, mas também fornece explicações explícitas de por que elas são inválidas, detalhando os erros de raciocínio específicos envolvidos. (3) Nossa abordagem de raciocínio e verificação baseada em Programa Natural é compatível com tarefas de raciocínio abstrato em contexto, nas quais as etapas de raciocínio não possuem estruturas de implicação semelhantes a provas. Por exemplo, nossa abordagem é compatível com a tarefa Últimas Letras, na qual o LLM é instruído a gerar a concatenação das últimas letras de todas as palavras em uma sequência como a resposta final. (4) Nossa abordagem de Programa Natural permite o uso de conhecimento de senso comum não listado explicitamente nas premissas. Por exemplo, considere este problema: "Marin come 4 maçãs por dia. Quantas maçãs ele come em novembro?” Embora “Novembro tem 30 dias” não esteja explicitamente listado nas premissas, o Natural Program permite o uso de tal conhecimento comum dentro de uma etapa de raciocínio. Nosso processo de verificação em contexto também é capaz de lidar com essas premissas implícitas (por exemplo, se o LLM gerar “Novembro tem 29 dias” em uma etapa de raciocínio, ele será marcado como inválido).
Este artigo está disponível no arxiv sob a licença CC BY 4.0 DEED.