Autores:  (1) Zhan Ling, UC San Diego e contribuição igual;  (2) Yunhao Fang, UC San Diego e contribuição igual;  (3) Xuanlin Li, Universidade da Califórnia em San Diego;  (4) Zhiao Huang, Universidade da Califórnia em San Diego;  (5) Mingu Lee, Pesquisa de IA da Qualcomm e Pesquisa de IA da Qualcomm  (6) Roland Memisevic, Pesquisa de IA da Qualcomm;  (7) Hao Su, Universidade da Califórnia em San Diego.  Tabela de Links   Resumo e Introdução   Trabalho relacionado   Motivação e Formulação de Problemas   Raciocínio de cadeia de pensamento verificável dedutivamente   Experimentos   Limitações   Conclusão, Agradecimentos e Referências   Uma Verificação Dedutiva com Modelos de Vicunha   B Mais discussão sobre melhorias na precisão da verificação dedutiva versus melhorias na correção da resposta final   C Mais detalhes sobre extração de respostas   D Prompts   E Mais Exemplos de Verificação Dedutiva  2 Trabalho relacionado    Modelos de grandes linguagens (LLMs) recentes [3, 8, 57, 47, 38, 18, 9, 37] demonstraram uma capacidade incrível na resolução de tarefas complexas de raciocínio. Em vez de deixar que os LLMs gerem diretamente respostas finais como saída, trabalhos anteriores mostraram que, ao encorajar o raciocínio passo a passo por meio de prompts adequados, como o prompting Chain-of-Thought (CoT) [50] e muitos outros [21, 59, 58, 44, 48, 60, 25, 54], os LLMs exibem desempenho significativamente melhor em diversas tarefas de raciocínio. Para melhorar ainda mais o processo de raciocínio passo a passo, alguns estudos recentes investigaram o aproveitamento de solucionadores externos, como intérpretes de programas [39, 5, 27], o treinamento e a chamada de módulos de raciocínio externo [11] ou a realização de pesquisa explícita para gerar etapas dedutivas [2, 46]. Paralelamente a esses trabalhos, não dependemos de módulos e algoritmos externos e aproveitamos diretamente a capacidade de aprendizagem em contexto dos LLMs para gerar raciocínios dedutivos mais precisos e rigorosos. Raciocínio com grandes modelos de linguagem.    Usar modelos de linguagem para avaliar gerações de modelos é uma ideia antiga [22, 36, 40, 4]. Como os LLMs exibem capacidades impressionantes em diversas tarefas, torna-se uma ideia natural usar os LLMs como ferramentas de avaliação e verificação. Por exemplo, [10, 11, 33] ajustam os LLMs para verificar soluções e etapas intermediárias. Os LLMs alinhados com RLHF [32, 31, 48] também foram empregados para comparar diferentes gerações de modelos. Além disso, trabalhos recentes como [43, 52, 28, 6] alavancam designs de prompt para permitir que os LLMs se autoverifiquem, se autorefinem e se autodepurem sem a necessidade de ajuste fino. No entanto, esses trabalhos não se concentram no rigor e na confiabilidade dos processos de raciocínio dedutivo em cada etapa do raciocínio. Neste trabalho, propomos um formato de raciocínio dedutivo baseado em linguagem natural que permite que os LLMs autoverifiquem cada etapa intermediária de um processo de raciocínio dedutivo, melhorando assim o rigor e a confiabilidade do raciocínio.  Grandes modelos de linguagem como verificadores.  Além disso, embora alguns trabalhos recentes [12, 53, 15, 34] tenham proposto métodos para verificar etapas individuais em um processo de raciocínio, nossa abordagem se distingue desses trabalhos nas seguintes perspectivas:   Nossa abordagem alavanca o aprendizado em contexto para obter a verificação do raciocínio, sem a necessidade de ajuste fino do modelo de linguagem.   Nossa abordagem de verificação LLM baseada em Programa Natural não apenas identifica etapas de raciocínio inválidas, mas também fornece explicações explícitas de por que elas são inválidas, detalhando os erros de raciocínio específicos envolvidos.   Nossa abordagem de raciocínio e verificação baseada em Programa Natural é compatível com tarefas de raciocínio abstrato em contexto, nas quais as etapas de raciocínio não possuem estruturas de implicação semelhantes a provas. Por exemplo, nossa abordagem é compatível com a tarefa Últimas Letras, na qual o LLM é instruído a gerar a concatenação das últimas letras de todas as palavras em uma sequência como a resposta final.   Nossa abordagem de Programa Natural permite o uso de conhecimento de senso comum não listado explicitamente nas premissas. Por exemplo, considere este problema: "Marin come 4 maçãs por dia. Quantas maçãs ele come em novembro?” Embora “Novembro tem 30 dias” não esteja explicitamente listado nas premissas, o Natural Program permite o uso de tal conhecimento comum dentro de uma etapa de raciocínio. Nosso processo de verificação em contexto também é capaz de lidar com essas premissas implícitas (por exemplo, se o LLM gerar “Novembro tem 29 dias” em uma etapa de raciocínio, ele será marcado como inválido). (1) (2) (3) (4)  Este artigo está   sob a licença CC BY 4.0 DEED. disponível no arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

cosmological.TECH

Read My Stories

From Big Bang's singularity to galaxies' cosmic dance the universe unfolds its majestic tapestry of space and time.

Cosmological's blog

Este áudio é produzido no idioma original da história!

Resolvendo o problema da alucinação da IA com programas naturais autoverificáveis

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Crescimento de Criptomoedas: Criando Personas de Usuários Eficazes

Modelo Bitcoin UTXO, alimentando um ecossistema único

Liberando o poder da IA. Uma revisão sistemática de técnicas de ponta: resumo e introdução

Como melhorar seu fluxo de trabalho em 10 vezes: 17 aplicativos essenciais

Crescimento de Criptomoedas: Criando Personas de Usuários Eficazes

Modelo Bitcoin UTXO, alimentando um ecossistema único

Liberando o poder da IA. Uma revisão sistemática de técnicas de ponta: resumo e introdução

Como melhorar seu fluxo de trabalho em 10 vezes: 17 aplicativos essenciais

Light-Mode

Classic

Newspaper

Dark-Mode

Neon Noir

Minty

HN StartUps