Autores:  (1) Zhan Ling, UC San Diego y contribución igual;  (2) Yunhao Fang, UC San Diego y contribución igual;  (3) Xuanlin Li, Universidad de California en San Diego;  (4) Zhiao Huang, Universidad de California en San Diego;  (5) Mingu Lee, Investigación de IA de Qualcomm y Investigación de IA de Qualcomm  (6) Roland Memisevic, Investigación en IA de Qualcomm;  (7) Hao Su, Universidad de California en San Diego.  Tabla de enlaces   Resumen e introducción   Trabajo relacionado   Motivación y formulación de problemas   Razonamiento en cadena de pensamiento verificable deductivamente   Experimentos   Limitaciones   Conclusión, agradecimientos y referencias   Una verificación deductiva con modelos de vicuña   B Más discusión sobre las mejoras en la precisión de la verificación deductiva frente a las mejoras en la exactitud de la respuesta final   C Más detalles sobre la extracción de respuestas   Indicaciones D   E Más ejemplos de verificación deductiva  2 Trabajos relacionados    Los modelos de lenguaje grandes (LLM) recientes [3, 8, 57, 47, 38, 18, 9, 37] han demostrado una capacidad increíble para resolver tareas de razonamiento complejas. En lugar de dejar que los LLM generen directamente respuestas finales como salida, trabajos anteriores han demostrado que al alentar el razonamiento paso a paso a través de indicaciones adecuadas, como la indicación de cadena de pensamiento (CoT) [50] y muchas otras [21, 59, 58, 44, 48, 60, 25, 54], los LLM muestran un rendimiento significativamente mejor en diversas tareas de razonamiento. Para mejorar aún más el proceso de razonamiento paso a paso, algunos estudios recientes han investigado el aprovechamiento de solucionadores externos como intérpretes de programas [39, 5, 27], el entrenamiento y la llamada de módulos de razonamiento externos [11], o la realización de una búsqueda explícita para generar pasos deductivos [2, 46]. Paralelamente a estos trabajos, no dependemos de módulos y algoritmos externos, y aprovechamos directamente la capacidad de aprendizaje en contexto de los LLM para generar razonamientos deductivos más precisos y rigurosos. Razonamiento con modelos de lenguaje grandes.    El uso de modelos de lenguaje para evaluar generaciones de modelos ha sido una idea de larga data [22, 36, 40, 4]. Como los LLM exhiben capacidades impresionantes en diversas tareas, se vuelve una idea natural usar LLM como herramientas de evaluación y verificación. Por ejemplo, [10, 11, 33] afinan los LLM para verificar soluciones y pasos intermedios. Los LLM alineados con RLHF [32, 31, 48] también se han empleado para comparar diferentes generaciones de modelos. Además, trabajos recientes como [43, 52, 28, 6] aprovechan diseños rápidos para permitir que los LLM se autoverifiquen, autorefinen y autodepuren sin la necesidad de un ajuste fino. Sin embargo, estos trabajos no se centran en el rigor y la confiabilidad de los procesos de razonamiento deductivo en cada paso del razonamiento. En este trabajo, proponemos un formato de razonamiento deductivo basado en lenguaje natural que permite a los LLM autoverificar cada paso intermedio de un proceso de razonamiento deductivo, mejorando así el rigor y la confiabilidad del razonamiento.  Modelos de lenguaje grandes como verificadores.  Además, mientras que algunos trabajos recientes [12, 53, 15, 34] han propuesto métodos para verificar pasos individuales en un proceso de razonamiento, nuestro enfoque se distingue de estos trabajos en las siguientes perspectivas:   Nuestro enfoque aprovecha el aprendizaje en contexto para lograr la verificación del razonamiento, sin la necesidad de un ajuste fino del modelo de lenguaje.   Nuestro enfoque de verificación LLM basado en el Programa Natural no solo identifica pasos de razonamiento inválidos, sino que también proporciona explicaciones explícitas de por qué son inválidos, detallando los errores de razonamiento específicos involucrados.   Nuestro enfoque de razonamiento y verificación basado en el Programa Natural es compatible con tareas de razonamiento abstracto en contexto donde los pasos de razonamiento no poseen estructuras de implicación similares a pruebas. Por ejemplo, nuestro enfoque es compatible con la tarea de Últimas Letras, donde se instruye al LLM para que muestre la concatenación de las últimas letras de todas las palabras en una secuencia como la respuesta final.   Nuestro enfoque del Programa Natural permite el uso de conocimiento de sentido común que no se enumera explícitamente en las premisas. Por ejemplo, considere este problema: "Marin come 4 manzanas al día. ¿Cuántas manzanas come en noviembre?” Aunque “noviembre tiene 30 días” no se menciona explícitamente en las premisas, Natural Program permite el uso de ese conocimiento común dentro de un paso de razonamiento. Nuestro proceso de verificación en contexto también es capaz de manejar estas premisas implícitas (por ejemplo, si LLM genera “noviembre tiene 29 días” en un paso de razonamiento, se marcará como inválido). (1) (2) (3) (4)  Este artículo está   bajo la licencia CC BY 4.0 DEED. disponible en arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

cosmological.TECH

Read My Stories

From Big Bang's singularity to galaxies' cosmic dance the universe unfolds its majestic tapestry of space and time.

Cosmological's blog

Este audio es producido en el idioma original de la historia!

Solución al problema de las alucinaciones en la IA con programas naturales autoverificables

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

El modelo Bitcoin UTXO, impulsando un ecosistema único

La guía completa para una migración exitosa a la nube: estrategias y mejores prácticas

Una breve introducción a la teoría del cerebro de Boltzmann

Nómadas digitales escuchen: lo que necesitan saber sobre la nueva visa DTV de Tailandia

El modelo Bitcoin UTXO, impulsando un ecosistema único

La guía completa para una migración exitosa a la nube: estrategias y mejores prácticas

Una breve introducción a la teoría del cerebro de Boltzmann

Nómadas digitales escuchen: lo que necesitan saber sobre la nueva visa DTV de Tailandia

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps