Autores:
(1) Zhan Ling, UC San Diego y contribución igual;
(2) Yunhao Fang, UC San Diego y contribución igual;
(3) Xuanlin Li, Universidad de California en San Diego;
(4) Zhiao Huang, Universidad de California en San Diego;
(5) Mingu Lee, Investigación de IA de Qualcomm y Investigación de IA de Qualcomm
(6) Roland Memisevic, Investigación en IA de Qualcomm;
(7) Hao Su, Universidad de California en San Diego.
Motivación y formulación de problemas
Razonamiento en cadena de pensamiento verificable deductivamente
Conclusión, agradecimientos y referencias
Una verificación deductiva con modelos de vicuña
C Más detalles sobre la extracción de respuestas
E Más ejemplos de verificación deductiva
Razonamiento con modelos de lenguaje grandes. Los modelos de lenguaje grandes (LLM) recientes [3, 8, 57, 47, 38, 18, 9, 37] han demostrado una capacidad increíble para resolver tareas de razonamiento complejas. En lugar de dejar que los LLM generen directamente respuestas finales como salida, trabajos anteriores han demostrado que al alentar el razonamiento paso a paso a través de indicaciones adecuadas, como la indicación de cadena de pensamiento (CoT) [50] y muchas otras [21, 59, 58, 44, 48, 60, 25, 54], los LLM muestran un rendimiento significativamente mejor en diversas tareas de razonamiento. Para mejorar aún más el proceso de razonamiento paso a paso, algunos estudios recientes han investigado el aprovechamiento de solucionadores externos como intérpretes de programas [39, 5, 27], el entrenamiento y la llamada de módulos de razonamiento externos [11], o la realización de una búsqueda explícita para generar pasos deductivos [2, 46]. Paralelamente a estos trabajos, no dependemos de módulos y algoritmos externos, y aprovechamos directamente la capacidad de aprendizaje en contexto de los LLM para generar razonamientos deductivos más precisos y rigurosos.
Modelos de lenguaje grandes como verificadores. El uso de modelos de lenguaje para evaluar generaciones de modelos ha sido una idea de larga data [22, 36, 40, 4]. Como los LLM exhiben capacidades impresionantes en diversas tareas, se vuelve una idea natural usar LLM como herramientas de evaluación y verificación. Por ejemplo, [10, 11, 33] afinan los LLM para verificar soluciones y pasos intermedios. Los LLM alineados con RLHF [32, 31, 48] también se han empleado para comparar diferentes generaciones de modelos. Además, trabajos recientes como [43, 52, 28, 6] aprovechan diseños rápidos para permitir que los LLM se autoverifiquen, autorefinen y autodepuren sin la necesidad de un ajuste fino. Sin embargo, estos trabajos no se centran en el rigor y la confiabilidad de los procesos de razonamiento deductivo en cada paso del razonamiento. En este trabajo, proponemos un formato de razonamiento deductivo basado en lenguaje natural que permite a los LLM autoverificar cada paso intermedio de un proceso de razonamiento deductivo, mejorando así el rigor y la confiabilidad del razonamiento.
Además, mientras que algunos trabajos recientes [12, 53, 15, 34] han propuesto métodos para verificar pasos individuales en un proceso de razonamiento, nuestro enfoque se distingue de estos trabajos en las siguientes perspectivas: (1) Nuestro enfoque aprovecha el aprendizaje en contexto para lograr la verificación del razonamiento, sin la necesidad de un ajuste fino del modelo de lenguaje. (2) Nuestro enfoque de verificación LLM basado en el Programa Natural no solo identifica pasos de razonamiento inválidos, sino que también proporciona explicaciones explícitas de por qué son inválidos, detallando los errores de razonamiento específicos involucrados. (3) Nuestro enfoque de razonamiento y verificación basado en el Programa Natural es compatible con tareas de razonamiento abstracto en contexto donde los pasos de razonamiento no poseen estructuras de implicación similares a pruebas. Por ejemplo, nuestro enfoque es compatible con la tarea de Últimas Letras, donde se instruye al LLM para que muestre la concatenación de las últimas letras de todas las palabras en una secuencia como la respuesta final. (4) Nuestro enfoque del Programa Natural permite el uso de conocimiento de sentido común que no se enumera explícitamente en las premisas. Por ejemplo, considere este problema: "Marin come 4 manzanas al día. ¿Cuántas manzanas come en noviembre?” Aunque “noviembre tiene 30 días” no se menciona explícitamente en las premisas, Natural Program permite el uso de ese conocimiento común dentro de un paso de razonamiento. Nuestro proceso de verificación en contexto también es capaz de manejar estas premisas implícitas (por ejemplo, si LLM genera “noviembre tiene 29 días” en un paso de razonamiento, se marcará como inválido).
Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.