paint-brush
Solución al problema de las alucinaciones en la IA con programas naturales autoverificablespor@cosmological
Nueva Historia

Solución al problema de las alucinaciones en la IA con programas naturales autoverificables

Demasiado Largo; Para Leer

Natural Program mejora la confiabilidad de los LLM al verificar cada paso del proceso de razonamiento. A diferencia de otros métodos, aprovecha el aprendizaje en contexto, ofrece explicaciones rigurosas de los errores y es compatible con tareas de razonamiento abstracto. Esto mejora la capacidad de la IA para autoverificar y refinar el razonamiento sin necesidad de solucionadores externos ni ajustes.
featured image - Solución al problema de las alucinaciones en la IA con programas naturales autoverificables
Cosmological thinking: time, space and universal causation  HackerNoon profile picture
0-item

Autores:

(1) Zhan Ling, UC San Diego y contribución igual;

(2) Yunhao Fang, UC San Diego y contribución igual;

(3) Xuanlin Li, Universidad de California en San Diego;

(4) Zhiao Huang, Universidad de California en San Diego;

(5) Mingu Lee, Investigación de IA de Qualcomm y Investigación de IA de Qualcomm

(6) Roland Memisevic, Investigación en IA de Qualcomm;

(7) Hao Su, Universidad de California en San Diego.

Tabla de enlaces

Resumen e introducción

Trabajo relacionado

Motivación y formulación de problemas

Razonamiento en cadena de pensamiento verificable deductivamente

Experimentos

Limitaciones

Conclusión, agradecimientos y referencias


Una verificación deductiva con modelos de vicuña

B Más discusión sobre las mejoras en la precisión de la verificación deductiva frente a las mejoras en la exactitud de la respuesta final

C Más detalles sobre la extracción de respuestas

Indicaciones D

E Más ejemplos de verificación deductiva

2 Trabajos relacionados

Razonamiento con modelos de lenguaje grandes. Los modelos de lenguaje grandes (LLM) recientes [3, 8, 57, 47, 38, 18, 9, 37] han demostrado una capacidad increíble para resolver tareas de razonamiento complejas. En lugar de dejar que los LLM generen directamente respuestas finales como salida, trabajos anteriores han demostrado que al alentar el razonamiento paso a paso a través de indicaciones adecuadas, como la indicación de cadena de pensamiento (CoT) [50] y muchas otras [21, 59, 58, 44, 48, 60, 25, 54], los LLM muestran un rendimiento significativamente mejor en diversas tareas de razonamiento. Para mejorar aún más el proceso de razonamiento paso a paso, algunos estudios recientes han investigado el aprovechamiento de solucionadores externos como intérpretes de programas [39, 5, 27], el entrenamiento y la llamada de módulos de razonamiento externos [11], o la realización de una búsqueda explícita para generar pasos deductivos [2, 46]. Paralelamente a estos trabajos, no dependemos de módulos y algoritmos externos, y aprovechamos directamente la capacidad de aprendizaje en contexto de los LLM para generar razonamientos deductivos más precisos y rigurosos.


Modelos de lenguaje grandes como verificadores. El uso de modelos de lenguaje para evaluar generaciones de modelos ha sido una idea de larga data [22, 36, 40, 4]. Como los LLM exhiben capacidades impresionantes en diversas tareas, se vuelve una idea natural usar LLM como herramientas de evaluación y verificación. Por ejemplo, [10, 11, 33] afinan los LLM para verificar soluciones y pasos intermedios. Los LLM alineados con RLHF [32, 31, 48] también se han empleado para comparar diferentes generaciones de modelos. Además, trabajos recientes como [43, 52, 28, 6] aprovechan diseños rápidos para permitir que los LLM se autoverifiquen, autorefinen y autodepuren sin la necesidad de un ajuste fino. Sin embargo, estos trabajos no se centran en el rigor y la confiabilidad de los procesos de razonamiento deductivo en cada paso del razonamiento. En este trabajo, proponemos un formato de razonamiento deductivo basado en lenguaje natural que permite a los LLM autoverificar cada paso intermedio de un proceso de razonamiento deductivo, mejorando así el rigor y la confiabilidad del razonamiento.


Tabla 1: Una pregunta de ejemplo de GSM8K con una ruta de razonamiento CoT generada con GPT3.5 (turbo), donde la salida proporciona una cadena de razonamiento incorrecta con la respuesta correcta.


Además, mientras que algunos trabajos recientes [12, 53, 15, 34] han propuesto métodos para verificar pasos individuales en un proceso de razonamiento, nuestro enfoque se distingue de estos trabajos en las siguientes perspectivas: (1) Nuestro enfoque aprovecha el aprendizaje en contexto para lograr la verificación del razonamiento, sin la necesidad de un ajuste fino del modelo de lenguaje. (2) Nuestro enfoque de verificación LLM basado en el Programa Natural no solo identifica pasos de razonamiento inválidos, sino que también proporciona explicaciones explícitas de por qué son inválidos, detallando los errores de razonamiento específicos involucrados. (3) Nuestro enfoque de razonamiento y verificación basado en el Programa Natural es compatible con tareas de razonamiento abstracto en contexto donde los pasos de razonamiento no poseen estructuras de implicación similares a pruebas. Por ejemplo, nuestro enfoque es compatible con la tarea de Últimas Letras, donde se instruye al LLM para que muestre la concatenación de las últimas letras de todas las palabras en una secuencia como la respuesta final. (4) Nuestro enfoque del Programa Natural permite el uso de conocimiento de sentido común que no se enumera explícitamente en las premisas. Por ejemplo, considere este problema: "Marin come 4 manzanas al día. ¿Cuántas manzanas come en noviembre?” Aunque “noviembre tiene 30 días” no se menciona explícitamente en las premisas, Natural Program permite el uso de ese conocimiento común dentro de un paso de razonamiento. Nuestro proceso de verificación en contexto también es capaz de manejar estas premisas implícitas (por ejemplo, si LLM genera “noviembre tiene 29 días” en un paso de razonamiento, se marcará como inválido).


Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.