370 lecturas

El techo de alineación: desajuste objetivo en el aprendizaje por refuerzo a partir de la retroalimentación humana

por The FeedbackLoop: #1 in PM Education4m2024/01/16

Demasiado Largo; Para Leer

Descubra los desafíos de la falta de coincidencia de objetivos en RLHF para modelos de lenguaje grandes, lo que afecta la alineación entre los modelos de recompensa y el rendimiento posterior. Este artículo explora los orígenes, las manifestaciones y las posibles soluciones para abordar este problema, conectando conocimientos de la literatura de PNL y RL. Obtenga información sobre cómo fomentar mejores prácticas de RLHF para lograr modelos de lenguaje más eficaces y alineados con el usuario.

featured image - El techo de alineación: desajuste objetivo en el aprendizaje por refuerzo a partir de la retroalimentación humana

Autores:

(1) Nathan Lambert, Instituto Allen de IA;

(2) Roberto Calandra, TU Dresde.

Tabla de enlaces

Resumen e introducción

Trabajo relacionado

Fondo

Comprender la discrepancia entre objetivos

Discusiones

Conclusión

Agradecimientos y referencias

ABSTRACTO

El aprendizaje reforzado a partir de la retroalimentación humana (RLHF) ha surgido como una técnica poderosa para hacer que los modelos de lenguaje grandes (LLM) sean más fáciles de estimular y más capaces en entornos complejos. En esencia, RLHF proporciona un nuevo conjunto de herramientas para optimizar los LLM distintos de la predicción del siguiente token, lo que permite la integración de objetivos de capacitación cualitativos. El intento de hacer coincidir las preferencias del usuario y el rendimiento posterior, que ocurre en un modelo de recompensa aprendido, da como resultado un panorama de optimización donde las métricas de capacitación y evaluación pueden aparecer correlacionadas. La aparente correlación puede conducir a comportamientos inesperados e historias de "demasiado RLHF". En RLHF, surgen desafíos porque los siguientes submódulos no son consistentes entre sí: la capacitación del modelo de recompensa, la capacitación del modelo de políticas y la evaluación del modelo de políticas. Esta falta de coincidencia da como resultado modelos que a veces evitan las solicitudes de los usuarios mediante falsas señales de seguridad, son difíciles de orientar hacia una característica deseada o siempre responden con un estilo específico. A medida que la evaluación del modelo de chat se vuelve cada vez más matizada, la dependencia de un vínculo percibido entre la puntuación del modelo de recompensa y el rendimiento posterior impulsa el problema de la falta de coincidencia objetiva. En este artículo, ilustramos la causa de este problema, revisamos la literatura relevante sobre el aprendizaje por refuerzo basado en modelos y discutimos soluciones relevantes para fomentar más investigaciones. Al resolver la discrepancia de objetivos en RLHF, los LLM del futuro estarán alineados con mayor precisión con las instrucciones del usuario tanto para seguridad como para utilidad.

1. Introducción

El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es una herramienta poderosa para integrar estilos y valores cualitativos en grandes modelos de aprendizaje automático (Bai et al., 2022; Christiano et al., 2017; Ouyang et al., 2022). RLHF se popularizó gracias a su uso para integrar valores humanos en grandes modelos de lenguaje (LLM) para alinear herramientas de chat (Schulman, Zoph, Kim y más, 2022). Al hacerlo, RLHF se ha convertido en una técnica importante en el proceso de hacer que los modelos respondan mejor a las solicitudes de los usuarios, a menudo denominados modelos de chat, de direccionabilidad, etc. Para entrenar un modelo de lenguaje base, primero aprenden un modelo de preferencias humanas que actúa como una función de recompensa y, segundo, usan este modelo dentro de un ciclo de optimización del aprendizaje por refuerzo (RL). En el proceso RLHF, estos dos pasos a menudo se ejecutan de forma independiente, entrenándose un modelo de recompensa preciso con datos de preferencias humanas y luego se utiliza el optimizador RL para extraer la máxima información en el modelo de chat. Un desafío común de los LLM modernos formados con RLHF son las dificultades para extraer los comportamientos previstos del modelo. A veces, los modelos rechazan solicitudes benignas por razones de seguridad y otras veces necesitan un ajuste rápido e inteligente para extraer el máximo rendimiento.

En este artículo, detallamos un desafío fundamental en los esquemas de aprendizaje RLHF modernos: la cuestión del desajuste objetivo. En RLHF, tres partes importantes del entrenamiento están numéricamente desacopladas: el diseño de métricas de evaluación, el entrenamiento de un modelo de recompensa y el entrenamiento del modelo generador. Esta discrepancia entre el modelo de recompensa y el entrenamiento RL se visualiza en la Fig. 1, aunque existen otros vínculos entre los objetivos de la evaluación y la simulación de valores humanos. Específicamente, existen muchas vías para alinear mejor el entrenamiento del modelo de recompensa con la literatura sobre la cuantificación de preferencias (Lambert, Gilbert y Zick, 2023) y es necesario resolver desafíos fundamentales de optimización en las prácticas RLHF (Casper et al., 2023). ChatGPT, el modelo más popular entrenado con RLHF, muestra signos de esta limitación a través de problemas como verbosidad, dudas y rechazo de preguntas, frases repetidas, cobertura y más (Schulman, 2023). Estos rasgos de sobreoptimización son resultados del sutil problema del objetivo proxy que la falta de coincidencia de objetivos proporciona un marco para estudiar y resolver: el modelo de recompensa atribuye un valor excesivo a frases que no contribuyen al beneficio del usuario, que el optimizador de RL explota, como las banderas de seguridad. Por otro lado, las configuraciones de entrenamiento actuales no están completamente alineadas con las herramientas de evaluación porque los modelos RLHF todavía necesitan técnicas de estímulo sofisticadas como "pensar paso a paso" (J. Wei et al., 2022) o "respirar profundamente". ”(Yang et al., 2023) para alcanzar el máximo rendimiento. Resolver la falta de coincidencia de objetivos eliminará la necesidad de estas técnicas avanzadas y reducirá la probabilidad de rechazos fuera del alcance de un LLM.

La frase desajuste objetivo se origina en el aprendizaje por refuerzo basado en modelos (MBRL), donde un agente aprende iterativamente un modelo dinámico que luego utiliza para resolver una tarea de control (Lambert, Amos, Yadan y Calandra, 2020; R. Wei, Lambert, McDonald, García y Calandra, 2023). En este contexto, la discrepancia se produce entre aprender un modelo dinámico preciso en lugar de uno optimizado para una alta recompensa por la tarea. En RLHF, el problema está relacionado, pero con mayor complejidad, ya que el modelo de recompensa está optimizado para datos de preferencia en lugar de una distribución cerrada, que no coincide con los usuarios finales. En segundo lugar, la tarea de generación de lenguaje abierto es menos específica de una noción de recompensa que la de las políticas de control de RL. Por estas razones, como exploramos en este artículo, la cuestión del desajuste objetivo tiene más matices y es más crítica para el RLHF.

En este documento de posición, hacemos tres contribuciones:

• Explicar claramente los orígenes y las posibles manifestaciones de la falta de coincidencia objetiva en los LLM sintonizados por chat.

• Conectar trabajos relacionados de la literatura de PNL y RL en torno a la falta de coincidencia de objetivos,

• Proponer líneas de estudio para solucionar el desajuste y fomentar mejores prácticas de RLHF.