Autores:
(1) Rafael Rafailo, Universidad de Stanford y contribución igual; autores más jóvenes enumerados anteriormente;
(2) Archit Sharma, Universidad de Stanford y contribución igual; autores más jóvenes enumerados anteriormente;
(3) Eric Mitchel, Universidad de Stanford y contribución igual; autores más jóvenes enumerados anteriormente;
(4) Stefano Ermon, CZ Biohub;
(5) Christopher D. Manning, Universidad de Stanford;
(6) Chelsea Finn, Universidad de Stanford.
4 Optimización de preferencias directas
7 Discusión, agradecimientos y referencias
Derivaciones matemáticas
A.1 Derivación del óptimo del objetivo de maximización de recompensa restringido por KL
A.2 Derivación del objetivo de la OPD según el modelo Bradley-Terry
A.3 Derivación del objetivo de la OPD según el modelo de Plackett-Luce
A.4 Derivación del gradiente del objetivo DPO y A.5 Prueba del lema 1 y 2
A.6 Demostración del teorema 1
Detalles de implementación y hiperparámetros de B DPO
C.2 Indicaciones de GPT-4 para calcular las tasas de éxito de los diálogos y los resúmenes
C.3 Línea base de improbabilidad
D Resultados empíricos adicionales
D.1 Rendimiento de la línea base Best of N para varias N y D.2 Respuestas de muestra y juicios GPT-4
D.3 Detalles del estudio en humanos
Los modelos de lenguaje autosupervisados de escala creciente aprenden a completar algunas tareas sin intervención [31] o con pocas indicaciones [6, 25, 11]. Sin embargo, su desempeño en tareas posteriores y su alineación con la intención del usuario se pueden mejorar significativamente mediante el ajuste fino de conjuntos de datos de instrucciones y compleciones escritas por humanos [23, 36, 13, 39]. Este procedimiento de "ajuste de instrucciones" permite que los modelos de lenguaje autosupervisados se generalicen a instrucciones fuera del conjunto de ajuste de instrucciones y, en general, aumentan su usabilidad [13]. A pesar del éxito del ajuste de instrucciones, los juicios humanos relativos de la calidad de la respuesta suelen ser más fáciles de recopilar que las demostraciones de expertos y, por lo tanto, trabajos posteriores han ajustado los modelos de lenguaje autosupervisados con conjuntos de datos de preferencias humanas, mejorando la competencia en traducción [18], resumen [38, 49], narración de historias [49] y seguimiento de instrucciones [26, 32]. Estos métodos primero optimizan una función de recompensa de red neuronal para compatibilidad con el conjunto de datos de preferencias bajo un modelo de preferencia como el modelo Bradley-Terry [5], luego afinan un modelo de lenguaje para maximizar la recompensa dada usando algoritmos de aprendizaje de refuerzo, comúnmente REINFORCE [45], optimización de política proximal (PPO; [37]), o variantes [32]. Una línea de trabajo estrechamente relacionada aprovecha los LLM afinados para seguir instrucciones con retroalimentación humana para generar datos de preferencia sintéticos adicionales para atributos específicos como seguridad o inocuidad [2], usando solo una débil supervisión de humanos en forma de una rúbrica de texto para las anotaciones del LLM. Estos métodos representan una convergencia de dos cuerpos de trabajo: un cuerpo de trabajo sobre entrenamiento de modelos de lenguaje con aprendizaje de refuerzo para una variedad de objetivos [33, 27, 46] y otro cuerpo de trabajo sobre métodos generales para aprender de las preferencias humanas [12, 19]. A pesar del atractivo de usar preferencias humanas relativas, afinar modelos de lenguaje grandes con aprendizaje de refuerzo sigue siendo un gran desafío práctico; Este trabajo proporciona un enfoque teóricamente justificado para optimizar las preferencias relativas sin RL.
Fuera del contexto del lenguaje, el aprendizaje de políticas a partir de preferencias se ha estudiado tanto en entornos de aprendizaje de bandidos como de aprendizaje de refuerzo, y se han propuesto varios enfoques. El aprendizaje de bandidos contextuales que utiliza preferencias o clasificaciones de acciones, en lugar de recompensas, se conoce como bandido de duelo contextual (CDB; [48, 14]). En ausencia de recompensas absolutas, el análisis teórico de los CDB sustituye la noción de una política óptima con un ganador de von Neumann, una política cuya tasa de victoria esperada contra cualquier otra política es de al menos el 50% [14]. Sin embargo, en el entorno CDB, las etiquetas de preferencia se dan en línea, mientras que en el aprendizaje a partir de las preferencias humanas, generalmente aprendemos de un lote fijo de pares de acciones anotadas con preferencias fuera de línea [47]. De manera similar, el RL basado en preferencias (PbRL) aprende de las preferencias binarias generadas por una función de "puntuación" desconocida en lugar de recompensas [9, 35]. Existen varios algoritmos para PbRL, incluidos métodos que pueden reutilizar datos de preferencias fuera de política, pero generalmente implican primero estimar explícitamente la función de puntuación latente (es decir, el modelo de recompensa) y luego optimizarla [16, 9, 12, 34, 19]. En cambio, presentamos un enfoque de aprendizaje de políticas de una sola etapa que optimiza directamente una política para satisfacer las preferencias.
Este artículo está disponible en arxiv bajo la licencia CC BY-NC-ND 4.0 DEED.