La optimización de preferencias directas (DPO) es una novedosa técnica de ajuste que se ha vuelto popular debido a su simplicidad y facilidad de implementación. Ha surgido como una alternativa directa al (RLHF) para el ajuste fino del modelo de lenguaje grande (LLM) para alinearse con las preferencias humanas atribuibles a su estabilidad, rendimiento y naturaleza computacional liviana, eliminando la necesidad de muestreo del LM durante el ajuste fino. DPO puede alcanzar niveles de rendimiento iguales o mejores que los métodos existentes. aprendizaje reforzado a partir de la retroalimentación humana A diferencia de los métodos existentes que implican aprovechar RLHF, DPO reformula el proceso de alineación del lenguaje como una función de pérdida simple que se puede optimizar directamente utilizando un conjunto de datos de preferencias {(x,yw,yl)}, donde: • x es un mensaje • yw es el método preferido • yl es un método rechazado A diferencia de RLHF, que requiere que las respuestas se muestreen de un modelo de lenguaje durante el proceso de optimización, en DPO, no es necesario muestrear las respuestas del LM que se está optimizando. ¿Cómo funciona el DPO? El proceso de trabajo del DPO se puede dividir en dos pasos. en este paso, el modelo se ajusta con los datos relevantes. Ajuste fino supervisado (SFT): el modelo se ajusta a partir de datos de preferencias, idealmente obtenidos de la misma distribución que los ejemplos de SFT. Aprendizaje de preferencias: A diferencia de RLHF, en el que primero se entrena un modelo de recompensa para la optimización de políticas, DPO agrega directamente información de preferencias al proceso de optimización sin el paso intermedio de entrenar un modelo de recompensa. DPO utiliza LLM como modelo de recompensa y emplea un objetivo de entropía cruzada binaria para optimizar la política, aprovechando los datos de preferencias humanas para identificar qué respuestas son preferidas y cuáles no. La política se ajusta en función de las respuestas preferidas para mejorar su desempeño. Ajuste supervisado Le ayudamos a desarrollar aplicaciones de IA generativa para LLM para que sean versátiles y adaptables a casos de uso específicos. Esto implica proporcionar datos o ejemplos al modelo para aprender y adaptarse, por lo que ofrecemos soluciones de ingeniería rápidas para el diseño, pruebas, implementación y entrega de indicaciones. Cogito. En el ajuste fino supervisado (SFT), que proporcionan un mapeo claro entre entradas específicas y salidas deseadas. El ajuste fino supervisado, especialmente con el aprendizaje de preferencias, se emplea para dar forma o ajustar los resultados del modelo para que coincidan con los criterios definidos por los humanos, asegurando que se alineen estrechamente con requisitos específicos. LLM se capacita en conjuntos de datos etiquetados Datos de preferencia en PNL Los datos de preferencia se refieren a un conjunto cuidadosamente elegido de opciones o alternativas relacionadas con un mensaje específico. Los anotadores evalúan estas opciones de acuerdo con ciertas pautas. El proceso general tiene como objetivo clasificar estas opciones desde la más preferida hasta la menos preferida según las preferencias humanas. Luego, la clasificación se utiliza para ajustar los modelos y generar resultados acordes con las expectativas humanas. Cómo crear datos de preferencias Selección rápida El mensaje es la piedra angular de los datos de preferencias. Hay varias formas de seleccionar mensajes: algunos eligen un conjunto predefinido, mientras que otros usan plantillas para generar mensajes dinámicamente u optan por una combinación de mensajes predefinidos con mensajes aleatorios tomados de la base de datos. Selección de respuesta El siguiente paso es determinar el resultado en respuesta al mensaje. Estas respuestas pueden generarse a partir de una versión bien entrenada de un modelo o de varios puntos de control en el desarrollo del modelo. No todas las respuestas generadas son iguales, la clasificación de las respuestas puede variar. En el sistema de clasificación binaria, cada respuesta se clasifica simplemente como "mejor" o "peor", mientras que un sistema de clasificación granular asigna una puntuación (por ejemplo, 1 a 5) a cada respuesta, lo que permite una evaluación más detallada y matizada. Directrices de anotación Las pautas de anotación son esenciales para garantizar que los sistemas de clasificación estén estandarizados para minimizar los sesgos e interpretaciones individuales. Beneficios del DPO DPO tiene muchas ventajas sobre RLHF como las siguientes: Simplicidad y facilidad de implementación A diferencia del proceso de múltiples capas de recopilar comentarios detallados, optimizar políticas complejas y capacitar modelos de recompensa, DPO integra directamente las preferencias humanas en el ciclo de capacitación. Este enfoque no solo elimina la complejidad asociada con el proceso, sino que también se alinea mejor con los sistemas estándar de capacitación previa y ajuste. Además, DPO no implica navegar por las complejidades de construir y ajustar funciones de recompensa. RLHF que implica No hay necesidad de capacitación sobre el modelo de recompensa DPO elimina la necesidad de entrenar un modelo de recompensa adicional, lo que ahorra recursos computacionales y elimina los desafíos asociados con la precisión y el mantenimiento del modelo de recompensa. Desarrollar un modelo de recompensa eficiente que interprete la retroalimentación humana en señales procesables para la IA es una tarea compleja. Requiere un esfuerzo sustancial y necesita actualizaciones periódicas para reflejar con precisión la evolución de las preferencias humanas. DPO omite este paso por completo al aprovechar directamente los datos de preferencias para mejorar el modelo. Rendimiento superior DPO puede ser tan bueno o incluso mejor que otros métodos, como RLHF (Aprendizaje reforzado a partir de retroalimentación humana) y PPO (Optimización de políticas próximas), para mejorar el rendimiento de modelos de lenguaje grandes, según una investigación titulada . Optimización de preferencias directas: su modelo de lenguaje es Secretamente un modelo de recompensa Conclusión La optimización directa del rendimiento es una técnica de ajuste estable y eficiente que no requiere recursos computacionales excesivos. A diferencia de RLHF, DPO no necesita un modelo de recompensa complejo ni muestras del modelo de lenguaje durante el ajuste. No es solo un nuevo algoritmo, sino un punto de inflexión en el ajuste, simplificación y mejora del modelo de IA, el proceso de creación de modelos de lenguaje que comprendan y satisfagan mejor las necesidades humanas.