Оптимизация прямых предпочтений (DPO) — это новый метод тонкой настройки, ставший популярным благодаря своей простоте и легкости реализации. Он стал прямой альтернативой (RLHF) для точной настройки модели большого языка (LLM) в соответствии с предпочтениями человека, что связано с ее стабильностью, производительностью и вычислительной легкостью, устраняющей необходимость выборки из LM во время тонкой настройки. DPO может достичь уровня производительности, который не уступает существующим методам или даже превосходит их. обучению с подкреплением на основе обратной связи человека В отличие от существующих методов, в которых используется RLHF, DPO переосмысливает процесс выравнивания языка как простую функцию потерь, которую можно напрямую оптимизировать с использованием набора данных предпочтений {(x,yw,yl)}, где: • x — подсказка • yw — предпочтительный метод • yl — отклоненный метод В отличие от RLHF, который требует выборки ответов из языковой модели во время процесса оптимизации, в DPO ответы не нужно выбирать из оптимизируемого LM. Как работает ДПО? Рабочий процесс ДПО можно разделить на два этапа. на этом этапе модель настраивается на основе соответствующих данных. Контролируемая точная настройка (SFT): модель точно настроена на данных о предпочтениях, которые в идеале получены из того же дистрибутива, что и примеры SFT. Изучение предпочтений: В отличие от RLHF, в котором модель вознаграждения сначала обучается для оптимизации политики, DPO напрямую добавляет информацию о предпочтениях в процесс оптимизации без промежуточного этапа обучения модели вознаграждения. DPO использует LLM в качестве модели вознаграждения и использует двоичную перекрестную энтропию для оптимизации политики, используя данные о предпочтениях людей для определения того, какие ответы являются предпочтительными, а какие нет. Политика корректируется на основе предпочтительных мер реагирования для повышения ее эффективности. Контролируемая точная настройка Мы помогаем вам в разработке приложений генеративного искусственного интеллекта для LLM, чтобы они были универсальными и адаптируемыми к конкретным сценариям использования. Это предполагает предоставление модели данных или примеров для обучения и адаптации, поэтому мы предлагаем оперативные инженерные решения для проектирования, тестирования, развертывания и доставки подсказок. Когито. При контролируемой точной настройке (SFT) , которые обеспечивают четкое сопоставление между конкретными входными данными и желаемыми выходными данными. Контролируемая точная настройка, особенно при обучении предпочтениям, используется для формирования или корректировки результатов модели в соответствии с критериями, определенными людьми, гарантируя, что они точно соответствуют конкретным требованиям. LLM обучается на помеченных наборах данных Данные о предпочтениях в НЛП Данные о предпочтениях относятся к тщательно выбранному набору вариантов или альтернатив, касающихся конкретного запроса. Аннотаторы оценивают эти варианты в соответствии с определенными рекомендациями. Общий процесс направлен на ранжирование этих вариантов от наиболее до наименее предпочтительных на основе предпочтений человека. Затем рейтинг используется для точной настройки моделей для получения результатов, соответствующих человеческим ожиданиям. Как создать данные о предпочтениях Быстрый выбор Подсказка является краеугольным камнем данных о предпочтениях. Существует несколько способов выбора подсказок: некоторые выбирают предопределенный набор, другие используют шаблоны для динамического создания подсказок или выбирают комбинацию предопределенных подсказок со случайными подсказками, взятыми из базы данных. Выбор ответа Следующим шагом является определение вывода в ответ на запрос. Эти ответы могут быть получены на основе хорошо обученной версии модели или различных контрольных точек при разработке модели. Не все сгенерированные ответы одинаковы, ранжирование ответов может различаться. В бинарной системе ранжирования каждый ответ просто классифицируется как «лучший» или «худший», тогда как в системе детального ранжирования каждому ответу присваивается балл (например, 1–5), что позволяет провести более детальную и детальную оценку. Рекомендации по аннотациям Рекомендации по аннотациям необходимы для обеспечения стандартизации систем ранжирования и минимизации индивидуальных предубеждений и интерпретаций. Преимущества ДПО DPO имеет множество преимуществ перед RLHF: Простота и легкость реализации В отличие от многоуровневого процесса сбор подробной обратной связи, оптимизацию сложной политики и обучение модели вознаграждения, DPO напрямую интегрирует человеческие предпочтения в цикл обучения. Такой подход не только устраняет сложность, связанную с процессом, но и лучше согласуется со стандартными системами предварительного обучения и тонкой настройки. Более того, DPO не требует изучения тонкостей построения и настройки функций вознаграждения. RLHF, который включает в себя Нет необходимости в обучении модели вознаграждения DPO устраняет необходимость обучения дополнительной модели вознаграждения, экономя вычислительные ресурсы и устраняя проблемы, связанные с точностью и обслуживанием модели вознаграждения. Разработка эффективной модели вознаграждения, которая интерпретирует обратную связь от людей в действенные сигналы для ИИ, — сложная задача. Это требует значительных усилий и регулярных обновлений, чтобы точно отражать меняющиеся предпочтения человека. DPO полностью обходит этот шаг, напрямую используя данные о предпочтениях для улучшения модели. Превосходную производительность Согласно исследованию под названием . «Оптимизация прямых предпочтений: ваша языковая модель Тайная модель вознаграждения Заключение Прямая оптимизация производительности — это стабильный и эффективный метод тонкой настройки, не требующий чрезмерных вычислительных ресурсов. В отличие от RLHF, DPO не требует сложной модели вознаграждения и выборки из языковой модели во время тонкой настройки. Это не просто новый алгоритм, но меняющий правила игры в модели ИИ: тонкая настройка, упрощение и улучшение процесса построения языковых моделей, которые лучше понимают и удовлетворяют потребности человека.