Авторы:
(1) Рафаэль Рафаило, Стэнфордский университет и Equal Benefits; более молодые авторы, перечисленные ранее;
(2) Арчит Шарма, Стэнфордский университет и Equal Benefits; более молодые авторы, перечисленные ранее;
(3) Эрик Митчел, Стэнфордский университет и Equal Benefits; более молодые авторы, перечисленные ранее;
(4) Стефано Эрмон, CZ Biohub;
(5) Кристофер Д. Мэннинг, Стэнфордский университет;
(6) Челси Финн, Стэнфордский университет.
4 Прямая оптимизация предпочтений
7 Обсуждение, благодарности и ссылки
Математические Выводы
A.1 Выведение оптимума для цели максимизации вознаграждения с ограничениями KL
A.2 Выведение цели DPO по модели Брэдли-Терри
A.3 Выведение цели DPO в соответствии с моделью Плакетта-Льюса
A.4 Вывод градиента цели DPO и A.5 Доказательство леммы 1 и 2
Детали реализации B DPO и гиперпараметры
C.2 Подсказки GPT-4 для вычисления коэффициентов резюмирования и выигрыша диалогов
C.3 Маловероятность исходного уровня
D Дополнительные эмпирические результаты
D.1 Эффективность базового уровня Best of N для различных N и D.2 Образцы ответов и суждения GPT-4
D.3 Подробности исследования на людях
В то время как крупномасштабные неконтролируемые языковые модели (LM) изучают обширные мировые знания и некоторые навыки рассуждения, достижение точного контроля над их поведением затруднено из-за полностью неконтролируемой природы их обучения. Существующие методы получения такой управляемости собирают человеческие метки относительного качества поколений моделей и тонко настраивают неконтролируемый LM для соответствия этим предпочтениям, часто с подкреплением обучения на основе обратной связи с человеком (RLHF). Однако RLHF является сложной и часто нестабильной процедурой, сначала подбирая модель вознаграждения, которая отражает человеческие предпочтения, а затем тонко настраивая большой неконтролируемый LM с подкреплением обучения для максимизации этого предполагаемого вознаграждения, не уходя слишком далеко от исходной модели. В этой статье мы представляем новую параметризацию модели вознаграждения в RLHF, которая позволяет извлекать соответствующую оптимальную политику в замкнутой форме, позволяя нам решать стандартную задачу RLHF только с простой потерей классификации. Полученный алгоритм, который мы называем Direct Preference Optimization (DPO), является стабильным, производительным и вычислительно легким, устраняя необходимость в выборке из LM во время тонкой настройки или выполнения значительной настройки гиперпараметров. Наши эксперименты показывают, что DPO может точно настраивать LM для соответствия человеческим предпочтениям так же хорошо или лучше, чем существующие методы. В частности, тонкая настройка с DPO превосходит RLHF на основе PPO в способности контролировать настроения поколений и соответствует или улучшает качество ответа при резюмировании и однопоточном диалоге, будучи при этом существенно проще в реализации и обучении.
Большие неконтролируемые языковые модели (LM), обученные на очень больших наборах данных, приобретают удивительные возможности [11, 7, 40, 8]. Однако эти модели обучаются на данных, сгенерированных людьми с широким спектром целей, приоритетов и наборов навыков. Некоторые из этих целей и наборов навыков могут быть нежелательными для имитации; например, хотя мы можем хотеть, чтобы наш помощник по кодированию ИИ понимал распространенные ошибки программирования, чтобы исправить их, тем не менее, при генерации кода мы хотели бы сместить нашу модель в сторону (потенциально редкой) высококачественной способности кодирования, присутствующей в ее обучающих данных. Аналогично, мы могли бы хотеть, чтобы наша языковая модель знала о распространенном заблуждении, в которое верят 50% людей, но мы определенно не хотим, чтобы модель утверждала, что это заблуждение является истинным в 50% запросов о ней! Другими словами, выбор желаемых ответов и поведения модели из ее очень широких знаний и способностей имеет решающее значение для создания систем ИИ, которые являются безопасными, производительными и управляемыми [26]. В то время как существующие методы обычно направляют LM в соответствии с предпочтениями человека, используя обучение с подкреплением (RL),
мы покажем, что цель на основе RL, используемая существующими методами, может быть точно оптимизирована с помощью простой бинарной цели кросс-энтропии, что значительно упрощает конвейер обучения предпочтениям.
На высоком уровне существующие методы внедряют желаемое поведение в языковую модель, используя подобранные наборы человеческих предпочтений, представляющие типы поведения, которые люди считают безопасными и полезными. Эта стадия обучения предпочтениям происходит после начальной стадии крупномасштабного неконтролируемого предварительного обучения на большом наборе текстовых данных. Хотя наиболее простым подходом к обучению предпочтениям является контролируемая тонкая настройка на человеческих демонстрациях высококачественных ответов, наиболее успешным классом методов является обучение с подкреплением на основе обратной связи человека (или ИИ) (RLHF/RLAIF; [12, 2]). Методы RLHF подгоняют модель вознаграждения к набору данных человеческих предпочтений, а затем используют RL для оптимизации политики языковой модели для получения ответов, которым назначено высокое вознаграждение, без чрезмерного отклонения от исходной модели. В то время как RLHF создает модели с впечатляющими способностями к разговору и кодированию, конвейер RLHF значительно сложнее, чем контролируемое обучение, включая обучение нескольких LM и выборку из политики LM в цикле обучения, что влечет за собой значительные вычислительные затраты.
В этой статье мы показываем, как напрямую оптимизировать языковую модель для соответствия человеческим предпочтениям без явного моделирования вознаграждения или обучения с подкреплением. Мы предлагаем прямую оптимизацию предпочтений (DPO), алгоритм, который неявно оптимизирует ту же цель, что и существующие алгоритмы RLHF (максимизация вознаграждения с ограничением KL-дивергенции), но прост в реализации и обучении. Интуитивно обновление DPO увеличивает относительную логарифмическую вероятность предпочитаемых и непредпочитаемых ответов, но оно включает динамический вес важности для каждого примера, который предотвращает вырождение модели, которое, как мы обнаружили, происходит с наивной целью отношения вероятностей. Как и существующие алгоритмы, DPO опирается на теоретическую модель предпочтений (такую как модель Брэдли-Терри; [5]), которая измеряет, насколько хорошо заданная функция вознаграждения согласуется с эмпирическими данными о предпочтениях. Однако, в то время как существующие методы используют модель предпочтений для определения потери предпочтений для обучения модели вознаграждения, а затем обучают политику, которая оптимизирует изученную модель вознаграждения, DPO использует изменение переменных для определения потери предпочтений как функции политики напрямую. Имея набор данных о предпочтениях человека по сравнению с ответами модели, DPO может оптимизировать политику, используя простую бинарную цель перекрестной энтропии, создавая оптимальную политику для неявной функции вознаграждения, соответствующей данным о предпочтениях.
Наш главный вклад — это Direct Preference Optimization (DPO), простой алгоритм без RL для обучения языковых моделей из предпочтений. Наши эксперименты показывают, что DPO по крайней мере так же эффективен, как существующие методы, включая RLHF на основе PPO, для обучения из предпочтений в таких задачах, как модуляция настроений, резюмирование и диалог, с использованием языковых моделей с параметрами до 6B.
Данная статья доступна на arxiv по лицензии CC BY-NC-ND 4.0 DEED.