paint-brush
Прямая оптимизация предпочтений: ваша языковая модель — это тайная модель вознагражденияк@textmodels
234 чтения

Прямая оптимизация предпочтений: ваша языковая модель — это тайная модель вознаграждения

Слишком долго; Читать

Оптимизация прямых предпочтений (DPO) представляет собой более простую и стабильную альтернативу обучению с подкреплением для согласования языковых моделей с предпочтениями человека. Устраняя необходимость в моделировании вознаграждений и сложных процедурах обучения, DPO предлагает эффективную тонкую настройку, которая соответствует или превосходит производительность существующих методов, таких как RLHF на основе PPO, особенно в задачах модуляции настроений, резюмирования и диалога.
featured image - Прямая оптимизация предпочтений: ваша языковая модель — это тайная модель вознаграждения
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Авторы:

(1) Рафаэль Рафаило, Стэнфордский университет и Equal Benefits; более молодые авторы, перечисленные ранее;

(2) Арчит Шарма, Стэнфордский университет и Equal Benefits; более молодые авторы, перечисленные ранее;

(3) Эрик Митчел, Стэнфордский университет и Equal Benefits; более молодые авторы, перечисленные ранее;

(4) Стефано Эрмон, CZ Biohub;

(5) Кристофер Д. Мэннинг, Стэнфордский университет;

(6) Челси Финн, Стэнфордский университет.

Таблица ссылок

Аннотация и 1. Введение

2 Связанные работы

3 отборочных

4 Прямая оптимизация предпочтений

5 Теоретический анализ DPO

6 Экспериментов

7 Обсуждение, благодарности и ссылки

Вклады авторов


Математические Выводы

A.1 Выведение оптимума для цели максимизации вознаграждения с ограничениями KL

A.2 Выведение цели DPO по модели Брэдли-Терри

A.3 Выведение цели DPO в соответствии с моделью Плакетта-Льюса

A.4 Вывод градиента цели DPO и A.5 Доказательство леммы 1 и 2

A.6 Доказательство теоремы 1


Детали реализации B DPO и гиперпараметры


C. Дополнительные сведения об экспериментальной установке и C.1 Эксперимент по настроению IMDb и базовые данные

C.2 Подсказки GPT-4 для вычисления коэффициентов резюмирования и выигрыша диалогов

C.3 Маловероятность исходного уровня


D Дополнительные эмпирические результаты

D.1 Эффективность базового уровня Best of N для различных N и D.2 Образцы ответов и суждения GPT-4

D.3 Подробности исследования на людях

Абстрактный

В то время как крупномасштабные неконтролируемые языковые модели (LM) изучают обширные мировые знания и некоторые навыки рассуждения, достижение точного контроля над их поведением затруднено из-за полностью неконтролируемой природы их обучения. Существующие методы получения такой управляемости собирают человеческие метки относительного качества поколений моделей и тонко настраивают неконтролируемый LM для соответствия этим предпочтениям, часто с подкреплением обучения на основе обратной связи с человеком (RLHF). Однако RLHF является сложной и часто нестабильной процедурой, сначала подбирая модель вознаграждения, которая отражает человеческие предпочтения, а затем тонко настраивая большой неконтролируемый LM с подкреплением обучения для максимизации этого предполагаемого вознаграждения, не уходя слишком далеко от исходной модели. В этой статье мы представляем новую параметризацию модели вознаграждения в RLHF, которая позволяет извлекать соответствующую оптимальную политику в замкнутой форме, позволяя нам решать стандартную задачу RLHF только с простой потерей классификации. Полученный алгоритм, который мы называем Direct Preference Optimization (DPO), является стабильным, производительным и вычислительно легким, устраняя необходимость в выборке из LM во время тонкой настройки или выполнения значительной настройки гиперпараметров. Наши эксперименты показывают, что DPO может точно настраивать LM для соответствия человеческим предпочтениям так же хорошо или лучше, чем существующие методы. В частности, тонкая настройка с DPO превосходит RLHF на основе PPO в способности контролировать настроения поколений и соответствует или улучшает качество ответа при резюмировании и однопоточном диалоге, будучи при этом существенно проще в реализации и обучении.

1 Введение

Большие неконтролируемые языковые модели (LM), обученные на очень больших наборах данных, приобретают удивительные возможности [11, 7, 40, 8]. Однако эти модели обучаются на данных, сгенерированных людьми с широким спектром целей, приоритетов и наборов навыков. Некоторые из этих целей и наборов навыков могут быть нежелательными для имитации; например, хотя мы можем хотеть, чтобы наш помощник по кодированию ИИ понимал распространенные ошибки программирования, чтобы исправить их, тем не менее, при генерации кода мы хотели бы сместить нашу модель в сторону (потенциально редкой) высококачественной способности кодирования, присутствующей в ее обучающих данных. Аналогично, мы могли бы хотеть, чтобы наша языковая модель знала о распространенном заблуждении, в которое верят 50% людей, но мы определенно не хотим, чтобы модель утверждала, что это заблуждение является истинным в 50% запросов о ней! Другими словами, выбор желаемых ответов и поведения модели из ее очень широких знаний и способностей имеет решающее значение для создания систем ИИ, которые являются безопасными, производительными и управляемыми [26]. В то время как существующие методы обычно направляют LM в соответствии с предпочтениями человека, используя обучение с подкреплением (RL),


Рисунок 1: DPO оптимизирует для человеческих предпочтений, избегая обучения с подкреплением. Существующие методы тонкой настройки языковых моделей с человеческой обратной связью сначала подгоняют модель вознаграждения к набору данных подсказок и человеческих предпочтений по парам ответов, а затем используют RL для поиска политики, которая максимизирует усвоенное вознаграждение. Напротив, DPO напрямую оптимизирует политику, наилучшим образом удовлетворяющую предпочтениям с простой целью классификации, подгоняя неявную модель вознаграждения, соответствующая оптимальная политика которой может быть извлечена в закрытой форме.


мы покажем, что цель на основе RL, используемая существующими методами, может быть точно оптимизирована с помощью простой бинарной цели кросс-энтропии, что значительно упрощает конвейер обучения предпочтениям.


На высоком уровне существующие методы внедряют желаемое поведение в языковую модель, используя подобранные наборы человеческих предпочтений, представляющие типы поведения, которые люди считают безопасными и полезными. Эта стадия обучения предпочтениям происходит после начальной стадии крупномасштабного неконтролируемого предварительного обучения на большом наборе текстовых данных. Хотя наиболее простым подходом к обучению предпочтениям является контролируемая тонкая настройка на человеческих демонстрациях высококачественных ответов, наиболее успешным классом методов является обучение с подкреплением на основе обратной связи человека (или ИИ) (RLHF/RLAIF; [12, 2]). Методы RLHF подгоняют модель вознаграждения к набору данных человеческих предпочтений, а затем используют RL для оптимизации политики языковой модели для получения ответов, которым назначено высокое вознаграждение, без чрезмерного отклонения от исходной модели. В то время как RLHF создает модели с впечатляющими способностями к разговору и кодированию, конвейер RLHF значительно сложнее, чем контролируемое обучение, включая обучение нескольких LM и выборку из политики LM в цикле обучения, что влечет за собой значительные вычислительные затраты.


В этой статье мы показываем, как напрямую оптимизировать языковую модель для соответствия человеческим предпочтениям без явного моделирования вознаграждения или обучения с подкреплением. Мы предлагаем прямую оптимизацию предпочтений (DPO), алгоритм, который неявно оптимизирует ту же цель, что и существующие алгоритмы RLHF (максимизация вознаграждения с ограничением KL-дивергенции), но прост в реализации и обучении. Интуитивно обновление DPO увеличивает относительную логарифмическую вероятность предпочитаемых и непредпочитаемых ответов, но оно включает динамический вес важности для каждого примера, который предотвращает вырождение модели, которое, как мы обнаружили, происходит с наивной целью отношения вероятностей. Как и существующие алгоритмы, DPO опирается на теоретическую модель предпочтений (такую как модель Брэдли-Терри; [5]), которая измеряет, насколько хорошо заданная функция вознаграждения согласуется с эмпирическими данными о предпочтениях. Однако, в то время как существующие методы используют модель предпочтений для определения потери предпочтений для обучения модели вознаграждения, а затем обучают политику, которая оптимизирует изученную модель вознаграждения, DPO использует изменение переменных для определения потери предпочтений как функции политики напрямую. Имея набор данных о предпочтениях человека по сравнению с ответами модели, DPO может оптимизировать политику, используя простую бинарную цель перекрестной энтропии, создавая оптимальную политику для неявной функции вознаграждения, соответствующей данным о предпочтениях.


Наш главный вклад — это Direct Preference Optimization (DPO), простой алгоритм без RL для обучения языковых моделей из предпочтений. Наши эксперименты показывают, что DPO по крайней мере так же эффективен, как существующие методы, включая RLHF на основе PPO, для обучения из предпочтений в таких задачах, как модуляция настроений, резюмирование и диалог, с использованием языковых моделей с параметрами до 6B.


Данная статья доступна на arxiv по лицензии CC BY-NC-ND 4.0 DEED.