Авторы:
(1) Рафаэль Рафаило, Стэнфордский университет и Equal Benefits; более молодые авторы, перечисленные ранее;
(2) Арчит Шарма, Стэнфордский университет и Equal Benefits; более молодые авторы, перечисленные ранее;
(3) Эрик Митчел, Стэнфордский университет и Equal Benefits; более молодые авторы, перечисленные ранее;
(4) Стефано Эрмон, CZ Biohub;
(5) Кристофер Д. Мэннинг, Стэнфордский университет;
(6) Челси Финн, Стэнфордский университет.
4 Прямая оптимизация предпочтений
7 Обсуждение, благодарности и ссылки
Математические Выводы
A.1 Выведение оптимума для цели максимизации вознаграждения с ограничениями KL
A.2 Выведение цели DPO по модели Брэдли-Терри
A.3 Выведение цели DPO в соответствии с моделью Плакетта-Льюса
A.4 Вывод градиента цели DPO и A.5 Доказательство леммы 1 и 2
Детали реализации B DPO и гиперпараметры
C.2 Подсказки GPT-4 для вычисления коэффициентов резюмирования и выигрыша диалогов
C.3 Маловероятность исходного уровня
D Дополнительные эмпирические результаты
D.1 Эффективность базового уровня Best of N для различных N и D.2 Образцы ответов и суждения GPT-4
D.3 Подробности исследования на людях
Самоконтролируемые языковые модели все большего масштаба учатся выполнять некоторые задачи с нуля [31] или с несколькими подсказками [6, 25, 11]. Однако их производительность в последующих задачах и соответствие намерениям пользователя можно значительно улучшить путем тонкой настройки на наборах данных инструкций и написанных человеком дополнений [23, 36, 13, 39]. Эта процедура «настройки инструкций» позволяет LLM обобщать инструкции за пределами набора настройки инструкций и в целом повышать их удобство использования [13]. Несмотря на успех настройки инструкций, относительные человеческие суждения о качестве ответа часто легче собрать, чем экспертные демонстрации, и, таким образом, последующие работы настроили LLM с помощью наборов данных человеческих предпочтений, улучшив мастерство перевода [18], реферирования [38, 49], рассказывания историй [49] и следования инструкциям [26, 32]. Эти методы сначала оптимизируют функцию вознаграждения нейронной сети для совместимости с набором данных предпочтений в рамках модели предпочтений, такой как модель Брэдли-Терри [5], затем настраивают языковую модель для максимизации заданного вознаграждения с использованием алгоритмов обучения с подкреплением, обычно REINFORCE [45], оптимизации проксимальной политики (PPO; [37]) или вариантов [32]. Тесно связанное направление работы использует LLM, настроенные на выполнение инструкций с обратной связью от человека, для генерации дополнительных синтетических данных о предпочтениях для целевых атрибутов, таких как безопасность или безвредность [2], используя только слабый надзор со стороны людей в форме текстовой рубрики для аннотаций LLM. Эти методы представляют собой конвергенцию двух групп работ: одна группа работ по обучению языковых моделей с подкреплением для различных целей [33, 27, 46] и другая группа работ по общим методам обучения на основе человеческих предпочтений [12, 19]. Несмотря на привлекательность использования относительных человеческих предпочтений, тонкая настройка больших языковых моделей с подкреплением остается серьезной практической проблемой; В данной работе представлен теоретически обоснованный подход к оптимизации относительных предпочтений без RL.
Вне контекста языка политика обучения на основе предпочтений изучалась как в условиях бандитского обучения, так и в условиях обучения с подкреплением, и было предложено несколько подходов. Контекстное бандитское обучение, использующее предпочтения или ранжирование действий, а не вознаграждения, известно как контекстный дуэльный бандит (CDB; [48, 14]). При отсутствии абсолютных вознаграждений теоретический анализ CDB заменяет понятие оптимальной политики победителем фон Неймана, политикой, ожидаемый процент побед против любой другой политики составляет не менее 50% [14]. Однако в условиях CDB метки предпочтений даются онлайн, в то время как при обучении на основе человеческих предпочтений мы обычно учимся на фиксированной партии офлайновых пар действий с аннотациями предпочтений [47]. Аналогично, основанное на предпочтениях RL (PbRL) учится на бинарных предпочтениях, сгенерированных неизвестной функцией «подсчета очков», а не на вознаграждениях [9, 35]. Существуют различные алгоритмы для PbRL, включая методы, которые могут повторно использовать данные о предпочтениях вне политики, но обычно включают в себя сначала явную оценку скрытой функции оценки (т. е. модели вознаграждения) и последующую ее оптимизацию [16, 9, 12, 34, 19]. Вместо этого мы представляем одноэтапный подход к обучению политике, который напрямую оптимизирует политику для удовлетворения предпочтений.
Данная статья доступна на arxiv по лицензии CC BY-NC-ND 4.0 DEED.