Авторы:
(1) Саввас Петридис, Google Research, Нью-Йорк, Нью-Йорк, США;
(2) Бен Ведин, Google Research, Кембридж, Массачусетс, США;
(3) Джеймс Векслер, Google Research, Кембридж, Массачусетс, США;
(4) Аарон Донсбах, Google Research, Сиэтл, Вашингтон, США;
(5) Махима Пушкарна, Google Research, Кембридж, Массачусетс, США;
(6) Нитеш Гоял, Google Research, Нью-Йорк, Нью-Йорк, США;
(7) Кэрри Дж. Кай, Google Research, Маунтин-Вью, Калифорния, США;
(8) Майкл Терри, Google Research, Кембридж, Массачусетс, США.
Подсказки на основе большой языковой модели (LLM) — это новый многообещающий подход, позволяющий пользователям создавать и настраивать своих собственных чат-ботов. Однако текущие методы управления выходными данными чат-бота, такие как разработка подсказок и точная настройка, не позволяют пользователям преобразовывать их естественную обратную связь о выходных данных модели в изменения в подсказке или модели. В этой работе мы исследуем, как дать пользователям возможность интерактивно уточнять выходные данные модели посредством обратной связи, помогая им преобразовать свою обратную связь в набор принципов (т. е. конституцию), определяющих поведение модели. В результате формативного исследования мы (1) обнаружили, что пользователям нужна поддержка для преобразования их отзывов в принципы для чат-бота, и (2) классифицировали различные типы принципов, желаемые пользователями. Вдохновленные этими выводами, мы разработали КонституцииMaker, интерактивный инструмент для преобразования отзывов пользователей в принципы для управления чат-ботами на основе LLM. С помощью ConfigurationMaker пользователи могут оставлять положительные или отрицательные отзывы на естественном языке, выбирать автоматически создаваемые отзывы или переписывать ответ чат-бота; каждый режим обратной связи автоматически генерирует принцип, который вставляется в подсказку чат-бота. В исследовании пользователей с участием 14 участников мы сравниваем «ConstitutionMaker» с удаленной версией, в которой пользователи пишут свои собственные принципы. Благодаря «ConstitutionMaker» участники почувствовали, что их принципы могут лучше направлять чат-бота, что им легче преобразовать свои отзывы в принципы и что они могут писать принципы более эффективно, с меньшими умственными затратами. ConstitutionMaker помог пользователям определить способы улучшения чат-бота, сформулировать свои интуитивные ответы на модель в виде обратной связи и преобразовать эту обратную связь в конкретные и ясные принципы. Вместе эти выводы станут основой для будущих инструментов, которые будут поддерживать интерактивную критику результатов LLM.
• Человеко-ориентированные вычисления → Эмпирические исследования в области HCI; Интерактивные системы и инструменты; • Вычислительные методологии → Машинное обучение.
Большие языковые модели, разговорный искусственный интеллект, интерактивная критика
Большие языковые модели (LLM) могут применяться для решения широкого круга задач: от помощи в творческом письме [8, 26, 36, 44] до синтеза кода [13, 14, 20]. В настоящее время пользователи настраивают эти модели для конкретных задач с помощью таких стратегий, как быстрое проектирование [4], настройка с эффективным использованием параметров [19] и точная настройка [10].
В дополнение к этим общим методам настройки LLM, недавняя работа показала, что пользователи также хотели бы напрямую управлять этими моделями с помощью обратной связи на естественном языке (рис. 2A). Более конкретно, некоторые пользователи хотят иметь возможность критиковать результаты модели, чтобы указать, чем они должны отличаться [5]. Мы называем эту стратегию настройки интерактивной критикой.
При взаимодействии с чат-ботом, таким как ChatGPT[1] [28] или Bard[2], интерактивная критика часто изменяет последующие ответы чат-бота, чтобы они соответствовали критике. Однако эти изменения не являются постоянными: пользователи должны повторять эти инструкции при каждом новом взаимодействии с моделью. Пользователи также должны знать, что они действительно могут изменить поведение модели таким образом, и должны сформулировать свою критику таким образом, чтобы это могло привести к изменениям в будущих реакциях модели. Учитывая потенциальную ценность этого режима настройки, существует возможность предоставить первоклассную поддержку, позволяющую пользователям настраивать LLM посредством анализа естественного языка.
В контексте настройки модели конституционный ИИ [1] предлагает конкретную стратегию настройки, включающую принципы естественного языка. Принцип можно рассматривать как правило, которому должна следовать языковая модель, например: «Не создавайте вредного, сексистского или расистского контента». Учитывая набор принципов, конституционная система ИИ будет 1) переписывать ответы модели, которые нарушают принципы, и 2) точно настраивать модель с помощью переписанных ответов. Возвращаясь к понятию интерактивной критики, можно представить себе получение новых или усовершенствованных принципов конституционного ИИ на основе критики пользователей. Эти производные принципы затем можно было бы использовать для изменения подсказки LLM (рис. 2B) или для создания новых данных обучения, как в оригинальной работе по конституционному ИИ.
Хотя эта недавняя работа показала, что принципы могут быть объяснимой и эффективной стратегией адаптации LLM, судя по нашим отзывам, о человеческих процессах написания этих принципов мало что известно. В результате формативного исследования мы обнаружили, что существует множество когнитивных проблем, связанных с преобразованием критики в принципы. Чтобы решить эти проблемы, мы представляем ConstitutionMaker, интерактивную систему критики, которая преобразует критику модели в принципы, уточняющие поведение модели. «ConstitutionMaker» генерирует три варианта ответа кандидата на каждом этапе разговора. В дополнение к этим трем вариантам ответов, КонституцииMaker предоставляет три функции выявления принципов: 1) похвала, когда пользователи могут оставлять положительные отзывы в ответ, 2) критика, когда пользователи могут оставлять отрицательные отзывы в ответ, и 3) переписывание, где пользователи могут переписать данный ответ. На основе этой обратной связи КонституцииMaker выводит принцип, который включен в подсказку чат-бота.
Чтобы оценить, насколько хорошо ConstitutionMaker помогает пользователям писать принципы, мы провели внутрисубъектное исследование с участием 14 специалистов отрасли, знакомых с подсказками. Участники использовали «ConstitutionMaker» и его сокращенную версию, в которой отсутствовали множественные ответы кандидатов и функции выявления принципов. В обоих случаях их целью было написать принципы настройки двух чат-ботов. В результате исследования мы обнаружили, что две разные версии обеспечивают совершенно разные рабочие процессы. В урезанной версии участники писали принципы только тогда, когда бот немного отклонялся от их ожиданий, в результате чего в целом было написано значительно меньше принципов. Напротив, в условии «ConstitutionMaker» участники участвовали в рабочем процессе, в ходе которого они просматривали ответы нескольких кандидатов и хвалили свой любимый ответ, что в целом приводило к большему количеству принципов. Эти различные рабочие процессы также привели к возникновению проблем с написанием принципов написания конкретных условий. В урезанной версии пользователи часто недооценивали принципы; тогда как в «ConstitutionMaker» пользователи иногда слишком уточняли свои принципы, хотя это происходило реже. Наконец, оба условия иногда приводили к проблеме, когда два или более принципов конфликтовали друг с другом.
В целом, благодаря «ConstitutionMaker» участники почувствовали, что их принципы могут лучше направлять чат-бота, что им легче преобразовать свои отзывы в принципы и что они могут писать принципы более эффективно, с меньшими умственными затратами. «ConstitutionMaker» также поддерживал их мыслительный процесс, когда они писали принципы, помогая участникам: 1) распознать, как ответы могут быть лучше с помощью нескольких ответов кандидатов, 2) преобразовать их интуицию о том, почему им понравился или не понравился ответ, в устную обратную связь и 3) сформулировать эту обратную связь. как особый принцип.
В совокупности эта работа вносит следующий вклад:
• Классификация принципов, которые участники хотят написать для управления поведением чат-бота.
• Разработка КонституцииMaker, интерактивного инструмента для преобразования отзывов пользователей в принципы управления поведением чат-бота. ConstitutionMaker представляет три новые функции выявления принципов: похвалы, критика и переписывание, каждая из которых генерирует принцип, который вставляется в подсказку чат-бота.
• Результаты исследования с участием 14 пользователей, в ходе которого участники считали, что Конституции Maker позволяет им: 1) писать принципы, которые лучше управляют чат-ботом, 2) легче преобразовывать свои отзывы в принципы и 3) писать принципы более эффективно, с меньшими умственными затратами. .
• Мы описываем, как «ConstitutionMaker» поддерживал мыслительные процессы участников, в том числе помогая им определить способы улучшения ответов, преобразовать свою интуицию в обратную связь на естественном языке и сформулировать свою обратную связь в виде конкретных принципов. Мы также описываем, как разные рабочие процессы, реализованные в двух системах, привели к разным проблемам при написании принципов и границам принципов.
В совокупности эти выводы станут основой для будущих инструментов для интерактивного совершенствования результатов LLM посредством интерактивной критики.
[1] https://chat.openai.com/
[2] https://bard.google.com
Этот документ доступен на arxiv под лицензией CC 4.0.