Авторы:
(1) Сяофэй Сунь, Чжэцзянский университет;
(2) Сяоя Ли, Shannon.AI и Bytedance;
(3) Шэнъюй Чжан, Чжэцзянский университет;
(4) Шухэ Ван, Пекинский университет;
(5) Фэй Ву, Чжэцзянский университет;
(6) Цзивэй Ли, Чжэцзянский университет;
(7) Тяньвэй Чжан, Наньянский технологический университет;
(8) Гоинь Ван, Shannon.AI и Bytedance.
LLM Переговоры по анализу настроений
Стандартная парадигма анализа настроений состоит в том, чтобы полагаться на один LLM и принимать решение за один раунд в рамках контекстного обучения. Эта структура имеет ключевой недостаток: результат одного оборота, генерируемый одним LLM, может не дать идеального решения, точно так же, как людям иногда требуется несколько попыток, чтобы все сделать правильно. Это особенно верно для задачи анализа настроений, где требуются глубокие рассуждения для решения сложного языкового явления (например, состава предложения, иронии и т. д.) во входных данных.
Чтобы решить эту проблему, в данной статье представлена структура переговоров с несколькими LLM для анализа настроений. Структура состоит из генератора, основанного на рассуждениях, который выдает решение вместе с обоснованием, и дискриминатора, производящего объяснения, для оценки достоверности генератора. Генератор и дискриминатор выполняют итерацию, пока не будет достигнут консенсус. Предлагаемая структура, естественно, решает вышеупомянутую проблему, поскольку мы можем использовать взаимодополняющие способности двух LLM и заставить их использовать обоснование, чтобы убедить друг друга внести исправления.
Эксперименты с широким спектром тестов анализа настроений (SST-2, Movie Review, Twitter, yelp, amazon, IMDB) демонстрируют эффективность предлагаемого подхода: он постоянно дает лучшие результаты, чем базовый уровень ICL, во всех тестах и даже превосходит производительность для контролируемые базовые данные в Твиттере и наборах данных обзоров фильмов.
Анализ настроений (Pang and Lee, 2008; Go et al., 2009; Maas et al., 2011a; Zhang and Liu, 2012; Baccianella et al., 2010; Medhat et al., 2014; Bakshi et al., 2016; Чжан и др., 2018) стремится выявить полярность мнений, выраженную в фрагменте текста. Последние достижения в области больших языковых моделей (LLM) (Brown et al., 2020; Ouyang et al., 2022; Touvron et al., 2023a,b; Anil et al., 2023; Zeng et al., 2022b; OpenAI, 2023). ; Bai et al., 2023) открывают новую дверь для решения задачи (Lu et al., 2021; Kojima et al., 2022; Wang et al., 2022b; Wei et al., 2022b; Wan et al. , 2023; Wang et al., 2023; Sun et al., 2023b,a; Li et al., 2023; Schick et al., 2023): в рамках парадигмы контекстного обучения ( ICL), LLM способны достичь результатов, сравнимых со стратегиями обучения под учителем (Lin et al., 2021; Sun et al., 2021; Phan and Ogunbona, 2020; Dai et al., 2021) лишь с небольшим количеством обучающих примеров. .
Существующие подходы, использующие LLM для анализа настроений, обычно полагаются на один LLM и принимают решение за один раунд в рамках ICL. У этой стратегии есть следующий недостаток: результат одного оборота, генерируемый одним LLM, может не дать идеального ответа: точно так же, как людям иногда требуется несколько попыток, чтобы сделать все правильно, может потребоваться несколько раундов, прежде чем LLM примет правильное решение. Это особенно актуально для задачи анализа настроений, где LLM обычно необходимо сформулировать процесс рассуждения для решения сложного лингвистического явления (например, состава предложения, иронии и т. д.) во входном предложении.
Чтобы решить эту проблему, в этой статье мы предлагаем стратегию переговоров с несколькими LLM для анализа настроений. Ядром предлагаемой стратегии является структура генератора-дискриминатора, в которой один LLM действует как генератор (G) для выработки решений о настроениях, а другой действует как дискриминатор (D), которому поручено оценить достоверность сгенерированных результатов от первый LLM. Предлагаемый метод является инновационным в трех аспектах: (1) Генератор, основанный на рассуждениях (G): LLM, который придерживается структурированной цепочки рассуждений, улучшая ICL генератора, одновременно предлагая дискриминатору доказательства и идеи для оценки его достоверности; (2) дискриминатор, производящий объяснение (D); другой LLM, предназначенный для обоснования своих суждений после оценки; (3) Переговоры: два LLM выступают в роли генератора и дискриминатора и проводят переговоры до тех пор, пока не будет достигнут консенсус.
Эта стратегия использует коллективные возможности двух LLM и предоставляет модели возможность корректировать несовершенные ответы и, таким образом, естественным образом решает проблему, заключающуюся в том, что один LLM не может дать правильное решение с первой попытки.
Вклад этой работы можно резюмировать следующим образом: 1) мы предлагаем новый взгляд на то, как анализ настроений может выиграть от переговоров с несколькими LLM. 2) мы представляем систему принятия решений с переключением ролей «Генератор-Дискриминатор», которая обеспечивает сотрудничество нескольких LLM посредством итеративной генерации и проверки категоризации настроений. 3) наши эмпирические результаты свидетельствуют об эффективности предлагаемого подхода: эксперименты с широким спектром тестов анализа настроений (SST-2, Movie Review, Twitter, yelp, amazon, IMDB) показывают, что предлагаемый метод последовательно дает лучшие результаты, чем базовый уровень ICL по всем тестам и даже превосходящие показатели по сравнению с контролируемыми базовыми показателями в наборах данных Twitter и обзоров фильмов.
Этот документ доступен на arxiv под лицензией CC 4.0.