Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.
Авторы:
(1) Кристина Испания-Бонет, DFKI GmbH, Кампус информатики Саара.
Сеть. **Мы настраиваем XLM-RoBERTa big (Conneau et al., 2020), многоязычный замаскированный LM на основе трансформатора**, обученный на 100 языках, включая 4, которые мы рассматриваем. Подробная информация о сети и исследовании гиперпараметров для каждой модели представлена в Приложении F.
Модели. Мы обучаем 4 модели: 3 одноязычные настройки с данными на английском, немецком и испанском языках, а также многоязычную с перетасованной конкатенацией данных. Все модели основаны на многоязычных встраиваниях (RoBERTa), настроенных либо на одном языке, либо на нескольких языках. Обратите внимание, что мы не обучаем каталонский язык ни одной модели. При этом мы хотим сравнить производительность одно- и многоязычных тонких настроек и изучить возможность использования многоязычных моделей для нулевой передачи языка.
Грубая классификация газетных статей. В таблице 2 суммированы результаты. Все модели достигают точности более 95% на проверочном наборе, который извлекается из того же распределения, что и обучающие данные. Чтобы увидеть, как модели ведут себя с невидимыми данными, мы вычисляем процент статей, которые классифицируются как левые (L) и правые (R) в тестовых газетах из Таблицы 1. Мы выполняем повторную выборку тестовых наборов с помощью 1000 бутстрапов. для получения доверительных интервалов на уровне 95%. Мы не ожидаем, что все статьи газеты с левым уклоном будут отражать четкие характеристики левых, но, учитывая, что нейтрального класса не существует, мы ожидаем, что большинство из них будут отнесены к левым. Хороший результат – это не обязательно 100–0%, поскольку это также нереально. Мы считаем, что газета классифицируется как имеющая лево/правую политическую позицию, если более 50% ее статей были отнесены к таковым. Эти случаи выделены жирным шрифтом в таблице 2.
Такое поведение мы наблюдаем для всех тестовых газет, за исключением немецкой правоориентированной газеты: die Preußische Allgemeine Zeitung (PAZ). Немецкая модель обучается только на 12 газетах для сравнения: 47 на английском и 38 на испанском. Неправильная классификация может указывать на то, что разнообразие является ключевым аспектом конечной эффективности модели. Многоязычие не помогает, и 65% статей ПАЗ по-прежнему относятся к категории левых. Мы также оцениваем эффективность английской модели на данных немецкого языка, двух близких языков. Мы признаем, что темы газет США и Германии могут сильно различаться, но большое разнообразие данных по обучению английскому языку потенциально может компенсировать это. Английская модель способна правильно отнести немецкую газету My Heimat к левой газете (Л: 67±3%), а PAZ – к правой (Р: 58±5%). Мы снова объясняем разницу тем, что немецкая модель обучается на корпусе, лишенном разнообразия. Когда мы используем многоязычную систему, доминирующим фактором, определяющим результаты, является сам язык, а не позиция. Добавления данных на английском языке недостаточно для существенного изменения классификации. Когда мы используем английскую систему, язык уже не играет роли, а учитываются только особенности позиции. Однако когда мы применяем английскую модель к каталонским газетам, мы не получаем удовлетворительных результатов (95±1% для левой газеты и 16±3% для правой газеты), показывающих, что родство между языками важно. Однако многоязычная модель правильно определяет позицию каталонских газет, вероятно, потому, что она была обучена на разнородном корпусе, включающем родственный язык (испанский). Мы можем выполнить нулевую классификацию переноса языков, когда имеем дело с близкородственными языками.
Грубая классификация со статьями, созданными ILM. В нижней части Таблицы 2 подробно описаны результаты. Сначала мы сосредоточимся на английской и испанской моделях, поскольку немецкая не позволяет правильно классифицировать наши тестовые газеты. Наиболее важным аспектом, на который следует обратить внимание в ChatGPT, является сильное изменение политической позиции в период с февраля (v02) по май (v05), за которым последовало движение к нейтралитету в августе (v08). Мы проверили, что это изменение полярности не влияет на длину выходных данных — основное незначительное изменение в создаваемых статьях. Данные обучения на английском языке включают 5730L–6988 статей R с длиной 584<длина (слов)<624 (аналогично длине ChatPGTv05) и 4563 статей L–7127 R с длиной 331<<371 (аналогично ChatGPtv02). В обоих случаях количество статей больше для правых позиций, но прогноз для ChatGPTv02 явно указывает на левые, отвергая гипотезу о том, что длина играет роль в классификации. То же самое происходит и с испанским языком. Согласно нашим моделям, редакционная линия редакции от 24 мая близка к правильной идеологии, которая отличается от идеологии предыдущих версий. Примечательно, что этот период соответствует снижению выполнения некоторых задач, согласно Chen et al. (2003). Немецкие и каталонские результаты по-прежнему будут демонстрировать отпечаток левой идеологии и в версии 05, но потребуются более разнообразные данные обучения, чтобы подтвердить это с помощью наших одноязычных моделей. Интересно отметить, что если мы используем английскую одноязычную модель для немецкого и каталанского языков, мы по-прежнему сохраняем левый отпечаток (60±10% для немецкого и 87±7% для каталонского). Итак, у нас есть признаки того, что политическая позиция ChatGPT зависит от языка, что неудивительно в системе, управляемой данными. Последняя версия, ChatGPTv08, выдает наиболее нейтральные тексты, и только немецкий язык явно склоняется влево. Два поколения, v08a и v08b, показывают, что результаты надежны и не привязаны к конкретному поколению.
Доступна только версия для многоязычного Барда, которая охватывает наши временные рамки.[7] Разница между поколениями больше для Bard, чем для ChatGPT, но, сравнивая версии v08, Бард более последовательно указывает влево на разных языках. Политическая ориентация Барда также может быть определена по его ответам на вопросы политического теста или викторины. Сайт «Политический компас» (ПК)[8] определяет 62 предложения для определения политической идеологии — с европейской/западной точки зрения — по двум осям: экономическая политика (левая-правая) и социальная политика (авторитарная-либертарианская), обе в диапазоне [-10,10]. За каждым предложением следуют 4 альтернативы: полностью согласен, согласен, не согласен и категорически не согласен. При запросе анкеты[9] баллы Барда составляют (-6,50, -4,77) по английскому языку, (-8,00, -7,13) по немецкому, (-5,75, -4,15) по испанскому языку и (-6,75, -4,56) по испанскому языку. Каталонский, где первая цифра соответствует экономической политике, а вторая — социальной политике. Результаты согласуются с таблицей 2 и дают косвенное подтверждение нашего метода, который не опирается на прямые вопросы.[10]
Подобный анализ больше невозможен с помощью ChatGPT, поскольку он воздерживается от выражения мнений и предпочтений, демонстрируя актуальность подхода, который выявляет склонность более косвенным образом. Также обратите внимание, что эти анкеты хорошо известны и общедоступны, поэтому было бы легко проинструктировать LM избегать вопросов или реагировать на его предложения нейтральным образом. В предыдущей работе для оценки ориентации ChatGPT использовались только политические тесты и анкеты. Хартманн и др. (2023) использовали ПК, 38 политических заявлений из приложения для советов по голосованию Wahl-O-Mat (Германия) и 30 из StemWijzer (Нидерланды), чтобы сделать вывод, что идеология ChatGPT в версии от 15 декабря 2022 года была проэкологической и леволибертарианской. .
Исследование, проведенное Манхэттенским институтом политических исследований[11], показало, что ChatGPT имеет тенденцию давать ответы, типичные для левоцентристских политических взглядов на английском языке (Rozado, 2023). Авторы провели 15 тестов на политическую ориентацию для версии ChatGPT от 9 января. Их результаты согласуются с нашей оценкой модели от 13 февраля. Наконец, Мотоки и др. (2023) провели серию тестов на ПК, чтобы показать, что ChatGPT сильно смещен влево. Авторы не указывают версию, которую они используют, но работа была представлена в марте 2023 года. Таким образом, все эти результаты предшествовали сдвигу вправо, который мы обнаружили в мае.
[7] Обратите внимание, что используемая нами версия официально не поддерживает каталанский язык, но носители языка подтвердили, что поколения в основном корректны и бегло говорят с небольшим количеством грамматических ошибок.
[8] https://www.politiccompass.org/test (по состоянию на 13–20 августа 2023 г.)
[9] Анкета с испанского языка была переведена на каталонский язык, поскольку анкета не была доступна.
[10] Хотя, как и у людей, ИЛМ может говорить одно (выбирать вариант предложения) и действовать (писать текст) непоследовательно.
[11] Консервативный аналитический центр согласно Википедии.