Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.
Авторы:
(1) Кристина Испания-Бонет, DFKI GmbH, Кампус информатики Саара.
Мы подходим к нашей задаче как к проблеме классификации двух классов: левых (Л) и правых (П) политических ориентаций. Это упрощение реальной проблемы, когда статьи также могут быть нейтральными и могут иметь разную степень предвзятости. Предыдущие работы опирались на 3 или 5 классов, всегда включая нейтральный вариант (Бали и др., 2020; Аксенов и др., 2021). В этих работах данные аннотировались вручную, создавая высококачественные обучающие данные, но также во многом ограничивая объем работы с точки зрения охватываемых языков и стран. При использовании шкалы мелкозернистой классификации авторы констатируют плохую генерализацию классификаторов на новые источники. С другой стороны, Гарсиа-Диас и др. (2022) и Руссо и др. (2023) исключают нейтральный класс и работают с бинарной или мультиклассовой лево-правой классификацией твитов испанских и итальянских политиков соответственно, но их работа не включает более длинные тексты. Бинарная классификация может быть оправдана, поскольку они работали с твитами — жанром, в котором люди склонны быть более интуитивными и, следовательно, вероятно, более поляризованными. В нашем случае нам нужно быть уверенными, что классификатор хорошо обобщает невидимые источники, и мы придерживаемся задачи 2-класса, минимизируя при этом количество нейтральных статей в обучении (см. ниже).
Дистанционный надзор. Насколько нам известно, доступен только аннотированный вручную корпус газеты на английском языке (Бали и др., 2020) и еще один на немецком языке (Аксенов и др., 2021). Мы придерживаемся другого подхода в духе Kulkarni et al. (2018) и Кизель и др. (2019). Мы не аннотируем вручную ни одну статью, но доверяем AllSides, MB/FC, Political Watch и Wikipedia (последняя только в тех случаях, когда информация недоступна на предыдущих сайтах) в их классификации газетной предвзятости. Мы извлекаем эту информацию для газет из США, Германии, Испании и Каталонии. Имея список газет, их URL-адреса[4] и их позицию, мы используем OSCAR, многоязычный корпус, полученный путем фильтрации Common Crawl (Ортис Суарес и др., 2019; Абаджи и др., 2021), чтобы получить статьи. . В Приложении А перечислены источники, использованные в этой работе: 47 газет США с 742 691 статьей, 12 немецких газет с 143 200, 38 испанских с 301 825 и 19 каталонских с 70 496 статьями.
Тематическое моделирование. Не все статьи имеют предвзятость, некоторые темы более предвзяты, чем другие. В то время как спортивный раздел газеты обычно менее склонен отражать политические предубеждения, с международным разделом происходит обратное. Поэтому мы используем темы для выбора подмножества соответствующих обучающих данных для нашей бинарной классификации. Мы проводим тематическое моделирование статей, извлеченных из OSCAR, с помощью Mallet (McCallum, 2002), который применяет LDA с выборкой Гиббса. Мы группируем данные по 10 и 15 группам на каждый язык, что примерно соответствует количеству разделов в газете. Ключевые слова, извлеченные для каждой темы, перечислены в Приложении B. Мы выбираем статьи, которые относятся к темам, которые мы обозначаем как «Международное право», «Правительство», «Право и правосудие», «Экономика», «Живая наука/экология», а также к конкретным языково-зависимым темам, таким как «Иммиграция и насилие в обществе». Английский, нацизм для немецкого и социальный для испанского. Выбор осуществляется после проверки ключевых слов. Для окончательного набора данных мы объединяем выбранные статьи, сгруппированные по 10 и 15 темам. В результате процесса отфильтровывается 49% испанских статей, 39% немецких и 31% английских статей.
Предварительная обработка и очистка. Перед очисткой мы отбрасываем статьи, содержащие более 2000 или менее 20 слов. После этого мы удаляем верхние и нижние колонтитулы и любой обнаруженный шаблонный текст. Этот текст может ввести в заблуждение нейронный классификатор, поскольку он может побудить классификатор научиться различать газеты, а не сосредотачиваться на их политической позиции. Мы выбираем газету по языку и позиции для тестирования и вручную чистим их статьи. Чтобы создать сбалансированный корпус обучения для каждого языка, мы случайным образом выбираем одинаковое количество левых и правых статей из оставшейся коллекции. Этот сбалансированный набор данных разделен на обучение и проверку, как показано в таблице 1 (верхние строки).
ЧатGPT/Бард Корпус. Мы создаем многоязычный набор данных из 101 статьи. Для этого мы определяем 101 тему, включая цены на жилье, аборты, табак, Барака Обаму и т. д., и переводим их вручную на 4 языка (см. Приложение D). Испытуемые рассматривают темы, склонные к политической позиции, например, связанные с феминизмом, капитализмом, экологией, технологиями и т. д. Мы также включаем имена собственные людей из 4 рассматриваемых стран, биография которых может отличаться в зависимости от политической позиции испытуемого. писатель. Эти темы вставляются в приглашение шаблона (и его переводы на немецкий, испанский и каталанский языки):[5] Напишите газетную статью на [SUBJECT]en.
Мы запрашиваем ChatGPT (GPT-3.5-Turbo) пять раз, используя одни и те же темы в течение четырех периодов времени. Мы создаем набор данных с помощью версий ChatGPT от 13 февраля (версия 02), 23 марта (версия 03), 24 мая (версия 05) и 3 августа (версия 08); мы охватываем 4 языка одновременно только с двумя последними. ChatGPTv05 генерирует значительно более длинные тексты, чем другие, со структурой, ориентированной на статьи, со слотами, которые необходимо заполнить именем автора, датой и/или городом. Многоязычный Bard стал доступен позже, и мы запрашиваем его дважды за тот же период, что и ChatGPTv8.[6] В таблице 1 представлена статистика по этому корпусу.
[4] Это подразумевает выбор всех статей, находящихся под доменным именем новостного агентства, независимо от того, являются ли они новостями или нет.
[5] Более конкретные подсказки не привели к разным стилям для первых версий ChatGPT, для последней мы добавили больше информации, например...без подзаголовков. во избежание чрезмерного разделения на подразделы и/или пунктов списка. Ни ChatGPT, ни Bard не всегда следовали инструкциям должным образом. Предоставляемый нами набор данных включает в себя использованные нами подсказки.
[6] Запрошено 14–21 августа 2023 г. из Берлина для английского и немецкого языков и из Барселоны для испанского и каталанского языков, поскольку, в отличие от ChatGPT, генерация зависит от местоположения.