Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.
Авторы:
(1) Кристина Испания-Бонет, DFKI GmbH, Кампус информатики Саара.
Источники СМИ имеют редакционную линию и связанную с ней предвзятость. Людям сложно избавиться от политических предубеждений, но осознание их помогает нам получить глобальный взгляд на новости. Предвзятости иногда очевидны и/или проявляются в виде вредного текста, но иногда они незаметны и их трудно обнаружить. Эти тонкие скрытые предубеждения потенциально опасны и приводят к манипуляциям, когда мы о них не знаем. В этой работе мы систематически изучали тонкие политические предубеждения, стоящие за ChatGPT и Bard, те, которые проявляются без указания какой-либо роли личности (Deshpande et al., 2023). Мы показали, что ориентация ChatGPT меняется со временем и различается в зависимости от языка. В период с февраля по август 2023 года ChatGPT перешел с левой на нейтральную политическую ориентацию с правым периодом посередине для английского и испанского языков. Эволюцию Барда пока невозможно изучить. В его текущей версии по состоянию на август 2023 года для четырех изучаемых языков постоянно отображается левостороннее направление. Эта предвзятость не зависит от фактических ошибок, которые порождает модель, и ее пользователи также должны учитывать ее. Мы предоставляем модели для регулярной проверки предвзятости в генерации текста для США, Германии и Испании, а также в тесно связанных политических контекстах и языках, используя подход с нулевым шансом.
В качестве побочного продукта нашего анализа мы создали многоязычный корпус из 1,2 миллиона газетных статей с грубыми аннотациями политических позиций и тем. Мы показываем, что дистанционный контроль позволяет нам строить значимые модели для грубой классификации политических позиций, если корпус разнообразен. Мы предоставляем эти данные вместе с поколениями LM и нашим кодом через Zenodo (España-Bonet, 2023) и Github.[12]
[12] https://github.com/cristinae/docTransformer