paint-brush
Многоязычная грубая классификация СМИ по политической позиции: детали обученияк@mediabias
165 чтения

Многоязычная грубая классификация СМИ по политической позиции: детали обучения

Слишком долго; Читать

В этой статье исследователи анализируют нейтральность новостных статей, созданных с помощью искусственного интеллекта, и эволюцию позиций на разных языках, используя аутентичные рейтинги новостных агентств.
featured image - Многоязычная грубая классификация СМИ по политической позиции: детали обучения
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.

Авторы:

(1) Кристина Испания-Бонет, DFKI GmbH, Кампус информатики Саара.

Таблица ссылок

F. Детали обучения

F.1 Классификатор Л/П

Мы настраиваем XLM-RoBERTa big (Conneau et al., 2020) для классификации L и R, как схематично показано на рисунке 1. Наш классификатор представляет собой небольшую сеть поверх RoBERTa, которая сначала выполняет отключение с вероятностью 0,1 для токена RoBERTa [CLS], за которым следует линейный слой и тан. Мы проходим через еще один выпадающий слой с вероятностью 0,1, и последний линейный слой проецируется на два класса. Вся архитектура настроена.


Рисунок 1: Точная настройка архитектуры.


Мы используем перекрестную энтропийную потерю, оптимизатор AdamW и скорость обучения, которая уменьшается линейно. Мы настраиваем размер пакета, скорость обучения, период прогрева и количество эпох. Наилучшие значения для каждого языка и модели приведены в таблице 12.


Таблица 12: Основные используемые гиперпараметры и их эффективность при трех одноязычных тонких настройках (en, de и, es) и многоязычном (en+de+es).


Все тренировки выполняются с использованием одного графического процессора NVIDIA Tesla V100 Volta с 32 ГБ памяти.

F.2 Тематическое моделирование

Мы используем Mallet (McCallum, 2002) для выполнения LDA в корпусе после удаления стоп-слов с активированной опцией оптимизации гиперпараметров и выполняемой каждые 10 итераций. Остальные параметры являются значениями по умолчанию. Мы проводим прогон для каждого языка с 10 темами и еще один прогон с 15 темами. Мы помечаем корпус обеими метками.