Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.
Авторы:
(1) Кристина Испания-Бонет, DFKI GmbH, Кампус информатики Саара.
Мы предполагаем, что все средства массовой информации имеют редакционную линию и связанную с ней предвзятость , и рассматриваем ILM как любой другой источник средств массовой информации. Мы не считаем, что статья ChatGPT или Bard может быть беспристрастной. Это связано с методом дистанционного наблюдения, используемым для сбора данных, который в настоящее время позволяет проводить бинарную политическую аннотацию. Поскольку аннотирование вручную сотен тысяч статей с политическим уклоном в действительно многоязычной среде кажется невозможным в обозримом будущем, мы решили реализовать метод, полностью основанный на данных, и изучить его возможности передачи языка и культуры.
Однако использование дистанционного контроля для выявления политической позиции на уровне статьи – деликатная тема. Во-первых, потому что одна и та же газета со временем может менять идеологию. Во-вторых, и это больше относится к содержанию отдельной статьи, неспорные темы могут не иметь предвзятости. Даже в тех случаях, когда существует предвзятость, существует спектр от крайне левых до крайне правых, а не четкое разделение между двумя идеологиями.
Чтобы количественно оценить и, если возможно, смягчить текущие ограничения, мы планируем провести стилистический анализ аннотированных человеком корпусов (Baly et al., 2020; Aksenov et al., 2021) и сравнить его с нашим полуавтоматически аннотированным корпусом. . В продолжение этой работы мы также проведем стилистический анализ текстов, сгенерированных ILM, поскольку аналогичный стиль между обучающими данными и этими текстами необходим для обеспечения хороших возможностей обобщения и передачи.
Для создания тестовых данных мы используем генеративные языковые модели ChatGPT и Bard. Поскольку мы имеем дело с несколькими спорными темами (смертная казнь, сексуальные домогательства, наркотики и т. д.), автоматическая генерация может создать вредоносный текст. Представленные здесь данные не подвергались никакой человеческой проверке. Мы анализируем и предоставляем корпус в том виде, в котором он был создан, с указанием используемой версии системы.