Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.
Autores:
(1) Cristina España-Bonet, DFKI GmbH, Campus de Informática do Sarre.
Abordamos a nossa tarefa como um problema de classificação com duas classes: orientações políticas de esquerda (L) e de direita (R). Isto é uma simplificação do problema real, onde os artigos também podem ser neutros e pode haver diferentes graus de preconceitos. Trabalhos anteriores contavam com 3 ou 5 aulas, incluindo sempre a opção neutra (Baly et al., 2020; Aksenov et al., 2021). Nestes trabalhos, os dados foram anotados manualmente, criando dados de formação de alta qualidade, mas também limitando muito o âmbito do trabalho em termos de línguas e países abrangidos. Ao utilizar a escala de classificação refinada, os autores reconhecem uma má generalização dos classificadores para novas fontes. Por outro lado, García-Díaz et al. (2022) e Russo et al. (2023) excluem a classe neutra e trabalham com classificações esquerda-direita binárias ou multiclasses de tweets de políticos espanhóis e italianos, respetivamente, mas o seu trabalho não inclui textos mais longos. A classificação binária pode ser justificada por trabalharem com tweets, um gênero onde as pessoas tendem a ser mais viscerais e, portanto, provavelmente mais polarizadas. No nosso caso, precisamos ter certeza de que o classificador generaliza bem para fontes invisíveis e nos apegamos à tarefa de 2 classes enquanto minimizamos o número de artigos neutros em treinamento (veja abaixo).
Supervisão à distância. Tanto quanto sabemos, apenas estão disponíveis um corpus de jornal anotado manualmente em inglês (Baly et al., 2020) e outro em alemão (Aksenov et al., 2021). Seguimos uma abordagem diferente no espírito de Kulkarni et al. (2018) e Kiesel et al. (2019). Não anotamos manualmente nenhum artigo, mas confiamos em AllSides, MB/FC, Political Watch e Wikipedia (esta última apenas nos casos em que a informação não está disponível nos sites anteriores) com a sua classificação de viés jornalístico. Extraímos esta informação para jornais dos EUA, Alemanha, Espanha e Catalunha. Com a lista de jornais, sua URL[4] e seu posicionamento, utilizamos OSCAR, um corpus multilíngue obtido pela filtragem do Common Crawl (Ortiz Suárez et al., 2019; Abadji et al., 2021), para recuperar os artigos . O Apêndice A lista as fontes utilizadas neste trabalho: 47 jornais norte-americanos com 742.691 artigos, 12 alemães com 143.200, 38 espanhóis com 301.825 e 19 catalães com 70.496.
Modelagem de tópicos. Nem todos os artigos têm preconceitos, alguns tópicos são mais propensos do que outros. Embora a secção de Desporto de um jornal seja normalmente menos propensa a reflectir preconceitos políticos, o oposto acontece com a secção Internacional. Portanto, usamos tópicos para selecionar um subconjunto de dados de treinamento relevantes para nossa classificação binária. Fazemos modelagem de tópicos nos artigos extraídos do OSCAR usando Mallet (McCallum, 2002) que aplica LDA com amostragem de Gibbs. Agrupamos os dados em 10 e 15 grupos por idioma, correspondendo aproximadamente ao número de seções de um jornal. As palavras-chave extraídas para cada tópico estão listadas no Apêndice B. Escolhemos artigos que se enquadram nos tópicos que rotulamos como Internacional, Governo, Direito e Justiça, Economia, Ciência Viva/Ecologia e tópicos específicos dependentes de idioma, como Imigração e Violência para Inglês, Nazismo para Alemão e Social para Espanhol. A seleção é feita após a inspeção das palavras-chave. Para o conjunto de dados final, fazemos a união dos artigos selecionados agrupados em 10 e 15 tópicos. O processo filtra 49% dos artigos espanhóis, 39% dos alemães e 31% dos ingleses.
Pré-processamento e limpeza. Descartamos artigos com mais de 2.000 ou menos de 20 palavras antes da limpeza. Depois, removemos cabeçalhos, rodapés e qualquer texto padronizado detectado. Este texto tem o potencial de enganar um classificador neural, pois pode encorajar o classificador a aprender a distinguir entre jornais em vez de se concentrar na sua posição política. Selecionamos um jornal por idioma e postura para testar e limpar manualmente seus artigos. Para criar um corpus de treinamento equilibrado para cada idioma, selecionamos aleatoriamente um número semelhante de artigos orientados para a esquerda e para a direita da coleção restante. Este conjunto de dados balanceado é dividido em treinamento e validação conforme mostrado na Tabela 1 (linhas superiores).
ChatGPT/Bard Corpus. Criamos um conjunto de dados multilíngue com 101 artigos. Para isso, definimos 101 assuntos incluindo preços de habitação, aborto, tabaco, Barak Obama, etc. e os traduzimos manualmente para os 4 idiomas (ver Apêndice D). Os sujeitos consideram temas propensos a ter uma postura política, como aqueles relacionados ao feminismo, capitalismo, ecologismo, tecnologia, etc. Incluímos também nomes próprios de pessoas nos 4 países considerados, cuja biografia pode diferir dependendo da postura política do escritor. Esses assuntos são inseridos no prompt do modelo (e suas traduções para alemão, espanhol e catalão):[5] Escreva um artigo de jornal sobre [ASSUNTO]en
Solicitamos o ChatGPT (GPT-3.5-Turbo) cinco vezes usando os mesmos assuntos em quatro períodos de tempo. Geramos o conjunto de dados com as versões ChatGPT de 13 de fevereiro (v02), 23 de março (v03), 24 de maio (v05) e 3 de agosto (v08); cobrimos os 4 idiomas simultaneamente apenas com os dois últimos. ChatGPTv05 gera textos significativamente mais longos que os demais com estrutura orientada a artigos com espaços a serem preenchidos com nome do autor, data e/ou cidade. O Multilingual Bard ficou disponível posteriormente e nós o solicitamos duas vezes durante o mesmo período do ChatGPTv8.[6] A Tabela 1 apresenta as estatísticas deste corpus.
[4] Isso implica selecionar todos os artigos que estão sob o nome de domínio de um meio de comunicação, sejam eles notícias ou não.
[5] Prompts mais específicos não levaram a estilos diferentes para as primeiras versões do ChatGPT, para a última adicionamos mais informações como ...sem subcabeçalhos. para evitar subseções e/ou marcadores excessivos. Nem ChatGPT nem Bard sempre seguiram corretamente as instruções. O conjunto de dados que fornecemos inclui os prompts que usamos.
[6] Solicitado de 14 a 21 de agosto de 2023 de Berlim para inglês e alemão e de Barcelona para espanhol e catalão, pois, ao contrário do ChatGPT, a geração depende da localização.