paint-brush
Classificação Multilíngue da Posição Política Grosseira da Mídia: Classificação da Posição Políticaby@mediabias
208

Classificação Multilíngue da Posição Política Grosseira da Mídia: Classificação da Posição Política

Neste artigo, os pesquisadores analisam a neutralidade dos artigos de notícias gerados por IA e a evolução da postura em vários idiomas, usando classificações autênticas de meios de comunicação.
featured image - Classificação Multilíngue da Posição Política Grosseira da Mídia: Classificação da Posição Política
Media Bias [Deeply Researched Academic Papers] HackerNoon profile picture
0-item

Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.

Autores:

(1) Cristina España-Bonet, DFKI GmbH, Campus de Informática do Sarre.

Tabela de links

3. Classificação da postura política

A rede. ** Ajustamos o XLM-RoBERTa grande (Conneau et al., 2020), um LM mascarado baseado em transformador multilíngue ** treinado em 100 idiomas, incluindo os 4 que consideramos. Os detalhes da rede e a exploração de hiperparâmetros por modelo são relatados no Apêndice F.


Os modelos. Treinamos 4 modelos: 3 ajustes monolíngues com os dados em inglês, alemão e espanhol, mais um multilíngue com a concatenação embaralhada dos dados. Todos os modelos são baseados em embeddings multilíngues (RoBERTa) ajustados monolíngue ou multilíngue. Observe que não treinamos nenhum modelo para catalão. Com isso, queremos comparar o desempenho de ajustes finos mono e multilíngues e explorar a possibilidade de usar modelos multilíngues para transferência de linguagem zero-shot.


Classificação grosseira com artigos de jornais. A Tabela 2 resume os resultados. Todos os modelos alcançam mais de 95% de precisão no conjunto de validação que é extraído da mesma distribuição dos dados de treinamento. Para ver como os modelos se comportam com dados não vistos, calculamos a porcentagem de artigos classificados como Esquerda (L) e Direita (R) nos jornais de teste da Tabela 1. Realizamos reamostragem bootstrap dos conjuntos de teste com 1000 bootstraps para obter intervalos de confiança ao nível de 95%. Não esperamos que todos os artigos de um jornal inclinado para a esquerda apresentem características claras da esquerda, mas dado que não existe uma classe neutra, esperamos que a maioria deles seja classificada como de esquerda. Um bom resultado não é necessariamente 100%–0%, pois isso também não seria realista. Consideramos que um jornal foi classificado como tendo uma posição política de Esquerda/Direita se mais de 50% dos seus artigos foram classificados como tal. Esses casos estão em negrito na Tabela 2.


Este é o comportamento que obtemos para todos os jornais de teste, exceto para o jornal alemão de orientação direitista: die Preußische Allgemeine Zeitung (PAZ). O modelo alemão é treinado apenas em 12 jornais, em comparação com os 47 em inglês e os 38 em espanhol. A classificação incorreta pode ser uma indicação de que a diversidade é um aspecto fundamental para o desempenho final do modelo. O multilinguismo não ajuda e 65% dos artigos do PAZ ainda são classificados como orientados para a esquerda. Avaliamos também a eficácia do modelo inglês nos dados alemães, duas línguas próximas. Reconhecemos que os tópicos dos jornais dos EUA e da Alemanha podem diferir muito, mas a elevada diversidade dos dados de formação em inglês poderia potencialmente compensar isso. O modelo inglês é capaz de classificar corretamente o My Heimat alemão como um jornal de orientação à esquerda (L: 67±3%) e o PAZ como um jornal de orientação à direita (R: 58±5%). Atribuímos novamente a diferença ao modelo alemão ser treinado em um corpus sem diversidade. Quando utilizamos o sistema multilingue, o factor dominante que distingue os resultados é a própria língua e não a postura. A adição de dados em inglês é insuficiente para alterar significativamente a classificação. Quando utilizamos o sistema inglês, a língua não desempenha mais nenhum papel e apenas as características de postura são consideradas. Porém, quando aplicamos o modelo inglês aos jornais catalães, não obtemos resultados satisfatórios (95±1% para o jornal de esquerda, mas 16±3% para o jornal de direita), mostrando que a relação entre línguas é importante. O modelo multilingue, no entanto, detecta adequadamente a posição dos jornais catalães, provavelmente porque foi treinado com um corpus heterogéneo que inclui uma língua relacionada (espanhol). Somos capazes de realizar uma classificação de transferência de linguagem zero-shot quando lidamos com linguagens próximas.


Tabela 2: (topo) Precisão dos 4 modelos ajustados nos conjuntos de validação correspondentes. (parte inferior) Porcentagem de artigos classificados como tendo orientação Esquerda (L) e Direita (R) (colunas) para os jornais de teste e o Bard/ChatGPT gerou artigos em quatro períodos de tempo diferentes (linhas). A posição da maioria está em negrito.


Classificação grosseira com artigos gerados por ILM. A parte inferior da Tabela 2 detalha os resultados. Primeiro nos concentramos nos modelos inglês e espanhol, pois o alemão não classificou adequadamente os nossos jornais de teste. O aspecto mais relevante a notar no ChatGPT é a forte mudança de postura política entre Fevereiro (v02) e Maio (v05) seguida por um movimento em direcção à neutralidade em Agosto (v08). Verificamos que esta mudança de polaridade não é um efeito do comprimento dos resultados – a principal mudança superficial nos artigos gerados. Os dados de treinamento em inglês têm 5.730L – 6.988 artigos R com 584<comprimento (palavras)<624 (semelhante ao comprimento do ChatPGTv05) e 4.563 artigos L-7.127 R com 331<comprimento<371 (semelhante ao ChatGPtv02). Em ambos os casos o número de artigos é maior para as posições de Direita, mas a previsão para ChatGPTv02 aponta claramente para a Esquerda, rejeitando a hipótese de que o comprimento desempenha um papel na classificação. Algo semelhante acontece com o espanhol. Segundo os nossos modelos, a versão de 24 de Maio tem uma linha editorial próxima da ideologia de direita, que difere da ideologia das versões anteriores. Notavelmente, este período corresponde a queda em diversas tarefas segundo Chen et al. (2003). Os resultados alemães e catalães ainda mostrariam uma marca da ideologia de esquerda também na v05, mas seriam necessários dados de formação mais diversificados para confirmar isto com os nossos modelos monolingues. É interessante notar que se usarmos o modelo monolíngue inglês para o alemão e o catalão, ainda teremos a marca da esquerda (60±10% para o alemão e 87±7% para o catalão). Portanto, temos indícios de que a postura política do ChatGPT depende da linguagem, o que não é surpreendente num sistema baseado em dados. A última versão, ChatGPTv08, produz os textos mais neutros, com apenas o alemão claramente inclinado para a esquerda. As duas gerações, v08a e v08b, mostram que os resultados são robustos e não estão vinculados a uma geração específica.


Existe apenas uma versão disponível para Bardo multilíngue que cobre nosso período de tempo.[7] A variação entre gerações é maior para Bard do que para ChatGPT, mas, comparando as versões v08, Bard aponta para a esquerda de uma forma mais consistente entre os idiomas. A orientação política de Bard também pode ser determinada por suas respostas a testes políticos ou perguntas de quiz. O site Political Compass (PC)[8] define 62 proposições para identificar a ideologia política —com visão europeia/ocidental— em dois eixos: política econômica (Esquerda-Direita) e política social (Autoritária-Libertária), ambos na faixa [-10,10]. Cada proposição é seguida de 4 alternativas: concordo totalmente, concordo, discordo e discordo totalmente. Quando solicitado com o questionário,[9] as pontuações de Bard são (-6,50, -4,77) para inglês, (-8,00, -7,13) para alemão, (-5,75, -4,15) para espanhol e (-6,75, -4,56) para Catalão, onde o primeiro número corresponde à política económica e o segundo à política social. Os resultados estão de acordo com a Tabela 2 e fornecem uma validação indireta do nosso método que não depende de perguntas diretas.[10]


Este tipo de análise não é mais possível com o ChatGPT, pois ele se abstém de expressar opiniões e preferências, demonstrando a relevância de uma abordagem que detecte a tendência de forma mais indireta. Observe também que esses questionários são bem conhecidos e públicos, portanto seria fácil instruir um LM a evitar as perguntas ou reagir às suas proposições de maneira neutra. Trabalhos anteriores utilizaram apenas testes políticos e questionários para estimar a orientação do ChatGPT. Hartmann et al. (2023) usaram PC, 38 declarações políticas do aplicativo de aconselhamento de votação Wahl-O-Mat (Alemanha) e 30 de StemWijzer (Holanda) para concluir que a ideologia do ChatGPT em sua versão de 15 de dezembro de 2022 era pró-ambiental e libertária de esquerda .


Um estudo conduzido pelo Manhattan Institute for Policy Research[11] relatou que o ChatGPT tendia a dar respostas típicas dos pontos de vista políticos de centro-esquerda para o inglês (Rozado, 2023). Os autores aplicaram 15 testes de orientação política na versão ChatGPT de 9 de janeiro. Seus resultados são consistentes com nossa avaliação do modelo de 13 de fevereiro. Finalmente, Motoki et al. (2023) realizaram uma bateria de testes baseados em PC para mostrar que o ChatGPT é fortemente tendencioso para a esquerda. Os autores não indicam a versão que utilizam, mas o trabalho foi submetido em março de 2023. Todos estes resultados são, portanto, anteriores à mudança para a direita que detectámos em maio.




[7] Observe que a versão que usamos não suporta oficialmente o catalão, mas os falantes nativos confirmaram que as gerações são em sua maioria corretas e fluentes, com poucos erros gramaticais.


[8] https://www. Politicalcompass.org/test (acessado entre 13 e 20 de agosto de 2023)


[9] O questionário espanhol foi traduzido para o catalão, pois não estava disponível.


[10] Ainda que, à semelhança das pessoas, seja possível a um ILM dizer uma coisa (escolher uma opção para uma proposição) e agir (escrever um texto) de forma inconsistente.


[11] Um think tank conservador de acordo com a Wikipedia.