paint-brush
Classificação multilíngue da postura política grosseira da mídia: limitações e declaração de éticapor@mediabias
120 leituras

Classificação multilíngue da postura política grosseira da mídia: limitações e declaração de ética

Muito longo; Para ler

Neste artigo, os pesquisadores analisam a neutralidade dos artigos de notícias gerados por IA e a evolução da postura em vários idiomas, usando classificações autênticas de meios de comunicação.
featured image - Classificação multilíngue da postura política grosseira da mídia: limitações e declaração de ética
Tech Media Bias [Research Publication] HackerNoon profile picture
0-item

Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.

Autores:

(1) Cristina España-Bonet, DFKI GmbH, Campus de Informática do Sarre.

Tabela de Links

5.1 Limitações

Estamos assumindo que todas as fontes de mídia têm uma linha editorial e um preconceito associado , e tratamos a ILM como qualquer outra fonte de mídia. Não consideramos a possibilidade de um artigo do ChatGPT ou do Bard ser imparcial. Isto está relacionado com o método de supervisão à distância utilizado para recolher os dados que atualmente permitem uma anotação binária da posição política. Como não parece possível anotar manualmente centenas de milhares de artigos com preconceitos políticos num ambiente verdadeiramente multilingue num futuro próximo, decidimos implementar um método totalmente baseado em dados e estudar as suas capacidades de transferência de língua e cultura.


No entanto, utilizar a supervisão à distância para detectar a posição política ao nível do artigo é um tema delicado. Primeiro, porque um mesmo jornal pode mudar de ideologia ao longo do tempo. Em segundo lugar, e isto está mais relacionado com o conteúdo de um artigo individual, assuntos não controversos podem não ter preconceito. Mesmo nos casos em que existe preconceito, existe um espectro que vai da extrema esquerda à extrema direita, em vez de uma divisão clara entre as duas ideologias.


A fim de quantificar e, se possível, mitigar as limitações atuais, planejamos realizar uma análise estilística dos corpora anotados por humanos (Baly et al., 2020; Aksenov et al., 2021) e compará-los com nosso corpus anotado semiautomaticamente. . Como seguimento deste trabalho, realizaremos também uma análise estilística dos textos gerados pelo ILM, pois é necessário um estilo semelhante entre os dados de treinamento e esses textos para garantir boas capacidades de generalização e transferência.

5.2. Declaração de ética

Usamos modelos de linguagem generativa, ChatGPT e Bard, para criar nossos dados de teste. Como tratamos de diversos assuntos polêmicos (pena de morte, assédio sexual, drogas, etc.) a geração automática pode produzir textos nocivos. Os dados aqui apresentados não sofreram nenhuma revisão humana. Analisamos e disponibilizamos o corpus tal como foi gerado, juntamente com a indicação da versão dos sistemas utilizados.