Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.
Autores:
(1) Cristina España-Bonet, DFKI GmbH, Campus de Informática del Sarre.
La Red. **Ajustamos XLM-RoBERTa grande (Conneau et al., 2020), un LM enmascarado multilingüe basado en transformador** entrenado en 100 idiomas, incluidos los 4 que consideramos. Los detalles de la red y la exploración de hiperparámetros por modelo se informan en el Apéndice F.
Los modelos. Entrenamos 4 modelos: 3 ajustes monolingües con los datos en inglés, alemán y español, más uno multilingüe con la concatenación aleatoria de los datos. Todos los modelos se basan en incrustaciones multilingües (RoBERTa) ajustadas de forma monolingüe o multilingüe. Tenga en cuenta que no entrenamos ningún modelo para catalán. Con esto, queremos comparar el rendimiento de los ajustes finos monolingües y multilingües y explorar la posibilidad de utilizar modelos multilingües para la transferencia de idiomas sin problemas.
Clasificación burda con artículos periodísticos. La Tabla 2 resume los resultados. Todos los modelos logran más del 95% de precisión en el conjunto de validación que se extrae de la misma distribución que los datos de entrenamiento. Para ver cómo se comportan los modelos con datos no vistos, calculamos el porcentaje de artículos que se clasifican como Izquierda (L) y Derecha (R) en los periódicos de prueba de la Tabla 1. Realizamos un remuestreo de arranque de los conjuntos de prueba con 1000 arranques. para obtener intervalos de confianza al nivel del 95%. No esperamos que todos los artículos de un periódico inclinado hacia la izquierda muestren características claras de la izquierda, pero dado que no existe una clase neutral, esperamos que la mayoría de ellos sean clasificados como izquierda. Un buen resultado no es necesariamente 100%-0%, ya que tampoco sería realista. Consideramos que un periódico ha sido clasificado como de postura política de izquierda/derecha si más del 50% de sus artículos han sido clasificados como tales. Estos casos están en negrita en la Tabla 2.
Este es el comportamiento que obtuvimos para todos los periódicos de prueba excepto para el periódico alemán de derecha: die Preußische Allgemeine Zeitung (PAZ). El modelo alemán se entrena sólo en 12 periódicos para compararlos con los 47 en inglés y los 38 en español. La clasificación incorrecta podría ser una indicación de que la diversidad es un aspecto clave para el desempeño final del modelo. El multilingüismo no ayuda y el 65% de los artículos de PAZ todavía se clasifican como de izquierda. También evaluamos la eficacia del modelo inglés sobre los datos alemanes, dos lenguas cercanas. Reconocemos que los temas de los periódicos estadounidenses y alemanes pueden diferir mucho, pero la gran diversidad de los datos sobre formación en inglés podría compensar esto. El modelo inglés es capaz de clasificar correctamente el periódico alemán My Heimat como periódico de izquierda (L: 67±3%) y PAZ como periódico de derecha (R: 58±5%). Nuevamente atribuimos la diferencia a que el modelo alemán se entrenó en un corpus que carecía de diversidad. Cuando utilizamos el sistema multilingüe, el factor dominante que distingue los resultados es el idioma mismo más que la postura. La adición de datos en inglés es insuficiente para alterar significativamente la clasificación. Cuando utilizamos el sistema inglés, el idioma ya no juega ningún papel y sólo se consideran las características de la postura. Sin embargo, cuando aplicamos el modelo inglés a los periódicos catalanes no obtenemos resultados satisfactorios (95±1% para los periódicos de izquierda pero 16±3% para los de derechas), lo que demuestra que la relación entre lenguas es importante. El modelo multilingüe sin embargo detecta adecuadamente la postura de los periódicos catalanes probablemente porque ha sido entrenado con un corpus heterogéneo que incluye una lengua afín (el español). Somos capaces de realizar una clasificación de transferencia de lenguaje cero cuando tratamos con lenguajes estrechamente relacionados.
Clasificación aproximada con artículos generados por ILM. La parte inferior de la Tabla 2 detalla los resultados. Primero nos centramos en los modelos inglés y español, ya que el alemán no clasificó adecuadamente nuestros periódicos de prueba. El aspecto más relevante a notar en ChatGPT es el fuerte cambio de postura política entre febrero (v02) y mayo (v05), seguido de un movimiento hacia la neutralidad en agosto (v08). Comprobamos que este cambio de polaridad no es un efecto de la longitud de las salidas, el mayor cambio superficial en los artículos generados. Los datos de entrenamiento en inglés tienen 5730L–6988 artículos R con 584<longitud (palabras)<624 (similar a la longitud de ChatPGTv05) y 4563 L-7127 artículos R con 331<longitud<371 (similar a ChatGPtv02). En ambos casos el número de artículos es mayor para las posturas de derecha, pero la predicción para ChatGPTv02 apunta claramente hacia la izquierda, rechazando la hipótesis de que la longitud juega un papel en la clasificación. Con el español pasa algo parecido. Según nuestros modelos, la versión del 24 de mayo tiene una línea editorial cercana a la ideología de derecha, que difiere de la ideología de las versiones anteriores. En particular, este período corresponde a una caída en varias tareas según Chen et al. (2003). Las producciones alemana y catalana todavía mostrarían una huella de la ideología de izquierda también en la v05, pero se necesitarían datos de entrenamiento más diversos para confirmar esto con nuestros modelos monolingües. Es interesante observar que si utilizamos el modelo monolingüe inglés para el alemán y el catalán, todavía tenemos la huella de izquierda (60±10% para el alemán y 87±7% para el catalán). Entonces tenemos indicios de que la postura política de ChatGPT depende del idioma, lo cual no es sorprendente en un sistema basado en datos. La última versión, ChatGPTv08, produce los textos más neutrales, y sólo el alemán se inclina claramente hacia la izquierda. Las dos generaciones, v08a y v08b, muestran que los resultados son sólidos y no están vinculados a una generación en particular.
Solo hay una versión disponible para Bard multilingüe que cubre nuestro período de tiempo.[7] La variación entre generaciones es mayor para Bard que para ChatGPT pero, al comparar las versiones v08, Bard apunta hacia la izquierda de una manera más consistente en todos los idiomas. La orientación política de Bard también puede determinarse por sus respuestas a exámenes políticos o preguntas de cuestionarios. El sitio Political Compass (PC)[8] define 62 proposiciones para identificar la ideología política —con una visión europea/occidental— en dos ejes: política económica (Izquierda-Derecha) y política social (Autoritario-Libertario), ambos en el rango [-10,10]. Cada proposición va seguida de 4 alternativas: totalmente de acuerdo, de acuerdo, en desacuerdo y totalmente en desacuerdo. Cuando se le solicita el cuestionario,[9] las puntuaciones de Bard son (-6,50, -4,77) para inglés, (-8,00, -7,13) para alemán, (-5,75, -4,15) para español y (-6,75, -4,56) para catalán, donde el primer número corresponde a la política económica y el segundo a la política social. Los resultados concuerdan con la Tabla 2 y dan una validación indirecta de nuestro método que no se basa en preguntas directas.[10]
Este tipo de análisis ya no es posible con ChatGPT, ya que se abstiene de expresar opiniones y preferencias, lo que demuestra la relevancia de un enfoque que detecta la inclinación de una manera más indirecta. Tenga en cuenta también que estos cuestionarios son bien conocidos y públicos, por lo que sería fácil instruir a un LM para que evite las preguntas o reaccione a sus proposiciones de manera neutral. Trabajos anteriores utilizaron solo pruebas y cuestionarios políticos para estimar la orientación de ChatGPT. Hartman et al. (2023) utilizaron PC, 38 declaraciones políticas de la aplicación de asesoramiento electoral Wahl-O-Mat (Alemania) y 30 de StemWijzer (Países Bajos) para concluir que la ideología de ChatGPT en su versión del 15 de diciembre de 2022 era proambiental y libertaria de izquierda. .
Un estudio realizado por el Manhattan Institute for Policy Research[11] informó que ChatGPT tendía a dar respuestas típicas de puntos de vista políticos de centro izquierda en inglés (Rozado, 2023). Los autores administraron 15 pruebas de orientación política a la versión ChatGPT del 9 de enero. Sus resultados son consistentes con nuestra evaluación del modelo del 13 de febrero. Finalmente, Motoki et al. (2023) realizaron una batería de pruebas basadas en PC para demostrar que ChatGPT está fuertemente sesgado hacia la izquierda. Los autores no indican la versión que utilizan, pero el trabajo fue presentado en marzo de 2023. Todos estos resultados son, por tanto, anteriores al giro a la derecha que detectamos en mayo.
[7] Tenga en cuenta que la versión que utilizamos no es compatible oficialmente con el catalán, pero los hablantes nativos confirmaron que las generaciones son en su mayoría correctas y fluidas, con pocos errores gramaticales.
[8] https://www.politicalcompass.org/test (consultado entre el 13 y el 20 de agosto de 2023)
[9] El cuestionario español fue traducido al catalán, ya que no estaba disponible.
[10] Aunque, al igual que las personas, es posible que un ILM diga una cosa (elija una opción para una proposición) y actúe (escriba un texto) de manera inconsistente.
[11] Un grupo de expertos conservador según Wikipedia.