Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.
Auteurs:
(1) Cristina España-Bonet, DFKI GmbH, Campus informatique de la Sarre.
L'auteur remercie les évaluateurs anonymes pour leurs commentaires et discussions perspicaces. Eran fait des si.
Julien Abadji, Pedro Javier Ortiz Suárez, Laurent Romary et Benoît Sagot. 2021. Ungoliant : Un pipeline optimisé pour la génération d'un corpus web multilingue à très grande échelle. Actes de l'atelier sur les défis liés à la gestion des grands corpus (CMLC-9) 2021. Limerick, 12 juillet 2021 (événement en ligne), pages 1 à 9, Mannheim. LeibnizInstitut für Deutsche Sprache.
Dmitrii Aksenov, Peter Bourgonje, Karolina Zaczynska, Malte Ostendorff, Julian Moreno-Schneider et Georg Rehm. 2021. Classification fine des préjugés politiques dans l'actualité allemande : un ensemble de données et des premières expériences. Dans Actes du 5e atelier sur les abus et les préjudices en ligne (WOAH 2021), pages 121-131, en ligne. Association pour la linguistique computationnelle.
Ramy Baly, Giovanni Da San Martino, James Glass et Preslav Nakov. 2020. Nous pouvons détecter votre parti pris : prédire l'idéologie politique des articles de presse. Dans Actes de la conférence 2020 sur les méthodes empiriques dans le traitement du langage naturel (EMNLP), pages 4982-4991, en ligne. Association pour la linguistique computationnelle.
Micah Carroll, Alan Chan, Henry Ashton et David Krueger. 2023. Caractérisation de la manipulation des systèmes d'IA. Préimpression arXiv arXiv:2303.09387.
Lingjiao Chen, Matei Zaharia et James Zou. 2023. Comment le comportement de ChatGPT évolue-t-il au fil du temps ? Préimpression arXiv arXiv :2307.09009.
Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer et Veselin Stoyanov. 2020. Apprentissage de la représentation multilingue non supervisé à grande échelle. Dans Actes de la 58e réunion annuelle de l'Association for Computational Linguistics, pages 8440-8451, en ligne. Association pour la linguistique computationnelle.
Ameet Deshpande, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan et Karthik Narasimhan. 2023. Toxicité dans ChatGPT : analyse des modèles linguistiques attribués à la personne. Préimpression arXiv arXiv:2304.05335.
Cristina España-Bonet. 2023. Classification multilingue grossière des positions politiques des médias. La ligne éditoriale d'un journal ChatGPT et Bard. Ensemble de données sur Zenodo, v1.0.
José Antonio García-Díaz, Ricardo Colomo-Palacios et Rafael Valencia-García. 2022. Identification des traits psychographiques basée sur l'idéologie politique : une étude d'analyse d'auteur sur les tweets de politiciens espagnols publiés en 2020. Future Gener. Calculer. Syst., 130(C):59-74.
Xinyang Geng, Arnav Gudibande, Hao Liu, Eric Wallace, Pieter Abbeel, Sergey Levine et Dawn Song. 2023. Koala : Un modèle de dialogue pour la recherche universitaire. Article de blog.
Google. 2023. Bard [Grand modèle de langage suivant les instructions].
Jochen Hartmann, Jasper Schwenzow et Maximilian Witte. 2023. L'idéologie politique de l'IA conversationnelle : preuves convergentes sur l'orientation proenvironnementale et libertaire de gauche de ChatGPT. Préimpression arXiv arXiv:2301.01768.
Xiaowei Huang, Wenjie Ruan, Wei Huang, Gaojie Jin, Yi Dong, Changshun Wu, Saddek Bensalem, Ronghui Mu, Yi Qi, Xingyu Zhao et al. 2023. Une enquête sur la sécurité et la fiabilité des grands modèles linguistiques à travers le prisme de la vérification et de la validation. Préimpression arXiv arXiv:2305.11391.
Maurice Jakesch, Advait Bhat, Daniel Buschek, Lior Zalmanson et Mor Naaman. 2023. La co-écriture avec des modèles linguistiques opiniâtres affecte les points de vue des utilisateurs. Dans Actes de la conférence CHI 2023 sur les facteurs humains dans les systèmes informatiques, pages 1 à 15, New York, NY, États-Unis. Association pour les machines informatiques.
Johannes Kiesel, Maria Mestre, Rishabh Shukla, Emmanuel Vincent, Payam Adineh, David Corney, Benno Stein et Martin Potthast. 2019. Tâche 4 de SemEval2019 : Détection d'actualités hyperpartisanes. Dans Actes du 13e atelier international sur l'évaluation sémantique, pages 829-839, Minneapolis, Minnesota, États-Unis. Association pour la linguistique computationnelle.
Vivek Kulkarni, Junting Ye, Steve Skiena et William Yang Wang. 2018. Modèles multi-vues pour la détection d'idéologie politique des articles de presse. Dans Actes de la conférence 2018 sur les méthodes empiriques dans le traitement du langage naturel, pages 3518-3527, Bruxelles, Belgique. Association pour la linguistique computationnelle.
Andrew Kachites McCallum. 2002. MALET : Une boîte à outils d'apprentissage automatique pour les langues. http://mallet.cs.umass.edu.
Fabio Motoki, Valdemar Pinho Neto et Victor Rodrigues. 2023. Plus humain qu'humain : mesurer les préjugés politiques de ChatGPT. Choix public.
Niklas Muennighoff, Thomas Wang, Lintang Sutawika, Adam Roberts, Stella Biderman, Teven Le Scao, M Saiful Bari, Sheng Shen, Zheng Xin Yong, Hailey Schoelkopf, Xiangru Tang, Dragomir Radev, Alham Fikri Aji, Khalid Almubarak, Samuel Albanie, Zaid Alyafeai, Albert Webson, Edward Raff et Colin Raffel. 2023. Généralisation multilingue grâce à un réglage fin multitâche. Dans Actes de la 61e réunion annuelle de l'Association for Computational Linguistics (Volume 1 : Long Papers), pages 15991-16111, Toronto, Canada. Association pour la linguistique computationnelle.
Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders et al. 2021. WebGPT : réponse aux questions assistée par navigateur avec commentaires humains. Préimpression arXiv arXiv:2112.09332.
Roberto Navigli, Simone Conia et Björn Ross. 2023. Biais dans les grands modèles linguistiques : origines, inventaire et discussion. J. Qualité des données et de l'information, 15(2).
OpenAI. 2023. ChatGPT [grand modèle de langage suivant les instructions].
Pedro Javier Ortiz Suárez, Benoît Sagot et Laurent Romary. 2019. Pipelines asynchrones pour le traitement d'énormes corpus sur des infrastructures à ressources moyennes à faibles. Actes de l'atelier sur les défis liés à la gestion des grands corpus (CMLC-7) 2019. Cardiff, 22 juillet 2019, pages 9 à 16, Mannheim. Leibniz-Institut für Deutsche Sprache.
Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder , Paul F. Christiano, Jan Leike et Ryan Lowe. 2022. Formation de modèles linguistiques pour suivre les instructions avec des commentaires humains. Dans Advances in Neural Information Processing Systems, volume 35, pages 27730-27744. Curran Associés, Inc.
David Rozado. 2023. Danger dans la machine : les périls des préjugés politiques et démographiques intégrés dans le système d'IA. Institut Manhattan, dossier thématique, pages 1 à 16.
Daniel Russo, Salud María Jiménez-Zafra, José Antonio García-Díaz, Tommaso Caselli, L. Alfonso UreñaLópez et Rafael Valencia-García. 2023. PoliticIT à EVALITA 2023 : Aperçu de la tâche de détection de l'idéologie politique dans les textes italiens. Dans la huitième campagne d'évaluation du traitement du langage naturel et des outils vocaux pour l'italien 2023, numéro 3473 dans les actes de l'atelier CEUR, Aix-la-Chapelle.
Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang et Tatsunori B. Hashimoto. 2023. Stanford Alpaca : Un modèle LLaMA suivant les instructions. https://github.com/tatsu-lab/stanford_alpaca.
Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura , Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang , Aurélien Rodriguez, Robert Stojnic, Sergey Edunov et Thomas Scialom. 2023. Llama 2 : fondation ouverte et modèles de discussion affinés. Préimpression arXiv arXiv :2307.09288.
Eva AM van Dis, Johan Bollen, Willem Zuidema, Robert van Rooij et Claudi L. Bockting. 2023. ChatGPT : cinq priorités de recherche. Nature, 614(7947):224-226.
Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer et al. 2023a. DecodingTrust : une évaluation complète de la fiabilité des modèles GPT. Préimpression arXiv arXiv:2306.11698.
Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi et Hannaneh Hajishirzi. 2023b. Auto-instruction : aligner les modèles de langage avec des instructions auto-générées. Dans Actes de la 61e réunion annuelle de l'Association for Computational Linguistics (Volume 1 : Long Papers), pages 13484-13508, Toronto, Canada. Association pour la linguistique computationnelle.
Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Atharva Naik, Arjun Ashok, Arut Selvan Dhanasekaran, Anjana Arunkumar, David Stap, Eshaan Pathak, Giannis Karamanolakis, Haizhi Lai, Ishan Purohit, Ishani Mondal, Jacob Anderson, Kirby Kuznia, Krima Doshi, Kuntal Kumar Pal, Maitreya Patel, Mehrad Moradshahi, Mihir Parmar, Mirali Purohit, Neeraj Varshney, Phani Rohitha Kaza, Pulkit Verma, Ravsehaj Singh Puri, Rushang Karia, Savan Doshi, Shailaja Keyur Sampat, Siddhartha Mishra, Sujan Reddy A, Sumanta Patro, Tanay Dixit et Xudong Shen. 2022. Super-NaturalInstructions : Généralisation via des instructions déclaratives sur plus de 1600 tâches PNL. Dans Actes de la conférence 2022 sur les méthodes empiriques dans le traitement du langage naturel, pages 5085-5109, Abu Dhabi, Émirats arabes unis. Association pour la linguistique computationnelle.
Jason Wei, Maarten Bosma, Vincent Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai et Quoc V Le. 2022. Les modèles linguistiques affinés sont des apprenants zéro-shot. Dans Conférence internationale sur les représentations de l'apprentissage.