Auteur:
(1) Mohammad AL-Smad, Université du Qatar, Qatar et (e-mail : [email protected]).
Histoire de l'utilisation de l'IA dans l'éducation
L’histoire de l’utilisation de l’IA dans l’éducation remonte aux années 1960, avec le développement des premiers systèmes de tutorat intelligents. Ces systèmes ont été conçus pour fournir un enseignement personnalisé aux étudiants, adapté à leurs besoins individuels et à leurs styles d'apprentissage. Cependant, avant d’aborder l’évolution de l’utilisation de l’IA générative dans l’éducation, nous devons comprendre l’histoire et l’évolution des modèles d’IA générative.
2.1. L'histoire et l'évolution des modèles d'IA générative
Les modèles d'intelligence artificielle générative (IA), en particulier les modèles de langage (LLM), ont connu des progrès remarquables au fil des ans, transformant le paysage du traitement du langage naturel et un large éventail d'autres tâches créatives (Susarla et al., 2023). Dans cette section, nous approfondissons les racines historiques et la trajectoire évolutive de ces modèles, en mettant en évidence les étapes clés qui ont façonné leur développement.
• Les premiers jours de la modélisation linguistique : l'histoire du développement des LLM a commencé dans les années 1950 et 1960 avec l'émergence du traitement statistique du langage naturel (NLP). À leurs débuts, les modèles linguistiques utilisaient principalement des méthodologies statistiques pour estimer la probabilité d'un mot ou d'une séquence de mots donné dans un contexte linguistique. Les N-grammes et les séquences de n mots étaient des techniques fondamentales durant cette période (Russell & Norvig, 2010).
• Des N-grammes aux Word Embeddings : Un changement crucial des modèles basés sur les n-grammes vers l'utilisation des Word Embeddings a commencé à émerger au milieu des années 2000 avec l'introduction de l'algorithme « Word2Vec » par (Mikolov et al., 2013). ) en 2013. Cette approche innovante reposait sur l'utilisation de représentations vectorielles pour capturer le sens sémantique des mots. Cette percée a jeté les bases des développements ultérieurs en matière de modélisation du langage.
• Avancées dans les modèles d'apprentissage profond basés sur du texte (c'est-à-dire PNL séquence à séquence) : l'intégration de mots incorporés dans la modélisation du langage a inauguré une nouvelle ère. Ces représentations vectorielles ont servi d'entrée aux modèles d'apprentissage profond tels que les réseaux de neurones récurrents (RNN) et, plus tard, l'architecture codeur-décodeur. Ce changement a eu un impact profond sur la recherche en PNL, y compris sur le résumé de texte et la traduction automatique, comme le démontrent (Sutskever et al., 2014). La capacité de capturer le contexte sémantique via des représentations vectorielles a considérablement amélioré la qualité et la profondeur du contenu généré.
• La révolution de l'architecture Transformer : l'introduction de l'architecture Transformer par (Vaswani et al., 2017) en 2017 est considérée comme un tournant dans l'avancement de la recherche en PNL et en vision par ordinateur et en particulier dans la recherche sur la modélisation du langage. L'architecture du transformateur a représenté un changement de paradigme en PNL en introduisant un mécanisme d'auto-attention. Plusieurs modèles d'apprentissage profond ont été développés sur la base de l'architecture du transformateur tel que BERT (Devlin et al., 2018). Cette innovation a permis au modèle de capturer les dépendances à longue portée au sein des séquences, améliorant ainsi la cohérence et la contextualité du contenu généré. L'architecture Transformer a jeté les bases du développement ultérieur des LLM.
• L'émergence des LLM : ces dernières années, le domaine de l'IA a été témoin de la prolifération des grands modèles linguistiques (LLM). Ces modèles, également connus sous le terme de « modèles de base », sont formés sur des ensembles de données vastes et diversifiés comprenant des livres, des articles de presse, des pages Web et des publications sur les réseaux sociaux et réglés avec des milliards d'hyperparamètres (Bommasani et al., 2021). Cette ampleur de données sans précédent, associée aux progrès de l’architecture des modèles et des techniques de formation, a marqué un tournant important. Ces modèles de base font preuve d’une extraordinaire adaptabilité à un large éventail de tâches, y compris des tâches pour lesquelles ils n’ont pas été initialement formés. ChatGPT constitue un cas exemplaire de modèle d'IA générative en action. Ce système d'IA remarquable a été lancé en novembre 2022 et est affiné à partir du transformateur génératif pré-entraîné GPT-3.5, qui a été initialement formé sur un vaste ensemble de données de sources de texte et de code (Neelakantan et al., 2022). ChatGPT exploite la puissance de l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF), une technique qui s'est révélée extrêmement prometteuse dans l'alignement des grands modèles linguistiques (LLM) avec l'intention humaine (Christiano et al., 2017). Les performances étonnamment supérieures de ChatGPT soulignent le potentiel d’un changement de paradigme dans la formation de modèles d’IA génératifs. Ce changement implique l'adoption de techniques d'alignement des instructions, telles que l'apprentissage par renforcement (Christiano et al., 2017), l'ingénierie des invites (Brown et al., 2020) et les invites de chaîne de pensée (CoT) (Wei et al., 2022), comme une étape collective vers la réalisation de la construction d’un écosystème de services intelligents basé sur des modèles d’IA générative.
L’aboutissement de ces progrès a conduit à des modèles d’IA génératifs qui possèdent une capacité remarquable à comprendre et à générer un contenu multimédia réaliste et approprié (y compris du texte, des images, de l’audio et de la vidéo). De telles capacités ont permis à ces modèles d'être utilisés et largement adoptés dans différentes applications telles que l'éducation. Malgré ces progrès, des préoccupations et des défis sont apparus dans le paysage de l’IA générative (Susarla et al., 2023). La facilité avec laquelle des modèles comme ChatGPT peuvent être adaptés à de nouvelles tâches soulève des questions sur la profondeur de leur compréhension. Les experts en équité de l’IA ont mis en garde contre le risque que ces modèles perpétuent les préjugés sociétaux encodés dans leurs données de formation (Glaser, 2023), les qualifiant de « perroquets stochastiques » (Bender et al., 2021).
2.2. Évolution de l'utilisation de l'IA générative dans l'éducation
L'utilisation de l'IA dans l'éducation n'est pas nouvelle, les premières tentatives d'utilisation de l'IA dans l'éducation remontent au début des années 1960, lorsque des chercheurs de l'Université de l'Illinois à Urbana-Champaign ont développé un système de tutorat intelligent (ITS) appelé PLATO (Programmed Logic for Opérations d'enseignement automatiques) (Bitzer et al., 1961). PLATO a été le premier système informatique permettant aux étudiants dotés d’interfaces utilisateur graphiques d’interagir avec du matériel pédagogique développé et adapté à leurs besoins à l’aide de l’IA. Un autre exemple des premières tentatives d'utilisation de l'IA dans l'éducation est le système « Automatic Grader » qui a été développé dans les années 1960 pour noter automatiquement les classes de programmation (Hollingsworth, 1960).
L'avènement des ordinateurs personnels a accéléré le développement des ITS au cours des années 1970, un exemple de système développé au cours de cette période est le TICCIT (Télévision éducative interactive contrôlée par ordinateur en temps partagé) (Stetten, 1971). TICCIT était un autre des premiers STI développés au début des années 1970 à l'Université de Pittsburgh. TICCIT était l'une des premières tentatives visant à fournir en masse un contenu multimédia individualisé aux utilisateurs dans les foyers et les écoles.
Les progrès dans le développement des ITS dans les années 1960 et 1970 ont été soutenus par des théories et des principes d'apprentissage qui valorisent le tutorat individuel des étudiants dans les salles de classe (voir par exemple le travail pionnier de BF Skinner sur le « mouvement d'instruction programmé » et les travaux de Benjamin Bloom sur « l'apprentissage de maîtrise » (Block & Burns, 1976). Les STI développés au cours de cette période étaient principalement des systèmes basés sur des règles. Les progrès de l'IA et l'avènement des micro-ordinateurs dans les années 1970 ont influencé la manière dont les STI étaient formés. et développé (Reiser, 2001a) depuis les années 1980, le recours à l'enseignement par ordinateur et à l'enseignement basé sur l'IA en particulier a évolué pour automatiser plusieurs activités pédagogiques (Reiser, 2001b).
L'arrivée du World Wide Web (WWW) dans les années 1990 a entraîné un changement majeur dans le mode de fourniture des services éducatifs intelligents. Chen et al. (2020). Les STI ont évolué pour fournir des services d'apprentissage intelligents, adaptatifs et personnalisés soutenus par des modèles d'apprentissage automatique. Malgré ces progrès dans la manière dont les STI ont été développés et fournis aux utilisateurs, leurs capacités étaient limitées à la fourniture d'un enseignement et d'un apprentissage individualisés. L'évolution du WWW vers ce que l'on appelle le « Web 2.0 » et les capacités supplémentaires de collaboration et d'interaction sociale ont ouvert la voie à une nouvelle ère dans le développement des STI. Les données collectées basées sur l'interaction des utilisateurs avec les services Web 2.0 et la capacité de former des agents logiciels sur ces données à l'aide de différents algorithmes d'apprentissage automatique ont conduit à davantage de progrès dans l'application de l'analyse de l'apprentissage pour adapter et personnaliser l'apprentissage (Clow, 2013). .
Le 21e siècle a été témoin de plusieurs avancées dans l’utilisation de l’IA dans l’éducation. Ces avancées ont été soutenues par des progrès dans : (i) les capacités et performances du matériel (Nickolls & Dally, 2010), (ii) l'exploration de données massives (Wu et al., 2013), et (iii) les modèles et architectures d'IA (c'est-à-dire le avènement des modèles d’apprentissage profond) (LeCun et al., 2015). L’avènement de l’architecture d’apprentissage profond Transformer en 2017 (Vaswani et al., 2017) est considéré comme un tournant dans l’histoire du développement de logiciels intelligents en général (voir section 2.1). De nombreux modèles intelligents tels que les transformateurs génératifs pré-entraînés (GPT) ont commencé à apparaître juste après (Radford et al., 2018). En novembre 2022, OpenAI a publié ChatGPT – basé sur l'architecture GPT 3.5 – et a atteint plus de 100 millions d'utilisateurs en quelques mois seulement. Depuis lors et aujourd’hui, des outils pédagogiques génératifs basés sur l’IA sont développés pour offrir aux étudiants un enseignement personnalisé, un apprentissage adaptatif et des expériences d’apprentissage engageantes (voir section 4.2).
Cet article est disponible sur arxiv sous licence CC BY-NC-ND 4.0 DEED.