paint-brush
État du LLM en 2023 : un récapitulatif rapide des dernières avancéespar@vndee
585 lectures
585 lectures

État du LLM en 2023 : un récapitulatif rapide des dernières avancées

par Duy Huynh8m2024/01/26
Read on Terminal Reader

Trop long; Pour lire

L'année 2023 a marqué une période de croissance et d'innovation significatives dans le domaine des grands modèles linguistiques (LLM).
featured image - État du LLM en 2023 : un récapitulatif rapide des dernières avancées
Duy Huynh HackerNoon profile picture
0-item

D'accord, cela fait plus d'un an depuis la sortie de ChatGPT. Avant ce tournant, la communauté des chercheurs et les leaders de l’industrie travaillaient déjà activement sur l’IA générative, en particulier dans le domaine de la vision par ordinateur, avec une série de résultats et d’applications à diffusion stable. Pour résumer brièvement, 2022 pourrait être considérée comme l’année de la diffusion stable, et 2023 comme l’année des grands modèles linguistiques (LLM).


Un gang de lamas est arrivé en ville - Image de DALL-E 3.


Le début de 2023 a marqué la domination des LLM, avec ChatGPT menant la charge en matière d'adoption et d'innovation généralisées. Cette année, les LLM sont devenus omniprésents dans divers secteurs, comblant efficacement le fossé entre la recherche théorique et les applications pratiques de l'industrie. Explorons les étapes et tendances clés qui ont façonné le paysage LLM en 2023, et voyons également comment ils ont révolutionné notre interaction avec la technologie.

Année de LLM Open Source

En 2023, nous avons assisté à une année remarquable pour les grands modèles de langage (LLM) open source. La version la plus importante a été la série LLaMa de Meta, créant un précédent pour des sorties fréquentes par la suite, avec de nouveaux modèles émergeant chaque mois, semaine et parfois quotidiennement. Des acteurs clés tels que Meta, EleutherAI, MosaicML, TIIUAE et StabilityAI ont introduit une variété de modèles formés sur des ensembles de données publics, répondant aux divers besoins de la communauté de l'IA. La majorité de ces modèles étaient des transformateurs à décodeur uniquement, poursuivant la tendance établie par ChatGPT. Voici quelques-uns des modèles les plus remarquables sortis cette année :

  • LLaMa par Meta : La famille LLaMa comprend des modèles de différentes tailles, le plus grand modèle comportant 65 milliards de paramètres, formés sur 1,4 billion de jetons. Notamment, les modèles plus petits, en particulier celui comportant 13 milliards de paramètres, formés sur 1 000 milliards de jetons, ont démontré des performances supérieures en tirant parti de périodes de formation prolongées sur davantage de données, surpassant même les modèles plus grands dans certains benchmarks. Le modèle 13B LLaMa a surpassé le GPT-3 dans la plupart des tests, et le plus grand modèle a établi de nouveaux tests de performance de pointe dès sa sortie.

  • Pythie par Eleuther AI : Pythia comprend une suite de 16 modèles avec 154 points de contrôle partiellement formés, conçus pour faciliter la recherche scientifique contrôlée sur des LLM ouvertement accessibles et formés de manière transparente. Cette série aide grandement les chercheurs en fournissant des articles détaillés et une base de code complète pour la formation des LLM.

  • MPT par MosaicML et Série Falcon par TIIUAE : Tous deux ont été formés sur une gamme variée de sources de données, allant des jetons 1T à 1,5T, et ont produit des versions avec des paramètres 7B et 30B. Notamment, plus tard dans l'année, TIIUAE a publié un modèle 180B, le plus grand modèle open source à ce jour.

  • Mistral , Phi et Orque : Ces modèles mettent en évidence une autre tendance en 2023, axée sur la formation de modèles plus petits et plus efficaces, adaptés à des contraintes matérielles et budgétaires limitées, marquant un changement significatif vers l'accessibilité et la praticité dans le développement de modèles d'IA.


Llama 2 est pré-entraîné à l'aide de données en ligne accessibles au public. Une première version de Llama Chat est ensuite créée grâce à des réglages fins supervisés. Ensuite, Llama Chat est affiné de manière itérative à l'aide de l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF), qui comprend l'échantillonnage de rejet et l'optimisation des politiques proximales (PPO). - Llama 2 : open source, gratuit pour la recherche et l'utilisation commerciale

Modèle petit et efficace

En 2023, on a également assisté à la sortie de nombreux modèles petits et efficaces. La principale raison de cette tendance est le coût prohibitif de la formation de grands modèles pour la plupart des groupes de recherche. De plus, les grands modèles sont souvent inadaptés à de nombreuses applications du monde réel en raison de leurs coûts élevés de formation et de déploiement, ainsi que de leurs besoins importants en matière de mémoire et de puissance de calcul. C’est pourquoi les modèles petits et efficaces sont devenus l’une des principales tendances de l’année. Comme mentionné précédemment, les séries Mistral et Orca ont été des acteurs clés de cette tendance. Mistral a surpris la communauté avec un modèle 7B qui a surpassé ses homologues plus grands dans la plupart des benchmarks, tandis que la série Phi est encore plus petite, avec seulement 1,3B à 2,7B de paramètres, mais elle offre des performances impressionnantes.

Performances du Mistral-7b sur la série LLaMA - https://mistral.ai/news/announcing-mistral-7b/


Une autre approche innovante est Orca 2 : Enseigner à de petits modèles de langage comment raisonner , qui consiste à distiller les connaissances d’un modèle plus vaste, tel que GPT-4, vers un modèle plus petit. Contrairement aux études précédentes qui reposaient principalement sur l'apprentissage par imitation pour reproduire les résultats de modèles plus grands, Orca 2 vise à équiper les LLM « plus petits », en particulier ceux dotés de paramètres 7B et 13B, de diverses méthodes de raisonnement, telles que l'analyse et le rappel étape par étape. -puis-générer des techniques. Cette approche permet à ces modèles d'identifier et d'appliquer la méthode la plus appropriée pour chaque tâche, permettant à Orca 2 de surpasser considérablement les modèles de taille similaire et même de rivaliser avec des modèles 5 à 10 fois plus grands.

Résultats comparant Orca 2 (7B et 13B) à LLaMA-2-Chat (13B et 70B) et WizardLM (13B et 70B) sur une variété de tests (en mode zéro tir) couvrant la compréhension du langage, le raisonnement de bon sens, les étapes multiples raisonnement, résolution de problèmes mathématiques, etc. - Orca 2 : Enseigner de petits modèles de langage Comment raisonner


Le succès de modèles petits et efficaces dépend en grande partie de la qualité des données et de la rapidité des astuces. Bien que Mistral n'ait pas divulgué les détails de ses données de formation, diverses recherches et modèles ont montré que la qualité des données est cruciale pour former des modèles efficaces. L'une des découvertes les plus remarquables de cette année est LIMA : « Moins, c'est plus pour l'alignement » , qui a démontré qu'un ensemble de données de haute qualité généré par l'homme, composé de seulement 1 000 exemples de formation, peut être utilisé pour un réglage précis afin de surpasser le même modèle affiné sur 50 000 réponses générées par ChatGPT.

Réglage de l'adaptation de bas rang

Ok, parlons-en LoRA , qui a brillé comme l’étoile la plus brillante parmi les méthodes de réglage fin efficaces en termes de paramètres introduites l’année dernière. L'adaptation de bas rang (LoRA) est apparue comme un changement de jeu pour affiner efficacement les LLM. En introduisant une approximation de matrices de bas rang dans des modèles pré-entraînés, LoRA permet un réglage précis des paramètres, réduisant considérablement la charge de calcul et les exigences de stockage. Cette approche permet non seulement d'économiser des ressources, mais permet également une personnalisation pour différentes applications sans compromettre les fonctionnalités de base du modèle de base.


Différence entre LoRA et le réglage fin régulier - Conseils pratiques pour affiner les LLM à l'aide de LoRA (Low-Rank Adaptation)


LoRA consiste essentiellement à geler les poids de modèle pré-entraînés et à injecter des couches pouvant être entraînées ( matrices de décomposition de rang ). Ces matrices sont compactes mais capables d'approcher les adaptations nécessaires au comportement du modèle, permettant un réglage fin efficace tout en maintenant l'intégrité des connaissances du modèle d'origine. L'une des variantes de LoRA les plus fréquemment utilisées est QLoRA (adaptation quantifiée de bas rang) . Il s'agit de la version économe en mémoire de Vanilla LoRA en quantifiant les matrices de bas rang. Cette approche permet d'utiliser des matrices de bas rang dans le processus de réglage fin sans augmenter l'empreinte mémoire et moins gourmande en calculs.


QLORA s'améliore par rapport à LoRA en quantifiant le modèle de transformateur avec une précision de 4 bits et en utilisant des optimiseurs paginés pour gérer les pics de mémoire. - Image tirée d'un article : QLoRA (Quantized Low-Rank Adaptation)

Mélange d'experts

Le Mélange d'experts (MoE) Cette approche représente une avancée significative dans l’architecture LLM l’année dernière. MoE est un paradigme d'apprentissage automatique de longue date qui simplifie des problèmes complexes en les divisant en sous-problèmes plus petits et plus gérables, chacun étant abordé par un sous-modèle spécialisé ou « expert ». Cela revient à avoir une équipe de spécialistes, où chaque membre excelle dans un domaine particulier. Dans un modèle MoE, chaque expert se concentre sur un sous-ensemble spécifique de données ou de tâches. La décision quant à l'expert à utiliser pour une entrée donnée est prise par un « mécanisme de contrôle », qui agit comme un directeur du trafic, acheminant les tâches vers l'expert le plus approprié. Cette méthode permet aux modèles MoE de gérer efficacement et avec précision un large éventail de tâches. Le MoE est particulièrement avantageux car il combine les atouts de divers modèles, conduisant à des performances améliorées sur des tâches complexes qui pourraient être difficiles à réaliser pour un modèle unique et uniforme. C'est comparable à avoir une équipe de spécialistes à votre disposition, garantissant que chaque facette d'un problème est gérée par une personne possédant l'expertise requise, produisant ainsi des solutions plus raffinées et efficaces.

Couche MoE tirée de l'article Réseaux de neurones outrageusement grands : la couche de mélange d'experts à portes clairsemées, 2017.


L'un des modèles les plus remarquables du MoE publié l'année dernière est Mixtral-8x-7B , qui a obtenu des performances impressionnantes en combinant huit modèles plus petits, chacun avec des paramètres 7B, en utilisant l'approche MoE. Il y a également des rumeurs selon lesquelles GPT-4 pourrait être un modèle du MoE, composé de huit modèles experts, chacun comportant 220 milliards de paramètres.

Performances du Mixtral-8x-7b - Mixtral-8x-7B

Du langage aux modèles de base généraux

Les LLM évoluent vers des modèles de base généraux, étendant leurs capacités au-delà du traitement linguistique. Cette transition signifie une évolution vers des modèles capables de comprendre et de générer non seulement du texte, mais également du code, du contenu visuel, de l'audio, etc. L'année dernière, nous avons vu l'introduction de modèles comme LLaVA et GPT-4 pour la vision, qui offre des capacités impressionnantes de compréhension du contenu visuel. Cela a suscité des recherches prometteuses dans le domaine des modèles généraux de fondations. Dans un avenir proche, les modèles de base généraux seront capables de voir, d’entendre et de comprendre le monde qui les entoure, permettant ainsi des interactions plus naturelles et intuitives avec les humains.


Un exemple du projet LLaVA.

Agents équipés d'outils

L'intégration des LLM avec divers outils et plates-formes rend l'IA plus accessible et plus pratique pour une utilisation quotidienne. Les agents équipés de ces outils sont adaptés à des tâches spécifiques, allant de l'assistance au codage à l'écriture créative, faisant de l'IA un élément indispensable de nombreux flux de travail professionnels. Ce développement a été rendu possible grâce aux capacités de raisonnement et d’action des LLM. Ce type de fonctionnalité est souvent appelé appel de fonction sous le nom Réagir cadre. Il existe également de nombreux modèles formés sur des ensembles de données qui incluent des appels de fonctions pour activer cette fonctionnalité. Cette fonctionnalité permet aux développeurs de créer des agents LLM capables d'automatiser un large éventail de tâches et de flux de travail simples.


Comparaison de la méthode ReAct avec d'autres techniques d'incitation - ReAct : Synergizing Reasoning and Acting in Language Models

OpenAI domine toujours le paysage industriel

OpenAI continue de dominer le paysage industriel, conservant son leadership en termes de recherche et d'application. Le GPT-4 et le nouveau Boutique GPT Les fonctionnalités de ChatGPT restent les normes de l'industrie, offrant des applications d'IA générative de haute qualité, inégalées et uniques, sans aucun concurrent s'en approchant pour le moment. OpenAI a également démontré un soutien important à sa communauté d'utilisateurs en organisant le premier Journée des développeurs OpenAI et fournissant diverses fonctionnalités conviviales pour les développeurs en 2023. Anthropic apparaît comme l'un des concurrents les plus prometteurs, bien que son LLM phare, Claude , n’est pas encore largement disponible. Un autre géant de la technologie, Google, a publié Gémeaux l'année dernière, ce qui a été assez impressionnant par rapport à la série GPT d'OpenAI, selon les rapports. Cependant, il n’a pas encore suscité suffisamment d’intérêt au sein de la communauté. Nous verrons ce qui se passera en 2024 lorsqu’ils prévoient de sortir la plus grande version de Gemini.


Journée des développeurs OpenAI - https://www.youtube.com/watch?v=U9mJuUkhUzk

Conclusion

L'année 2023 a marqué une période de croissance et d'innovation significatives dans le domaine des grands modèles linguistiques (LLM). De la démocratisation de l’IA grâce à des modèles open source au développement de systèmes plus efficaces et spécialisés, ces avancées ne sont pas seulement des prouesses techniques mais également des étapes visant à rendre l’IA plus accessible et applicable dans divers domaines. À l’avenir, le potentiel de ces technologies pour transformer les industries et améliorer les capacités humaines continue d’être une perspective passionnante. En 2024, nous prévoyons des étapes encore plus remarquables, avec Meta annonçant son intention de former LLaMA-3 et envisageant de l'ouvrir en source libre. Dans le paysage industriel, on s’intéresse également vivement à voir si des géants comme Google ou des startups comme Anthropic peuvent surpasser OpenAI.


Visitez et abonnez-vous à mon blog personnel pour plus d'articles.