Préparez-vous les amis, l’IA conquiert le monde !
Eh bien, peut-être que nous n’en sommes pas encore là. Mais on ne peut néanmoins pas nier l’ampleur de l’impact que cela a eu au cours des 12 derniers mois.
Ce qui est étrange dans tout cela, c'est que « l'intelligence artificielle » en tant que concept et en tant que domaine d'étude n'est pas si nouveau, mais elle « semble » nouvelle avec tous les chatbots et les outils basés sur l'IA apparus cette année.
Plus important encore est le fait qu’à la même époque l’année dernière, le seul outil d’IA largement connu était GPT-3, puis ChatGPT. Mais maintenant, vous pouvez avoir du mal à suivre tous les différents outils d’IA, chatbots et LLM disponibles.
Tout cela se répartit en 2 catégories :
Source fermée (comme ChatGPT et Claude)
Open source (comme Falcon ou Mistral)
Et c’est là que ça devient intéressant.
Aussi populaires et raffinés que puissent être les modèles d'IA propriétaires, il existe des modèles open source qui font des vagues dans l'espace de l'IA et dépassent leur catégorie de poids.
C'est ce que nous allons examiner dans cet article. Avec une technologie aussi révolutionnaire que l’IA, les logiciels propriétaires, de type boîte noire, sont-ils la solution, ou l’open source est-il une meilleure option ?
Cette question et bien d’autres trouveront une réponse dans l’épisode d’aujourd’hui.
Pour commencer, l’ensemble du processus scientifique a été construit sur les principes d’honnêteté, d’intégrité et de transparence. Cela implique l’ouverture, la collaboration et des examens par les pairs pour valider les résultats.
Bon nombre des plus grandes avancées scientifiques au monde, comme la pasteurisation, la pénicilline et les engrais, ont été possibles grâce au travail collaboratif de nombreux scientifiques au fil des ans.
Souvent, ils s’attaquaient à un problème majeur pour lequel ils manquaient de ressources à ce moment-là. Ils ont publié leurs découvertes et les scientifiques les ont utilisées plusieurs années plus tard comme base pour développer une solution au problème initial dans l’intérêt de l’humanité.
Et cela s’applique également à la technologie open source. Le monde a changé lorsque les ordinateurs sont passés d’énormes machines occupant des pièces entières à des appareils que chaque foyer peut posséder.
Et ensuite est venu Internet, qui a constitué un autre pas en avant en permettant à de nombreuses personnes d’accéder à la technologie au lieu de quelques privilégiés.
Tim Berners-Lee a inventé le World Wide Web en 1989 et l'a rendu accessible à tous sans aucun brevet ni redevance. Cela a alimenté la croissance rapide d’Internet et les nombreuses innovations survenues au cours de la décennie suivante.
Une histoire similaire se produit avec les systèmes d'exploitation, pensez à Windows ou Linux. Et la même chose s’est produite avec les technologies Web.
Avec tous ces exemples précédents, il va de soi qu’une technologie aussi transformatrice que l’IA peut (ou devrait) suivre une voie similaire.
Voyons donc comment les deux côtés (IA fermée et open source) ont progressé cette année.
À l’heure actuelle, l’impact que ChatGPT a eu lors de sa sortie en novembre dernier n’est une nouvelle pour personne. Et pendant le reste de l’année, l’IA propriétaire est devenue le sujet de conversation de la ville.
En mars 2023, le successeur de GPT-3, GPT-4, a été lancé. Cet événement a déclenché la course à l’IA.
Très vite, Google a rejoint la mêlée avec Bard . Puis est venu Anthropic, fondé par d'anciens chercheurs d'OpenAI, qui a lancé Claude , un concurrent du populaire ChatGPT.
OpenAI est, à l'heure actuelle, l'entreprise avec le plus de « hits » sur le marché.
Ce sont les modèles GPT, les différentes versions Dall-E et Whisper. Microsoft est également à la hauteur avec son nouveau Bing Chat amélioré (basé sur la technologie OpenAI) et le Copilot qui sera bientôt inclus partout.
Google a rejoint la course avec le premier projet de recherche Bard qui a d'abord déçu tout le monde et nous a fait prêter davantage d'attention à Microsoft et à ses initiatives. Mais après ce projet « d'expo-sciences », Google a intensifié son jeu et a lancé des offres telles que Vertex AI, PaLM (et PaLM2), Imagen et Codey.
Et puis il y a Anthropic avec différentes versions de son puissant Claude (Claude-instant, Claude 2). La partie intéressante est l'approche qu'ils ont utilisée pour former Claude, ce qu'ils appellent « l'IA constitutionnelle ». Cette approche place la sécurité au premier plan et contribue à créer une IA alignée sur les intérêts et les valeurs humains.
Ce sont de grandes avancées dans le domaine de l’IA qui sont plus connues grâce au fait qu’elles sont développées par des entreprises qui disposent de plusieurs employés, de ressources étendues et d’excellents départements marketing.
Maintenant, regardons l’autre côté de la médaille.
Depuis la sortie de GPT-4, non seulement les géants de la technologie se sont lancés dans la course à l’IA, mais d’autres projets indépendants ont également vu le jour. Rendu possible par les frameworks ML open source comme TensorFlow et PyTorch.
Stability AI a publié Stable Diffusion , une alternative à Dall-E, et de nombreux passionnés de technologie ont largement expérimenté ses capacités au point qu'elle a soulevé des préoccupations éthiques concernant la nature de l'art et de la créativité.
Meta a annoncé la sortie d'un grand modèle de langage quasi ouvert appelé LLaMA (avec plusieurs tailles de modèle puis une deuxième version).
Ce modèle, ainsi que les services Hugging Face (comme Gradio, Spaces, Transformers), ont déclenché une révolution car pour la première fois, des personnes du monde entier avaient accès à une technologie open source qui rivalisait avec ChatGPT ou PaLM.
Et savez-vous ce qui se passe lorsqu’un groupe de techniciens, de hackers et de passionnés de technologie dispose de suffisamment de temps et de ressources ? Ouais, ils peuvent devenir fous en construisant des trucs.
Les forums Internet de niche et les chaînes IRC des années 90, avec l'avènement d'Internet, ont été remplacés par les discussions Hugging Face, les problèmes GitHub et les serveurs Discord.
L’ensemble de données Pile d’EleutherAI a également contribué à la croissance de l’open source. Cette initiative a contribué à faire progresser l’apprentissage non supervisé et auto-supervisé, réduisant ainsi le besoin de grands ensembles de données étiquetés.
Avec les grands modèles de langage, les ensembles de données pour les former/les affiner et les exigences réduites en matière de calcul, tout un écosystème de produits et de services a rapidement émergé.
(Quand je parle d'exigences réduites en matière de calcul, je veux dire que les LLM n'ont pas besoin d'une tonne de paramètres pour produire la qualité des résultats générés par les modèles propriétaires, cela est démontré par des modèles comme LLaMA 13B et Mistral 7B )
Il existe une tonne de projets, de modèles pré-entraînés et affinés, d'ensembles de données et d'outils dans cet espace, disponibles pour tous ceux qui souhaitent participer et collaborer avec d'autres.
Nous avons désormais différents types de chatbots qui ne s'appuient pas sur GPT-3/GPT-4 pour fonctionner, comme Zephyr-chat, LLaMA2-chat, Mistral-instruct et Falcon-chat.
Des LLM optimisés pour la génération de code et l'assistance comme Code-LLaMA , CodeGen et StarCoder .
Un modèle de langage multilingue en libre accès appelé Bloom .
LLM multimodaux (qui ne sont pas que du texte) comme LLaVA et Fuyu .
Un classement Hugging Face qui évalue et classe tous les modèles open source existants.
Plusieurs ensembles de données pour la pré-formation et la mise au point des LLM comme RedPajama ou OpenOrca .
Et plus récemment, nous avons des modèles plus autonomes appelés « agents IA ».
Les plus populaires sont alimentés par GPT-3.5 mais il en existe d'autres basés sur LLaMA.
Et il semble que nous nous efforcions de créer des agents qui ne restent pas coincés dans des boucles ou qui peuvent terminer des tâches de manière indépendante sans cracher un tas de texte qui semble convaincant, mais qui est soit inexact, soit tout simplement faux.
Il y a eu énormément de progrès au cours des 6 derniers mois seulement et vous pouvez être sûr qu’aucun front ne montre de signes de ralentissement.
Même avec tous les progrès rapides et vertigineux que nous avons constatés au cours de l’année écoulée, nous en sommes encore aux premiers stades du développement de l’IA. Il y a plusieurs choses que nous devons comprendre, différents aspects à prendre en compte comme la confidentialité de l'IA, l'éthique, les préjugés inhérents, etc.
Comme pour tout dans la vie, aucun côté n’a complètement tort et l’autre a raison. L’IA propriétaire et open source a ses avantages et ses inconvénients.
L’IA propriétaire peut exploiter une plus grande quantité de ressources pour former de nouveaux modèles plus puissants, tout en donnant accès à des personnes à une plus grande échelle. Mais ils fonctionnent comme une boîte noire, manquent d’observabilité et leurs intérêts pourraient être plus alignés sur ceux des grands acteurs riches que sur ceux du consommateur ordinaire.
L’IA open source, quant à elle, bénéficie de la collaboration, de la transparence et de l’innovation ouverte à l’échelle mondiale. Mais il manque d’organisation, de ressources pour des initiatives plus ambitieuses et est menacé si des réglementations plus strictes sont établies.
La question est maintenant de savoir comment poursuivre les progrès de l’IA de manière hybride.
Une manière dont nous pouvons collaborer conjointement avec certains des esprits les plus brillants du secteur et avec les ressources nécessaires pour faire avancer cette innovation de manière responsable, en mettant la sécurité et la confidentialité au premier plan.
Une manière dont les intérêts et les avantages de quelques-uns ne l’emportent pas sur ceux du reste d’entre nous. Une manière dont une technologie révolutionnaire comme l’IA ne soit pas privatisée, restreinte ou utilisée comme arme contre des groupes de personnes considérés comme « ennemis » des plus grandes puissances.
Nous vivons un moment unique dans l’histoire où les décisions que nous prenons et la manière dont nous gérons la technologie détermineront comment l’avenir se dessinera, pour le meilleur ou pour le pire.
Merci d'avoir lu.
N'oubliez pas de