Pourquoi les modèles de langage Open Source sont de véritables « IA ouvertes »

Frederik Bussler4m2024/02/05

L’avenir à long terme de l’IA ne réside pas dans des modèles plus privés et plus vastes servis exclusivement via des API, mais plutôt dans des modèles de langage open source construits ouvertement aux côtés des communautés.

featured image - Pourquoi les modèles de langage Open Source sont de véritables « IA ouvertes »

En 2015, un non lucratif appelé OpenAI a été créé pour créer une IA « largement et uniformément distribuée ». Avance rapide jusqu’en 2024, et OpenAI est passé en mode entièrement à but lucratif, en conservant l’accès aux LLM derrière un service API transactionnel. Plus récemment, ils recherchent un Une valorisation de 100 milliards de dollars .

Les progrès de l’IA au cours de la dernière décennie ont été dominés par de grandes entreprises technologiques comme Google, Meta et OpenAI qui ont lancé des modèles de langage propriétaires de plus en plus vastes. De Bard et Claude à GPT-4, une grande partie de l’état de l’art en matière de traitement du langage naturel (NLP) est restée concentrée entre les mains de quelques laboratoires de recherche.

Cependant, l’avenir à long terme de l’IA ne réside pas dans des modèles plus privés et plus vastes servis exclusivement via des API, mais plutôt dans des modèles de langage open source construits ouvertement aux côtés des communautés.

Modèles de langage open source

Ces dernières années, une poignée de startups, d’universités et de personnes dévouées ont contribué à lancer ce modèle ouvert de développement de modèles de langage.

Le dernier modèle poursuivant cette lignée open source est le H2O-Danube-1.8B . Pesant 1,8 milliard de paramètres, le Danube démontre des capacités surprenantes, même par rapport à d'autres modèles disponibles au public plusieurs fois sa taille. L'équipe H2O.ai a méticuleusement conçu, formé et validé Danube en toute transparence, avec le rapport complet disponible sur arXiv .

Plutôt que de conserver l'accès, H2O.ai a publié ouvertement tous les paramètres et le code de formation de Danube sur HuggingFace. Quelques jours après l'annonce initiale, des développeurs curieux ont commencé à expérimenter librement le modèle, démontrant ainsi une génération rapide d'innovations tout simplement impossible avec des modèles propriétaires. Au moment de la rédaction, l'intégralité du modèle h2o-danube-1.8b-chat a été téléchargée plus de 500 fois sur HuggingFace.

Tout le monde peut utiliser le modèle avec la bibliothèque transformers , en suivant le code ci-dessous, gracieuseté du dépôt HuggingFace de h2o :

 import torch from transformers import pipeline pipe = pipeline( "text-generation", model="h2oai/h2o-danube-1.8b-chat", torch_dtype=torch.bfloat16, device_map="auto", ) # We use the HF Tokenizer chat template to format each message # https://huggingface.co/docs/transformers/main/en/chat_templating messages = [ {"role": "user", "content": "Why is drinking water so healthy?"}, ] prompt = pipe.tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, ) res = pipe( prompt, max_new_tokens=256, ) print(res[0]["generated_text"]) # <|prompt|>Why is drinking water so healthy?</s><|answer|> Drinking water is healthy for several reasons: [...]

H2O estime que la collaboration ouverte reste la clé ultime pour démocratiser l’accès à l’IA et débloquer des avantages pour le plus grand nombre plutôt que la richesse pour quelques-uns.

Autres modèles de langage open source

L'écosystème de l'IA open source continue de se développer avec des développeurs collaborant à l'échelle mondiale sur des modèles partagés. Au-delà de H2O-Danube-1.8B, de nombreuses initiatives notables visent à empêcher la concentration des connaissances au sein des jardins clos.

MPT

Développé par la startup MosaicML, le Machine Programming Transformer (MPT) intègre des techniques telles que la parallélisation mixte d'experts et l'extrapolation de la longueur du contexte pour améliorer l'efficacité.

Faucon

Le plus grand LLM open source de Falcon est une énorme bête de 180 milliards de paramètres , surpassant des modèles comme LLaMA-2 , StableLM , RougePyjama , et MPT .

À cette taille, il est recommandé de disposer de 400 Go de mémoire disponible pour exécuter le modèle.

Mistral

Fondé par d'anciens Googleurs et chercheurs Meta, Mistral a publié le modèle Mistral 7B à 7 milliards de paramètres en septembre 2022. Mistral 7B atteint des performances compétitives parmi les modèles ouverts correspondant presque au GPT-3 fermé en termes de qualité d'échantillon.

Modèles hérités

Au-delà des modèles récemment lancés, les anciens modèles open source continuent de donner du pouvoir aux développeurs. GPT2 d'OpenAI et GPT-J d'EleutherAI ont tous deux une importance historique malgré leur retard par rapport aux architectures modernes. Et des transformateurs comme BERT ont donné naissance à toute une sous-classe d’avancées en PNL qui alimentent les produits à l’échelle mondiale.

Le récit de la démocratisation ne fait que se renforcer grâce à des communautés passionnées qui contribuent généreusement par leurs créations aux pools communs de connaissances.

Un avenir plus équitable

À bien des égards, les modèles linguistiques propriétaires risquent de recréer de nombreuses inégalités avec lesquelles l’industrie technologique continue de lutter. La concentration des connaissances au sein d’organisations riches empêche les petites équipes de contribuer au progrès dès le début. Et plus tard, cela rend l'intégration d'un coût prohibitif une fois disponible uniquement via des API transactionnelles.

Les modèles open source sont essentiels pour ouvrir une voie plus équitable. Celui où l’agence se rapproche de diverses communautés qui créent réellement des applications concrètes d’IA. Le long chemin du progrès ne s’oriente vers la justice que lorsque les gens se rassemblent derrière la technologie elle-même plutôt que contre une seule organisation cherchant à la contrôler.

Le Danube et le paradigme ouvert qu’il représente n’offrent qu’un aperçu d’une vision alternative. Une approche motivée non pas par les profits ou le prestige à court terme, mais par le fait de permettre aux développeurs du monde entier de s'appuyer librement les uns sur les autres. Il restera toujours de la place pour le travail propriétaire, mais le véritable avenir de l’IA est ouvert.

Innovation axée sur la communauté

La publication de modèles open source attire les contributions d'une communauté motivée de développeurs et de chercheurs. Ce style collaboratif de travail ouvert ouvre des opportunités uniques. Les experts de toutes les organisations peuvent examiner le travail de chacun pour valider les techniques.

Les chercheurs peuvent facilement reproduire et étendre de nouvelles idées au lieu de réinventer la roue. Et les ingénieurs logiciels peuvent rapidement intégrer et déployer des innovations dans les offres clients.

Le plus prometteur est peut-être que le paradigme ouvert permet à des communautés de niche de se rassembler autour de modèles personnalisés pour des cas d'utilisation spécifiques. Les équipes peuvent sculpter des versions adaptées à des sujets particuliers comme la médecine, le droit ou la finance, qui surpassent les modèles génériques. Ces modèles spécialisés sont ensuite partagés au profit du reste de la communauté. Ensemble, les groupes rendent le progrès collectif impossible dans un seul laboratoire fermé.

L O A D I N G
. . . comments & more!

About Author

Frederik Bussler@FrederikBussler

Published author and writer.

Read my stories Visit Bussler & Co