Nous avons tous entendu parler du GPT-3 et avons une idée assez précise de ses capacités. Vous avez très certainement vu des applications nées strictement grâce à ce modèle, dont certaines que j'ai couvertes dans une sur le modèle. GPT-3 est un modèle développé par OpenAI auquel vous pouvez accéder via une API payante mais n'avez pas accès au modèle lui-même. vidéo précédente Ce qui rend GPT-3 si fort, c'est à la fois son architecture et sa taille. Il contient 175 milliards de paramètres. C'est deux fois le nombre de neurones que nous avons dans notre cerveau ! Cet immense réseau a été à peu près formé sur tout Internet pour comprendre comment nous écrivons, échangeons et comprenons le texte. Cette semaine, Meta a fait un grand pas en avant pour la communauté. Ils viennent de sortir un modèle tout aussi puissant, sinon plus, et entièrement open-source. À quel point cela est cool? En savoir plus dans la vidéo... Voir la vidéo Références ►Lire l'article complet : ►Zhang, Susan et al. "OPT : Modèles de langage de transformateur ouverts pré-formés." ►La vidéo de mon GPT-3 pour les grands modèles linguistiques : ►Post de Meta : ►Code : ►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : ►Rejoignez notre chaîne Discord, Learn AI Together : https://www.louisbouchard.ai/opt-meta/ https://arxiv.org/abs/2205.01068 https://youtu.be/gDDnTZchKec https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/ https://github.com/facebookresearch/metaseq https://www.louisbouchard.ai/newsletter/ https://discord.gg/learnaitogether Transcription vidéo 0:00 nous avons tous entendu parler de gpt3 et avons 0:02 une idée assez claire de son 0:03 capacités que vous avez très certainement vues 0:06 certaines applications nées strictement en raison de 0:08 ce modèle dont j'ai couvert certains dans un 0:10 vidéo précédente gpd3 est un modèle développé 0:13 par openai auquel vous pouvez accéder via un 0:15 API payante mais n'ont pas accès au modèle 0:18 lui-même ce qui rend gpt3 si fort est à la fois 0:21 son architecture et sa taille 0:24 175 milliards de paramètres deux fois plus 0:27 de neurones que nous avons dans notre cerveau 0:30 l'immense réseau a été à peu près formé 0:32 sur tout l'internet pour comprendre comment 0:34 nous écrivons échangeons et comprenons le texte 0:37 cette semaine, la méta a fait un grand pas en avant 0:39 en avant pour la communauté qu'ils viennent de 0:41 a sorti un modèle tout aussi 0:43 puissant sinon plus et a complètement 0:46 open source c'est cool qu'on puisse 0:48 ont maintenant accès à un modèle de type gpt et 0:51 jouer directement avec sans y aller 0:53 via une API et des métas à accès limité 0:56 modèle le plus récent opt qui signifie 0:59 transformateurs ouverts pré-formés est 1:01 disponible en plusieurs tailles avec 1:03 poids pré-entraînés pour jouer avec ou faire 1:05 tout travail de recherche dont l'un est 1:07 comparable à gp23 et a le meilleur 1:09 résultats c'est une super nouvelle pour le 1:12 domaine et surtout pour nous académique 1:14 chercheurs donc tout comme gpg3 ce nouveau 1:17 le modèle peut générer du texte à partir des entrées de l'utilisateur 1:19 sur beaucoup de tâches différentes un jour, il 1:22 pourra même résumer des semaines 1:24 une valeur de travail pour vous dans des rapports clairs 1:26 mais d'ici là tu as encore besoin d'écrire 1:28 eux-mêmes au moins vous pouvez en obtenir 1h30 aider à rendre ce processus de rapport beaucoup 1:33 plus efficace en utilisant d'excellents outils comme 1:35 poids et préjugés du sponsor de cet épisode 1:38 les poids et les biais vous permettent de facilement 1:39 gardez une trace de toutes vos expériences avec 1:41 seulement une poignée de lignes ajoutées à votre 1:44 code mais plus précisément c'est vraiment 1:46 cool comment ils ont facilité la création 1:48 de superbes rapports interactifs 1:50 comme celui-ci montrant clairement votre équipe 1:53 ou futur lui-même votre matrice de course 1:55 hyperparamètres et configurations de données 1:57 à côté de toutes les notes que vous ou votre équipe aviez 2:00 au moment où les rapports se font facilement 2:02 modèles suivants générés à partir de votre 2:04 exécute des métriques et il vous suffit d'ajouter 2:06 vos commentaires c'est une fonction puissante pour 2:08 soit ajouter des commentaires rapides sur un 2:10 expérimenter ou créer une analyse raffinée 2:12 pièces capturant et partageant votre travail 2:14 est essentiel si vous souhaitez améliorer votre 2:16 transporteur professionnel donc je recommande 2:18 utiliser des outils qui améliorent la communication 2:20 dans votre équipe, comme les poids et les préjugés, essayez 2:23 avec le premier lien ci-dessous et commencez 2:25 partager votre travail comme un pro 2:29 opt ou plus précisément opt-175b 2:33 est très similaire à gpt3 donc je suis fortement 2:36 recommande de regarder ma vidéo pour mieux 2:37 comprendre comment les grands modèles de langage 2:40 travailler gpd3 et opt ne peut pas au moins 2:42 résumez vos e-mails ou écrivez rapidement 2:44 essai basé sur un sujet, il peut aussi 2:46 résoudre des problèmes mathématiques de base répondre 2:49 questions et plus la principale différence 2:51 avec gpt3 c'est que celui ci est ouvert 2:53 source, ce qui signifie que vous avez accès à 2:56 son code et même des modèles pré-formés pour 2:58 jouer avec directement un autre significatif 3:00 le fait amusant est que la formation de l'opt est utilisée comme 3:03 7ème de l'empreinte carbone comme gpt3 3:06 ce qui est une autre étape dans le droit 3:08 direction, vous pouvez voir que ce nouveau 3:10 le modèle est très similaire à gpt3 mais ouvert 3:13 source donc un modèle de langage utilisant 3:15 transformateurs que j'ai couverts dans les vidéos 3:18 avant cela a été formé sur de nombreux 3:19 différents ensembles de données, on pourrait dire sur le 3:22 tout Internet pour traiter le texte et 3:24 générer plus de texte pour mieux comprendre 3:27 comment ils fonctionnent, je vous renvoie à nouveau au 3:29 vidéo que j'ai faite couvrant gpt3 tels qu'ils sont 3:31 modèles très similaires ici ce que j'ai vraiment 3:34 voulait couvrir est l'effort de meta pour faire 3:36 ce genre de modèle accessible aux 3:38 tout le monde en mettant beaucoup d'effort 3:40 à partager ses limites, ses biais et 3:43 risques par exemple ils ont vu qu'opt 3:45 a tendance à être répétitif et à rester coincé dans 3:48 une boucle qui nous arrive rarement 3:50 sinon personne ne te parlera depuis 3:53 il a été formé sur internet ils ont aussi 3:55 trouvé que opt a une forte propension à 3:57 générer un langage toxique et renforcer 4:00 stéréotypes nuisibles essentiellement 4:02 reproduisant nos comportements généraux et 4:04 biais qu'il peut également produire factuellement 4:07 déclarations incorrectes qui est 4:08 indésirable si vous voulez que les gens prennent 4:10 vous sérieusement ces limitations sont certaines 4:13 des raisons les plus importantes pour lesquelles ces 4:15 les modèles ne remplaceront pas les humains de si tôt 4:17 pour des postes décisionnels importants ou 4:20 même être utilisé en toute sécurité dans le commerce 4:22 produits je vous invite à lire leur 4:24 document pour leur analyse approfondie de la 4:26 la capacité du modèle et mieux comprendre 4:28 leurs efforts pour rendre ce modèle plus 4h30 respectueux de l'environnement et sûr à utiliser 4:33 vous pouvez également en savoir plus sur leur 4:34 processus de formation et essayez-le vous-même 4:36 avec leur code accessible au public tous 4:39 les liens sont dans la description tel 4:41 contributions open source avec de nouvelles 4:43 documentation et code des modèles disponibles 4:45 sont vraiment importants pour la recherche 4:47 communauté pour faire avancer la science et je suis 4:49 content qu'une grande entreprise comme meta fasse ça 4:52 grâce à eux des chercheurs du monde entier 4:54 le monde pourra expérimenter 4:56 avec des modèles de langage de pointe 4:58 au lieu de versions plus petites, je suis excité 5:00 pour voir toutes les avancées à venir, il 5:02 va créer et j'aimerais voir ce que vous 5:04 les gars font avec, n'hésitez pas à commenter 5:06 sous la vidéo ou rejoignez notre communauté 5:09 à découvrir et partagez vos projets 5:10 là ça s'appelle apprendre ai ensemble et 5:13 vous pouvez également trouver un lien ci-dessous j'espère 5:15 vous avez apprécié la vidéo de cette semaine qui était un 5:17 peu différent que d'habitude couvrant ce 5:19 des nouvelles passionnantes et des efforts essentiels pour 5:21 partager des recherches accessibles au public je le ferai 5:24 à la semaine prochaine avec un autre incroyable 5:26 papier