paint-brush
Le nouveau modèle OPT de Meta est un GPT-3 open sourcepar@whatsai
7,866 lectures
7,866 lectures

Le nouveau modèle OPT de Meta est un GPT-3 open source

par Louis Bouchard4m2022/05/06
Read on Terminal Reader
Read this story w/o Javascript

Trop long; Pour lire

Nous avons tous entendu parler du GPT-3 et avons une idée assez précise de ses capacités. Vous avez très certainement vu des applications nées strictement grâce à ce modèle, dont certaines que j'ai couvertes dans une vidéo précédente sur le modèle. GPT-3 est un modèle développé par OpenAI auquel vous pouvez accéder via une API payante mais n'avez pas accès au modèle lui-même. Ce qui rend GPT-3 si fort, c'est à la fois son architecture et sa taille. Il contient 175 milliards de paramètres. C'est deux fois le nombre de neurones que nous avons dans notre cerveau ! Cet immense réseau a été à peu près formé sur tout Internet pour comprendre comment nous écrivons, échangeons et comprenons le texte. Cette semaine, Meta a fait un grand pas en avant pour la communauté. Ils viennent de sortir un modèle tout aussi puissant, sinon plus, et entièrement open-source. À quel point cela est cool? En savoir plus dans la vidéo...

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Le nouveau modèle OPT de Meta est un GPT-3 open source
Louis Bouchard HackerNoon profile picture

Nous avons tous entendu parler du GPT-3 et avons une idée assez précise de ses capacités. Vous avez très certainement vu des applications nées strictement grâce à ce modèle, dont certaines que j'ai couvertes dans une sur le modèle. GPT-3 est un modèle développé par OpenAI auquel vous pouvez accéder via une API payante mais n'avez pas accès au modèle lui-même.

Ce qui rend GPT-3 si fort, c'est à la fois son architecture et sa taille. Il contient 175 milliards de paramètres. C'est deux fois le nombre de neurones que nous avons dans notre cerveau !

Cet immense réseau a été à peu près formé sur tout Internet pour comprendre comment nous écrivons, échangeons et comprenons le texte. Cette semaine, Meta a fait un grand pas en avant pour la communauté. Ils viennent de sortir un modèle tout aussi puissant, sinon plus, et entièrement open-source. À quel point cela est cool? En savoir plus dans la vidéo...

Voir la vidéo

Références

►Lire l'article complet : https://www.louisbouchard.ai/opt-meta/
►Zhang, Susan et al. "OPT : Modèles de langage de transformateur ouverts pré-formés." https://arxiv.org/abs/2205.01068
►La vidéo de mon GPT-3 pour les grands modèles linguistiques :
►Post de Meta : https://ai.facebook.com/blog/democratizing-access-to-large-scale-language-models-with-opt-175b/
►Code : https://github.com/facebookresearch/metaseq
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/
►Rejoignez notre chaîne Discord, Learn AI Together : https://discord.gg/learnaitogether

Transcription vidéo

0:00

nous avons tous entendu parler de gpt3 et avons

0:02

une idée assez claire de son

0:03

capacités que vous avez très certainement vues

0:06

certaines applications nées strictement en raison de

0:08

ce modèle dont j'ai couvert certains dans un

0:10

vidéo précédente gpd3 est un modèle développé

0:13

par openai auquel vous pouvez accéder via un

0:15

API payante mais n'ont pas accès au modèle

0:18

lui-même ce qui rend gpt3 si fort est à la fois

0:21

son architecture et sa taille

0:24

175 milliards de paramètres deux fois plus

0:27

de neurones que nous avons dans notre cerveau

0:30

l'immense réseau a été à peu près formé

0:32

sur tout l'internet pour comprendre comment

0:34

nous écrivons échangeons et comprenons le texte

0:37

cette semaine, la méta a fait un grand pas en avant

0:39

en avant pour la communauté qu'ils viennent de

0:41

a sorti un modèle tout aussi

0:43

puissant sinon plus et a complètement

0:46

open source c'est cool qu'on puisse

0:48

ont maintenant accès à un modèle de type gpt et

0:51

jouer directement avec sans y aller

0:53

via une API et des métas à accès limité

0:56

modèle le plus récent opt qui signifie

0:59

transformateurs ouverts pré-formés est

1:01

disponible en plusieurs tailles avec

1:03

poids pré-entraînés pour jouer avec ou faire

1:05

tout travail de recherche dont l'un est

1:07

comparable à gp23 et a le meilleur

1:09

résultats c'est une super nouvelle pour le

1:12

domaine et surtout pour nous académique

1:14

chercheurs donc tout comme gpg3 ce nouveau

1:17

le modèle peut générer du texte à partir des entrées de l'utilisateur

1:19

sur beaucoup de tâches différentes un jour, il

1:22

pourra même résumer des semaines

1:24

une valeur de travail pour vous dans des rapports clairs

1:26

mais d'ici là tu as encore besoin d'écrire

1:28

eux-mêmes au moins vous pouvez en obtenir

1h30

aider à rendre ce processus de rapport beaucoup

1:33

plus efficace en utilisant d'excellents outils comme

1:35

poids et préjugés du sponsor de cet épisode

1:38

les poids et les biais vous permettent de facilement

1:39

gardez une trace de toutes vos expériences avec

1:41

seulement une poignée de lignes ajoutées à votre

1:44

code mais plus précisément c'est vraiment

1:46

cool comment ils ont facilité la création

1:48

de superbes rapports interactifs

1:50

comme celui-ci montrant clairement votre équipe

1:53

ou futur lui-même votre matrice de course

1:55

hyperparamètres et configurations de données

1:57

à côté de toutes les notes que vous ou votre équipe aviez

2:00

au moment où les rapports se font facilement

2:02

modèles suivants générés à partir de votre

2:04

exécute des métriques et il vous suffit d'ajouter

2:06

vos commentaires c'est une fonction puissante pour

2:08

soit ajouter des commentaires rapides sur un

2:10

expérimenter ou créer une analyse raffinée

2:12

pièces capturant et partageant votre travail

2:14

est essentiel si vous souhaitez améliorer votre

2:16

transporteur professionnel donc je recommande

2:18

utiliser des outils qui améliorent la communication

2:20

dans votre équipe, comme les poids et les préjugés, essayez

2:23

avec le premier lien ci-dessous et commencez

2:25

partager votre travail comme un pro

2:29

opt ou plus précisément opt-175b

2:33

est très similaire à gpt3 donc je suis fortement

2:36

recommande de regarder ma vidéo pour mieux

2:37

comprendre comment les grands modèles de langage

2:40

travailler gpd3 et opt ne peut pas au moins

2:42

résumez vos e-mails ou écrivez rapidement

2:44

essai basé sur un sujet, il peut aussi

2:46

résoudre des problèmes mathématiques de base répondre

2:49

questions et plus la principale différence

2:51

avec gpt3 c'est que celui ci est ouvert

2:53

source, ce qui signifie que vous avez accès à

2:56

son code et même des modèles pré-formés pour

2:58

jouer avec directement un autre significatif

3:00

le fait amusant est que la formation de l'opt est utilisée comme

3:03

7ème de l'empreinte carbone comme gpt3

3:06

ce qui est une autre étape dans le droit

3:08

direction, vous pouvez voir que ce nouveau

3:10

le modèle est très similaire à gpt3 mais ouvert

3:13

source donc un modèle de langage utilisant

3:15

transformateurs que j'ai couverts dans les vidéos

3:18

avant cela a été formé sur de nombreux

3:19

différents ensembles de données, on pourrait dire sur le

3:22

tout Internet pour traiter le texte et

3:24

générer plus de texte pour mieux comprendre

3:27

comment ils fonctionnent, je vous renvoie à nouveau au

3:29

vidéo que j'ai faite couvrant gpt3 tels qu'ils sont

3:31

modèles très similaires ici ce que j'ai vraiment

3:34

voulait couvrir est l'effort de meta pour faire

3:36

ce genre de modèle accessible aux

3:38

tout le monde en mettant beaucoup d'effort

3:40

à partager ses limites, ses biais et

3:43

risques par exemple ils ont vu qu'opt

3:45

a tendance à être répétitif et à rester coincé dans

3:48

une boucle qui nous arrive rarement

3:50

sinon personne ne te parlera depuis

3:53

il a été formé sur internet ils ont aussi

3:55

trouvé que opt a une forte propension à

3:57

générer un langage toxique et renforcer

4:00

stéréotypes nuisibles essentiellement

4:02

reproduisant nos comportements généraux et

4:04

biais qu'il peut également produire factuellement

4:07

déclarations incorrectes qui est

4:08

indésirable si vous voulez que les gens prennent

4:10

vous sérieusement ces limitations sont certaines

4:13

des raisons les plus importantes pour lesquelles ces

4:15

les modèles ne remplaceront pas les humains de si tôt

4:17

pour des postes décisionnels importants ou

4:20

même être utilisé en toute sécurité dans le commerce

4:22

produits je vous invite à lire leur

4:24

document pour leur analyse approfondie de la

4:26

la capacité du modèle et mieux comprendre

4:28

leurs efforts pour rendre ce modèle plus

4h30

respectueux de l'environnement et sûr à utiliser

4:33

vous pouvez également en savoir plus sur leur

4:34

processus de formation et essayez-le vous-même

4:36

avec leur code accessible au public tous

4:39

les liens sont dans la description tel

4:41

contributions open source avec de nouvelles

4:43

documentation et code des modèles disponibles

4:45

sont vraiment importants pour la recherche

4:47

communauté pour faire avancer la science et je suis

4:49

content qu'une grande entreprise comme meta fasse ça

4:52

grâce à eux des chercheurs du monde entier

4:54

le monde pourra expérimenter

4:56

avec des modèles de langage de pointe

4:58

au lieu de versions plus petites, je suis excité

5:00

pour voir toutes les avancées à venir, il

5:02

va créer et j'aimerais voir ce que vous

5:04

les gars font avec, n'hésitez pas à commenter

5:06

sous la vidéo ou rejoignez notre communauté

5:09

à découvrir et partagez vos projets

5:10

là ça s'appelle apprendre ai ensemble et

5:13

vous pouvez également trouver un lien ci-dessous j'espère

5:15

vous avez apprécié la vidéo de cette semaine qui était un

5:17

peu différent que d'habitude couvrant ce

5:19

des nouvelles passionnantes et des efforts essentiels pour

5:21

partager des recherches accessibles au public je le ferai

5:24

à la semaine prochaine avec un autre incroyable

5:26

papier