paint-brush
Deepmind vient peut-être de créer la première IA générale au mondepar@whatsai
5,862 lectures
5,862 lectures

Deepmind vient peut-être de créer la première IA générale au monde

par Louis Bouchard3m2022/05/16
Read on Terminal Reader
Read this story w/o Javascript

Trop long; Pour lire

Gato de DeepMind vient d'être publié ! Il s'agit d'un seul transformateur qui peut jouer à des jeux Atari, sous-titrer des images, discuter avec des gens, contrôler un vrai bras robotique, et plus encore ! En effet, il est formé une seule fois et utilise les mêmes poids pour accomplir toutes ces tâches. Gato est un agent multimodal, ce qui signifie qu'il peut créer des légendes pour des images ou répondre à des questions en tant que chatbot. Il comprend les mots, les images et même la physique... apprenez-en plus dans la transcription vidéo ci-dessous.

Company Mentioned

Mention Thumbnail
featured image - Deepmind vient peut-être de créer la première IA générale au monde
Louis Bouchard HackerNoon profile picture

Gato de DeepMind vient d'être publié ! Il s'agit d'un seul transformateur qui peut jouer à des jeux Atari, sous-titrer des images, discuter avec des gens, contrôler un vrai bras robotique, et plus encore ! En effet, il est formé une seule fois et utilise les mêmes poids pour accomplir toutes ces tâches. Et selon Deepmind, ce n'est pas seulement un transformateur mais aussi un agent. C'est ce qui se passe lorsque vous mélangez Transformers avec des progrès sur des agents d'apprentissage par renforcement multitâches.

Comme nous l'avons dit, Gato est un agent multimodal. Cela signifie qu'il peut créer des légendes pour les images ou répondre aux questions en tant que chatbot. Vous diriez que GPT-3 peut déjà faire cela, mais Gato peut faire plus… La multimodalité vient du fait que Gato peut également jouer à des jeux Atari au niveau humain ou même effectuer des tâches du monde réel comme contrôler des bras robotiques pour déplacer les objets avec précision. Il comprend les mots, les images et même la physique...

En savoir plus dans la vidéo

Références

►Lire l'article complet : https://www.louisbouchard.ai/deepmind-gato/
►Article de blog de Deepmind : https://www.deepmind.com/publications/a-generalist-agent
►Article : Reed S. et al., 2022, Deemind : Gato, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/

Transcription de la vidéo

0:00

Gato de deepmind vient d'être publié

0:02

c'est un seul transfo qui peut jouer

0:04

images de légende de jeux atari discuter avec

0:07

les gens contrôlent un vrai bras robotique et

0:09

plus en effet est formé une fois et utilise le

0:12

mêmes poids pour accomplir toutes ces tâches

0:15

et selon deepmind ce n'est pas seulement un

0:17

transformateur mais aussi un agent c'est

0:20

que se passe-t-il lorsque vous mélangez des transformateurs

0:22

avec des progrès sur le multitâche

0:23

agents d'apprentissage par renforcement comme nous l'avons dit

0:26

gato est un agent multimodal, ce qui signifie que

0:29

il peut créer des légendes pour les images ou

0:31

répondre aux questions comme un chatbot que vous verriez

0:34

que gpt3 peut déjà faire ça mais ghetto

0:36

peut faire plus la multimodalité vient de

0:39

le fait que ghetto peut aussi jouer à atari

0:41

des jeux au niveau humain ou même faire du vrai

0:44

tâches mondiales comme le contrôle de la robotique

0:46

bras pour déplacer des objets avec précision

0:48

comprend des mots des images et même

0:51

le ghetto physique est le premier généraliste

0:54

modèle qui fonctionne si bien sur tant de

0:56

différentes tâches et c'est extrêmement

0:58

prometteur pour le domaine où il a été formé

1:00

sur 604 tâches distinctes avec des

1:03

modalités observations et action

1:06

spécifications qui en font le parfait

1:08

généraliste et comme je l'ai dit il fait tout

1:11

qu'avec le même réseau et les mêmes poids

1:13

et avant de demander, il n'a besoin que de 1.2

1:15

milliards de paramètres par rapport à gpt3 qui

1:18

a besoin

1:19

175 milliards d'entre eux c'est pas un piège

1:22

où vous devez vous recycler ou combattre une unité

1:24

à toutes les tâches, vous pouvez envoyer à la fois une image

1:27

et le texte et cela fonctionnera, vous pouvez même

1:29

ajouter quelques mouvements d'un bras de robot

1:32

le modèle peut décider quel type de

1:34

sortie à fournir en fonction de son contexte

1:36

allant du texte à des actions discrètes dans

1:38

un environnement si vous avez aimé la vidéo

1:41

s'il vous plaît pensez à vous abonner et laissez-moi

1:43

savoir si vous aimez ce genre de vidéo d'actualité

1:46

je fais définitivement plus c'est possible

1:48

en raison de leur processus de tokenisation

1:50

la tokenisation, c'est quand vous préparez votre

1:52

entrées pour le modal car ils ne le font pas

1:55

comprendre du texte ou des images par eux-mêmes

1:57

les modèles linguistiques et le ghetto ont pris le dessus

1:59

nombre total de sous-mots par exemple 32

2:02

000 et chaque mot a un numéro attribué

2:05

pour les images ils suivent la vit

2:08

incorporation de patchs à l'aide d'un

2:10

bloc resnet comme nous l'avons couvert dans un précédent

2:12

vidéo nous avons également tokenisé le bouton

2:14

presses comme nombres entiers pour atari

2:16

jeux ou valeurs discrètes enfin pour

2:19

valeurs continues comme proprioceptive

2:21

entrées dont nous avons parlé avec le robot

2:23

bras ils ont encodé les différentes pistes

2:25

matrice en nombres flottants et les a ajoutés

2:27

après les jetons de texte en utilisant tous ceux

2h30

différentes entrées que l'agent adapte aux

2:32

tâche en cours pour générer des

2:34

sorties pendant la formation qu'ils utilisent prompt

2:36

conditionnement comme dans gpt3 avec précédemment

2:39

exemples d'actions et d'observations

2:42

progrès des agents généralistes rl dans le

2:44

ces dernières années ont été incroyables et sont venues

2:47

principalement de l'esprit profond, on pouvait voir que

2:49

ils rapprochent l'aiguille de

2:51

intelligence générale au niveau de l'IA ou de l'humain

2:55

si nous pouvons enfin le définir j'aime comment

2:57

de nombreux détails qu'ils ont donnés dans leur article

2:59

et j'ai hâte de voir ce qu'ils vont faire

3:01

ou ce que d'autres personnes feront en utilisant ceci

3:03

l'architecture du modèle le lien vers le

3:06

papier pour plus d'informations sur le

3:07

le modèle est dans la description j'espère que vous

3:09

j'ai bien aimé cette courte vidéo je viens de voir ça

3:12

nouvelles quand je me suis réveillé et je ne pouvais pas faire

3:13

autre chose que de faire cette vidéo

3:15

avant de commencer ma journée c'est juste trop

3:17

passionnant je vous verrai la semaine prochaine avec

un autre papier incroyable