Gato de DeepMind vient d'être publié ! Il s'agit d'un seul transformateur qui peut jouer à des jeux Atari, sous-titrer des images, discuter avec des gens, contrôler un vrai bras robotique, et plus encore ! En effet, il est formé une seule fois et utilise les mêmes poids pour accomplir toutes ces tâches. Et selon Deepmind, ce n'est pas seulement un transformateur mais aussi un agent. C'est ce qui se passe lorsque vous mélangez Transformers avec des progrès sur des agents d'apprentissage par renforcement multitâches.  Comme nous l'avons dit, Gato est un agent multimodal. Cela signifie qu'il peut créer des légendes pour les images ou répondre aux questions en tant que chatbot. Vous diriez que GPT-3 peut déjà faire cela, mais Gato peut faire plus… La multimodalité vient du fait que Gato peut également jouer à des jeux Atari au niveau humain ou même effectuer des tâches du monde réel comme contrôler des bras robotiques pour déplacer les objets avec précision. Il comprend les mots, les images et même la physique...  En savoir plus dans la vidéo   Références  ►Lire l'article complet :   ►Article de blog de Deepmind :   ►Article : Reed S. et al., 2022, Deemind : Gato,   ►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) :  https://www.louisbouchard.ai/deepmind-gato/ https://www.deepmind.com/publications/a-generalist-agent https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf https://www.louisbouchard.ai/newsletter/  Transcription de la vidéo  0:00  Gato de deepmind vient d'être publié  0:02  c'est un seul transfo qui peut jouer  0:04  images de légende de jeux atari discuter avec  0:07  les gens contrôlent un vrai bras robotique et  0:09  plus en effet est formé une fois et utilise le  0:12  mêmes poids pour accomplir toutes ces tâches  0:15  et selon deepmind ce n'est pas seulement un  0:17  transformateur mais aussi un agent c'est  0:20  que se passe-t-il lorsque vous mélangez des transformateurs  0:22  avec des progrès sur le multitâche  0:23  agents d'apprentissage par renforcement comme nous l'avons dit  0:26  gato est un agent multimodal, ce qui signifie que  0:29  il peut créer des légendes pour les images ou  0:31  répondre aux questions comme un chatbot que vous verriez  0:34  que gpt3 peut déjà faire ça mais ghetto  0:36  peut faire plus la multimodalité vient de  0:39  le fait que ghetto peut aussi jouer à atari  0:41  des jeux au niveau humain ou même faire du vrai  0:44  tâches mondiales comme le contrôle de la robotique  0:46  bras pour déplacer des objets avec précision  0:48  comprend des mots des images et même  0:51  le ghetto physique est le premier généraliste  0:54  modèle qui fonctionne si bien sur tant de  0:56  différentes tâches et c'est extrêmement  0:58  prometteur pour le domaine où il a été formé  1:00  sur 604 tâches distinctes avec des  1:03  modalités observations et action  1:06  spécifications qui en font le parfait  1:08  généraliste et comme je l'ai dit il fait tout  1:11  qu'avec le même réseau et les mêmes poids  1:13  et avant de demander, il n'a besoin que de 1.2  1:15  milliards de paramètres par rapport à gpt3 qui  1:18  a besoin  1:19  175 milliards d'entre eux c'est pas un piège  1:22  où vous devez vous recycler ou combattre une unité  1:24  à toutes les tâches, vous pouvez envoyer à la fois une image  1:27  et le texte et cela fonctionnera, vous pouvez même  1:29  ajouter quelques mouvements d'un bras de robot  1:32  le modèle peut décider quel type de  1:34  sortie à fournir en fonction de son contexte  1:36  allant du texte à des actions discrètes dans  1:38  un environnement si vous avez aimé la vidéo  1:41  s'il vous plaît pensez à vous abonner et laissez-moi  1:43  savoir si vous aimez ce genre de vidéo d'actualité  1:46  je fais définitivement plus c'est possible  1:48  en raison de leur processus de tokenisation  1:50  la tokenisation, c'est quand vous préparez votre  1:52  entrées pour le modal car ils ne le font pas  1:55  comprendre du texte ou des images par eux-mêmes  1:57  les modèles linguistiques et le ghetto ont pris le dessus  1:59  nombre total de sous-mots par exemple 32  2:02  000 et chaque mot a un numéro attribué  2:05  pour les images ils suivent la vit  2:08  incorporation de patchs à l'aide d'un  2:10  bloc resnet comme nous l'avons couvert dans un précédent  2:12  vidéo nous avons également tokenisé le bouton  2:14  presses comme nombres entiers pour atari  2:16  jeux ou valeurs discrètes enfin pour  2:19  valeurs continues comme proprioceptive  2:21  entrées dont nous avons parlé avec le robot  2:23  bras ils ont encodé les différentes pistes  2:25  matrice en nombres flottants et les a ajoutés  2:27  après les jetons de texte en utilisant tous ceux  2h30  différentes entrées que l'agent adapte aux  2:32  tâche en cours pour générer des  2:34  sorties pendant la formation qu'ils utilisent prompt  2:36  conditionnement comme dans gpt3 avec précédemment  2:39  exemples d'actions et d'observations  2:42  progrès des agents généralistes rl dans le  2:44  ces dernières années ont été incroyables et sont venues  2:47  principalement de l'esprit profond, on pouvait voir que  2:49  ils rapprochent l'aiguille de  2:51  intelligence générale au niveau de l'IA ou de l'humain  2:55  si nous pouvons enfin le définir j'aime comment  2:57  de nombreux détails qu'ils ont donnés dans leur article  2:59  et j'ai hâte de voir ce qu'ils vont faire  3:01  ou ce que d'autres personnes feront en utilisant ceci  3:03  l'architecture du modèle le lien vers le  3:06  papier pour plus d'informations sur le  3:07  le modèle est dans la description j'espère que vous  3:09  j'ai bien aimé cette courte vidéo je viens de voir ça  3:12  nouvelles quand je me suis réveillé et je ne pouvais pas faire  3:13  autre chose que de faire cette vidéo  3:15  avant de commencer ma journée c'est juste trop  3:17  passionnant je vous verrai la semaine prochaine avec  un autre papier incroyable

Google

Watch more on YouTube: https://www.youtube.com/c/WhatsAI

I explain Artificial Intelligence terms and news to non-experts.

2021 - HackerNoon Contributor of the Year - FACEBOOK

2022 - Best Data Science Newsletter

2022 - HackerNoon Contributor of the Year - Artificial Intelligence

2022 - HackerNoon Contributor of the Year - Computer Vision

2022 - HackerNoon Contributor of the Year - Data Science

2022 - HackerNoon Contributor of the Year - Google

2022 - HackerNoon Contributor of the Year - Innovation

2022 - HackerNoon Contributor of the Year - Machine Learning

2022 - HackerNoon Contributor of the Year - Natural Language Processing

2022 - Top Tech Youtuber

2021 - HackerNoon Contributor of the Year - DEEP-LEARNING

Nominated for 2022 - Best Data Science Newsletter

Nominated for 2022 - HackerNoon Contributor of the Year - Artificial Intelligence

Nominated for 2022 - Top Tech Youtuber

Nominated for 2022 - HackerNoon Contributor of the Year - Innovation

Nominated for 2022 - HackerNoon Contributor of the Year - Data Science

Nominated for 2022 - HackerNoon Contributor of the Year - Natural Language Processing

Deepmind vient peut-être de créer la première IA générale au monde

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

Appuyez pour gagner : Telegram pourrait intégrer les 10 prochains milliards d'utilisateurs de crypto avant Solana

Télégramme : le pont de Crypto Island vers le continent

Vous voulez gagner un concours d’écriture HackerNoon ? Voici ce que recommandent les gagnants du concours #crypto-api

Le modèle Bitcoin UTXO, alimentant un écosystème unique

Appuyez pour gagner : Telegram pourrait intégrer les 10 prochains milliards d'utilisateurs de crypto avant Solana

Télégramme : le pont de Crypto Island vers le continent

Vous voulez gagner un concours d’écriture HackerNoon ? Voici ce que recommandent les gagnants du concours #crypto-api

Le modèle Bitcoin UTXO, alimentant un écosystème unique

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps