paint-brush
Deepmind pode ter acabado de criar a primeira IA geral do mundopor@whatsai
5,869 leituras
5,869 leituras

Deepmind pode ter acabado de criar a primeira IA geral do mundo

por Louis Bouchard3m2022/05/16
Read on Terminal Reader
Read this story w/o Javascript

Muito longo; Para ler

Gato da DeepMind acaba de ser publicado! É um único transformador que pode jogar jogos de Atari, legendar imagens, conversar com pessoas, controlar um braço robótico real e muito mais! Na verdade, ele é treinado uma vez e usa os mesmos pesos para realizar todas essas tarefas. O Gato é um agente multimodal, o que significa que pode criar legendas para imagens ou responder perguntas como um chatbot. Ele entende palavras, imagens e até física... saiba mais na transcrição do vídeo abaixo.

Company Mentioned

Mention Thumbnail
featured image - Deepmind pode ter acabado de criar a primeira IA geral do mundo
Louis Bouchard HackerNoon profile picture

Gato da DeepMind acabou de ser publicado! É um único transformador que pode jogar jogos de Atari, legendar imagens, conversar com pessoas, controlar um braço robótico real e muito mais! Na verdade, ele é treinado uma vez e usa os mesmos pesos para realizar todas essas tarefas. E de acordo com Deepmind, este não é apenas um transformador, mas também um agente. Isso é o que acontece quando você mistura Transformers com progresso em agentes de aprendizado por reforço multitarefa.

Como dissemos, o Gato é um agente multimodal. Isso significa que ele pode criar legendas para imagens ou responder perguntas como um chatbot. Você diria que o GPT-3 já pode fazer isso, mas o Gato pode fazer mais… mover objetos com precisão. Ele entende palavras, imagens e até física...

Saiba mais no vídeo

Referências

►Leia o artigo completo: https://www.louisbouchard.ai/deepmind-gato/
►Postagem do blog da Deepmind: https://www.deepmind.com/publications/a-generalist-agent
►Paper: Reed S. et al., 2022, Deemind: Gato, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/

Transcrição do vídeo

0:00

Gato de deepmind acabou de ser publicado

0:02

é um único transformador que pode reproduzir

0:04

imagens de legenda de jogos atari bate-papo com

0:07

as pessoas controlam um braço robótico real e

0:09

mais na verdade é treinado uma vez e usa o

0:12

mesmos pesos para realizar todas essas tarefas

0:15

e de acordo com a mente profunda, isso não é apenas um

0:17

transformador, mas também um agente que é

0:20

o que acontece quando você mistura transformadores

0:22

com progresso em multitarefa

0:23

agentes de aprendizado por reforço como dissemos

0:26

gato é um agente multimodal, o que significa que

0:29

pode criar legendas para imagens ou

0:31

responda a perguntas como um chatbot que você veria

0:34

que gpt3 já pode fazer isso, mas ghetto

0:36

pode fazer mais a multimodalidade vem

0:39

o fato de que ghetto também pode jogar atari

0:41

jogos no nível humano ou até mesmo fazer real

0:44

tarefas mundiais como controlar robótica

0:46

braços para mover objetos com precisão

0:48

compreende palavras, imagens e até mesmo

0:51

o gueto da física é o primeiro generalista

0:54

modelo que funciona tão bem em tantos

0:56

tarefas diferentes e é extremamente

0:58

promissor para a área em que foi formado

1:00

em 604 tarefas distintas com diferentes

1:03

modalidades observações e ação

1:06

especificações tornando-o perfeito

1:08

generalista e como eu disse faz tudo

1:11

que com a mesma rede e pesos

1:13

e antes que pergunte só precisa de 1.2

1:15

bilhões de parâmetros em comparação com gpt3 que

1:18

requer

1:19

175 bilhões deles não é uma armadilha

1:22

onde você tem que retreinar ou lutar contra a unidade

1:24

para todas as tarefas, você pode enviar uma imagem

1:27

e texto e vai funcionar, você pode até

1:29

adicione alguns movimentos de um braço de robô

1:32

o modelo pode decidir que tipo de

1:34

saída para fornecer com base em seu contexto

1:36

variando de texto a ações discretas em

1:38

um ambiente se você gostou do vídeo

1:41

por favor, considere se inscrever e deixe-me

1:43

saber se você gosta desse tipo de vídeo de notícias

1:46

eu definitivamente faço mais isso é possível

1:48

por causa de seu processo de tokenização

1:50

tokenização é quando você prepara seu

1:52

entradas para o modal, pois não

1:55

entender texto ou imagens por si só

1:57

modelos de linguagem e gueto tomaram o

1:59

número total de subpalavras por exemplo 32

2:02

000 e cada palavra tem um número atribuído

2:05

para ele para imagens eles seguem o vit

2:08

incorporação de patch usando um amplamente utilizado

2:10

bloco resnet como cobrimos em um anterior

2:12

vídeo nós também tokenizamos o botão

2:14

pressiona como números inteiros para atari

2:16

jogos ou valores discretos finalmente para

2:19

valores contínuos como proprioceptivos

2:21

entradas sobre as quais falamos com o robótico

2:23

braços eles codificaram a trilha diferente

2:25

matriz em números flutuantes e os adicionei

2:27

após os tokens de texto usando todos aqueles

2:30

diferentes inputs o agente adapta ao

2:32

tarefa atual para gerar apropriado

2:34

saídas durante o treinamento, eles usam prompt

2:36

condicionado como em gpt3 com previamente

2:39

ações e observações amostradas

2:42

progresso em agentes rl generalistas no

2:44

últimos anos tem sido incrível e veio

2:47

principalmente da mente profunda, pode-se ver que

2:49

eles estão movendo a agulha mais perto de

2:51

IA geral ou inteligência de nível humano

2:55

se podemos finalmente defini-lo, eu amo como

2:57

muitos detalhes que eles deram em seu papel

2:59

e estou animado para ver o que eles farão

3:01

ou o que outras pessoas farão usando isso

3:03

arquitetura do modelo o link para o

3:06

papel para obter mais informações sobre o

3:07

modelo está na descrição espero você

3:09

Gostei desse pequeno vídeo acabei de ver isso

3:12

notícias quando acordei e não pude fazer

3:13

qualquer coisa além de fazer esse vídeo

3:15

antes de começar meu dia é muito

3:17

emocionante, vejo você na próxima semana com

outro papel incrível