Gato da DeepMind acabou de ser publicado! É um único transformador que pode jogar jogos de Atari, legendar imagens, conversar com pessoas, controlar um braço robótico real e muito mais! Na verdade, ele é treinado uma vez e usa os mesmos pesos para realizar todas essas tarefas. E de acordo com Deepmind, este não é apenas um transformador, mas também um agente. Isso é o que acontece quando você mistura Transformers com progresso em agentes de aprendizado por reforço multitarefa.
Como dissemos, o Gato é um agente multimodal. Isso significa que ele pode criar legendas para imagens ou responder perguntas como um chatbot. Você diria que o GPT-3 já pode fazer isso, mas o Gato pode fazer mais… mover objetos com precisão. Ele entende palavras, imagens e até física...
►Leia o artigo completo: https://www.louisbouchard.ai/deepmind-gato/
►Postagem do blog da Deepmind: https://www.deepmind.com/publications/a-generalist-agent
►Paper: Reed S. et al., 2022, Deemind: Gato, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/
0:00
Gato de deepmind acabou de ser publicado
0:02
é um único transformador que pode reproduzir
0:04
imagens de legenda de jogos atari bate-papo com
0:07
as pessoas controlam um braço robótico real e
0:09
mais na verdade é treinado uma vez e usa o
0:12
mesmos pesos para realizar todas essas tarefas
0:15
e de acordo com a mente profunda, isso não é apenas um
0:17
transformador, mas também um agente que é
0:20
o que acontece quando você mistura transformadores
0:22
com progresso em multitarefa
0:23
agentes de aprendizado por reforço como dissemos
0:26
gato é um agente multimodal, o que significa que
0:29
pode criar legendas para imagens ou
0:31
responda a perguntas como um chatbot que você veria
0:34
que gpt3 já pode fazer isso, mas ghetto
0:36
pode fazer mais a multimodalidade vem
0:39
o fato de que ghetto também pode jogar atari
0:41
jogos no nível humano ou até mesmo fazer real
0:44
tarefas mundiais como controlar robótica
0:46
braços para mover objetos com precisão
0:48
compreende palavras, imagens e até mesmo
0:51
o gueto da física é o primeiro generalista
0:54
modelo que funciona tão bem em tantos
0:56
tarefas diferentes e é extremamente
0:58
promissor para a área em que foi formado
1:00
em 604 tarefas distintas com diferentes
1:03
modalidades observações e ação
1:06
especificações tornando-o perfeito
1:08
generalista e como eu disse faz tudo
1:11
que com a mesma rede e pesos
1:13
e antes que pergunte só precisa de 1.2
1:15
bilhões de parâmetros em comparação com gpt3 que
1:18
requer
1:19
175 bilhões deles não é uma armadilha
1:22
onde você tem que retreinar ou lutar contra a unidade
1:24
para todas as tarefas, você pode enviar uma imagem
1:27
e texto e vai funcionar, você pode até
1:29
adicione alguns movimentos de um braço de robô
1:32
o modelo pode decidir que tipo de
1:34
saída para fornecer com base em seu contexto
1:36
variando de texto a ações discretas em
1:38
um ambiente se você gostou do vídeo
1:41
por favor, considere se inscrever e deixe-me
1:43
saber se você gosta desse tipo de vídeo de notícias
1:46
eu definitivamente faço mais isso é possível
1:48
por causa de seu processo de tokenização
1:50
tokenização é quando você prepara seu
1:52
entradas para o modal, pois não
1:55
entender texto ou imagens por si só
1:57
modelos de linguagem e gueto tomaram o
1:59
número total de subpalavras por exemplo 32
2:02
000 e cada palavra tem um número atribuído
2:05
para ele para imagens eles seguem o vit
2:08
incorporação de patch usando um amplamente utilizado
2:10
bloco resnet como cobrimos em um anterior
2:12
vídeo nós também tokenizamos o botão
2:14
pressiona como números inteiros para atari
2:16
jogos ou valores discretos finalmente para
2:19
valores contínuos como proprioceptivos
2:21
entradas sobre as quais falamos com o robótico
2:23
braços eles codificaram a trilha diferente
2:25
matriz em números flutuantes e os adicionei
2:27
após os tokens de texto usando todos aqueles
2:30
diferentes inputs o agente adapta ao
2:32
tarefa atual para gerar apropriado
2:34
saídas durante o treinamento, eles usam prompt
2:36
condicionado como em gpt3 com previamente
2:39
ações e observações amostradas
2:42
progresso em agentes rl generalistas no
2:44
últimos anos tem sido incrível e veio
2:47
principalmente da mente profunda, pode-se ver que
2:49
eles estão movendo a agulha mais perto de
2:51
IA geral ou inteligência de nível humano
2:55
se podemos finalmente defini-lo, eu amo como
2:57
muitos detalhes que eles deram em seu papel
2:59
e estou animado para ver o que eles farão
3:01
ou o que outras pessoas farão usando isso
3:03
arquitetura do modelo o link para o
3:06
papel para obter mais informações sobre o
3:07
modelo está na descrição espero você
3:09
Gostei desse pequeno vídeo acabei de ver isso
3:12
notícias quando acordei e não pude fazer
3:13
qualquer coisa além de fazer esse vídeo
3:15
antes de começar meu dia é muito
3:17
emocionante, vejo você na próxima semana com
outro papel incrível