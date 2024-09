Gato da DeepMind acabou de ser publicado! É um único transformador que pode jogar jogos de Atari, legendar imagens, conversar com pessoas, controlar um braço robótico real e muito mais! Na verdade, ele é treinado uma vez e usa os mesmos pesos para realizar todas essas tarefas. E de acordo com Deepmind, este não é apenas um transformador, mas também um agente. Isso é o que acontece quando você mistura Transformers com progresso em agentes de aprendizado por reforço multitarefa.

Como dissemos, o Gato é um agente multimodal. Isso significa que ele pode criar legendas para imagens ou responder perguntas como um chatbot. Você diria que o GPT-3 já pode fazer isso, mas o Gato pode fazer mais… mover objetos com precisão. Ele entende palavras, imagens e até física...

0:00

Gato de deepmind acabou de ser publicado

0:02

é um único transformador que pode reproduzir

0:04

imagens de legenda de jogos atari bate-papo com

0:07

as pessoas controlam um braço robótico real e

0:09

mais na verdade é treinado uma vez e usa o

0:12

mesmos pesos para realizar todas essas tarefas

0:15

e de acordo com a mente profunda, isso não é apenas um

0:17

transformador, mas também um agente que é

0:20

o que acontece quando você mistura transformadores

0:22

com progresso em multitarefa

0:23

agentes de aprendizado por reforço como dissemos

0:26

gato é um agente multimodal, o que significa que

0:29

pode criar legendas para imagens ou

0:31

responda a perguntas como um chatbot que você veria

0:34

que gpt3 já pode fazer isso, mas ghetto

0:36

pode fazer mais a multimodalidade vem

0:39

o fato de que ghetto também pode jogar atari

0:41

jogos no nível humano ou até mesmo fazer real

0:44

tarefas mundiais como controlar robótica

0:46

braços para mover objetos com precisão

0:48

compreende palavras, imagens e até mesmo

0:51

o gueto da física é o primeiro generalista

0:54

modelo que funciona tão bem em tantos

0:56

tarefas diferentes e é extremamente

0:58

promissor para a área em que foi formado

1:00

em 604 tarefas distintas com diferentes

1:03

modalidades observações e ação

1:06

especificações tornando-o perfeito

1:08

generalista e como eu disse faz tudo

1:11

que com a mesma rede e pesos

1:13

e antes que pergunte só precisa de 1.2

1:15

bilhões de parâmetros em comparação com gpt3 que

1:18

requer

1:19

175 bilhões deles não é uma armadilha

1:22

onde você tem que retreinar ou lutar contra a unidade

1:24

para todas as tarefas, você pode enviar uma imagem

1:27

e texto e vai funcionar, você pode até

1:29

adicione alguns movimentos de um braço de robô

1:32

o modelo pode decidir que tipo de

1:34

saída para fornecer com base em seu contexto

1:36

variando de texto a ações discretas em

1:38

um ambiente se você gostou do vídeo

1:41

por favor, considere se inscrever e deixe-me

1:43

saber se você gosta desse tipo de vídeo de notícias

1:46

eu definitivamente faço mais isso é possível

1:48

por causa de seu processo de tokenização

1:50

tokenização é quando você prepara seu

1:52

entradas para o modal, pois não

1:55

entender texto ou imagens por si só

1:57

modelos de linguagem e gueto tomaram o

1:59

número total de subpalavras por exemplo 32

2:02

000 e cada palavra tem um número atribuído

2:05

para ele para imagens eles seguem o vit

2:08

incorporação de patch usando um amplamente utilizado

2:10

bloco resnet como cobrimos em um anterior

2:12

vídeo nós também tokenizamos o botão

2:14

pressiona como números inteiros para atari

2:16

jogos ou valores discretos finalmente para

2:19

valores contínuos como proprioceptivos

2:21

entradas sobre as quais falamos com o robótico

2:23

braços eles codificaram a trilha diferente

2:25

matriz em números flutuantes e os adicionei

2:27

após os tokens de texto usando todos aqueles

2:30

diferentes inputs o agente adapta ao

2:32

tarefa atual para gerar apropriado

2:34

saídas durante o treinamento, eles usam prompt

2:36

condicionado como em gpt3 com previamente

2:39

ações e observações amostradas

2:42

progresso em agentes rl generalistas no

2:44

últimos anos tem sido incrível e veio

2:47

principalmente da mente profunda, pode-se ver que

2:49

eles estão movendo a agulha mais perto de

2:51

IA geral ou inteligência de nível humano

2:55

se podemos finalmente defini-lo, eu amo como

2:57

muitos detalhes que eles deram em seu papel

2:59

e estou animado para ver o que eles farão

3:01

ou o que outras pessoas farão usando isso

3:03

arquitetura do modelo o link para o

3:06

papel para obter mais informações sobre o

3:07

modelo está na descrição espero você

3:09

Gostei desse pequeno vídeo acabei de ver isso

3:12

notícias quando acordei e não pude fazer

3:13

qualquer coisa além de fazer esse vídeo

3:15

antes de começar meu dia é muito

3:17

emocionante, vejo você na próxima semana com

outro papel incrível