Gato da DeepMind acabou de ser publicado! É um único transformador que pode jogar jogos de Atari, legendar imagens, conversar com pessoas, controlar um braço robótico real e muito mais! Na verdade, ele é treinado uma vez e usa os mesmos pesos para realizar todas essas tarefas. E de acordo com Deepmind, este não é apenas um transformador, mas também um agente. Isso é o que acontece quando você mistura Transformers com progresso em agentes de aprendizado por reforço multitarefa. Como dissemos, o Gato é um agente multimodal. Isso significa que ele pode criar legendas para imagens ou responder perguntas como um chatbot. Você diria que o GPT-3 já pode fazer isso, mas o Gato pode fazer mais… mover objetos com precisão. Ele entende palavras, imagens e até física... Saiba mais no vídeo Referências ►Leia o artigo completo: ►Postagem do blog da Deepmind: ►Paper: Reed S. et al., 2022, Deemind: Gato, ►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/deepmind-gato/ https://www.deepmind.com/publications/a-generalist-agent https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf https://www.louisbouchard.ai/newsletter/ Transcrição do vídeo 0:00 Gato de deepmind acabou de ser publicado 0:02 é um único transformador que pode reproduzir 0:04 imagens de legenda de jogos atari bate-papo com 0:07 as pessoas controlam um braço robótico real e 0:09 mais na verdade é treinado uma vez e usa o 0:12 mesmos pesos para realizar todas essas tarefas 0:15 e de acordo com a mente profunda, isso não é apenas um 0:17 transformador, mas também um agente que é 0:20 o que acontece quando você mistura transformadores 0:22 com progresso em multitarefa 0:23 agentes de aprendizado por reforço como dissemos 0:26 gato é um agente multimodal, o que significa que 0:29 pode criar legendas para imagens ou 0:31 responda a perguntas como um chatbot que você veria 0:34 que gpt3 já pode fazer isso, mas ghetto 0:36 pode fazer mais a multimodalidade vem 0:39 o fato de que ghetto também pode jogar atari 0:41 jogos no nível humano ou até mesmo fazer real 0:44 tarefas mundiais como controlar robótica 0:46 braços para mover objetos com precisão 0:48 compreende palavras, imagens e até mesmo 0:51 o gueto da física é o primeiro generalista 0:54 modelo que funciona tão bem em tantos 0:56 tarefas diferentes e é extremamente 0:58 promissor para a área em que foi formado 1:00 em 604 tarefas distintas com diferentes 1:03 modalidades observações e ação 1:06 especificações tornando-o perfeito 1:08 generalista e como eu disse faz tudo 1:11 que com a mesma rede e pesos 1:13 e antes que pergunte só precisa de 1.2 1:15 bilhões de parâmetros em comparação com gpt3 que 1:18 requer 1:19 175 bilhões deles não é uma armadilha 1:22 onde você tem que retreinar ou lutar contra a unidade 1:24 para todas as tarefas, você pode enviar uma imagem 1:27 e texto e vai funcionar, você pode até 1:29 adicione alguns movimentos de um braço de robô 1:32 o modelo pode decidir que tipo de 1:34 saída para fornecer com base em seu contexto 1:36 variando de texto a ações discretas em 1:38 um ambiente se você gostou do vídeo 1:41 por favor, considere se inscrever e deixe-me 1:43 saber se você gosta desse tipo de vídeo de notícias 1:46 eu definitivamente faço mais isso é possível 1:48 por causa de seu processo de tokenização 1:50 tokenização é quando você prepara seu 1:52 entradas para o modal, pois não 1:55 entender texto ou imagens por si só 1:57 modelos de linguagem e gueto tomaram o 1:59 número total de subpalavras por exemplo 32 2:02 000 e cada palavra tem um número atribuído 2:05 para ele para imagens eles seguem o vit 2:08 incorporação de patch usando um amplamente utilizado 2:10 bloco resnet como cobrimos em um anterior 2:12 vídeo nós também tokenizamos o botão 2:14 pressiona como números inteiros para atari 2:16 jogos ou valores discretos finalmente para 2:19 valores contínuos como proprioceptivos 2:21 entradas sobre as quais falamos com o robótico 2:23 braços eles codificaram a trilha diferente 2:25 matriz em números flutuantes e os adicionei 2:27 após os tokens de texto usando todos aqueles 2:30 diferentes inputs o agente adapta ao 2:32 tarefa atual para gerar apropriado 2:34 saídas durante o treinamento, eles usam prompt 2:36 condicionado como em gpt3 com previamente 2:39 ações e observações amostradas 2:42 progresso em agentes rl generalistas no 2:44 últimos anos tem sido incrível e veio 2:47 principalmente da mente profunda, pode-se ver que 2:49 eles estão movendo a agulha mais perto de 2:51 IA geral ou inteligência de nível humano 2:55 se podemos finalmente defini-lo, eu amo como 2:57 muitos detalhes que eles deram em seu papel 2:59 e estou animado para ver o que eles farão 3:01 ou o que outras pessoas farão usando isso 3:03 arquitetura do modelo o link para o 3:06 papel para obter mais informações sobre o 3:07 modelo está na descrição espero você 3:09 Gostei desse pequeno vídeo acabei de ver isso 3:12 notícias quando acordei e não pude fazer 3:13 qualquer coisa além de fazer esse vídeo 3:15 antes de começar meu dia é muito 3:17 emocionante, vejo você na próxima semana com outro papel incrível