¡Gato de DeepMind acaba de publicarse! ¡Es un solo transformador que puede jugar juegos de Atari, subtitular imágenes, chatear con personas, controlar un brazo robótico real y más! De hecho, se entrena una vez y utiliza los mismos pesos para realizar todas esas tareas. Y según Deepmind, este no es solo un transformador sino también un agente. Esto es lo que sucede cuando mezclas Transformers con el progreso en agentes de aprendizaje de refuerzo multitarea.
Como decíamos, Gato es un agente multimodal. Lo que significa que puede crear subtítulos para imágenes o responder preguntas como un chatbot. Diría que GPT-3 ya puede hacer eso, pero Gato puede hacer más... La multimodalidad proviene del hecho de que Gato también puede jugar juegos de Atari a nivel humano o incluso realizar tareas del mundo real como controlar brazos robóticos para mover objetos con precisión. Entiende palabras, imágenes e incluso física...
►Lea el artículo completo: https://www.louisbouchard.ai/deepmind-gato/
►Publicación del blog de Deepmind: https://www.deepmind.com/publications/a-generalist-agent
►Artículo: Reed S. et al., 2022, Deemind: Gato, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
►My Newsletter (¡Una nueva aplicación de IA explicada semanalmente en sus correos electrónicos!): https://www.louisbouchard.ai/newsletter/
0:00
Gato de deepmind acaba de ser publicado
0:02
es un solo transformador que puede jugar
0:04
atari juegos subtítulos imágenes chatear con
0:07
la gente controla un brazo robótico real y
0:09
más de hecho se entrena una vez y utiliza el
0:12
mismos pesos para lograr todas esas tareas
0:15
y según deepmind esto no es solo un
0:17
transformador pero también un agente esto es
0:20
¿Qué pasa cuando mezclas transformadores?
0:22
con progreso en multitarea
0:23
agentes de aprendizaje por refuerzo como dijimos
0:26
gato es un agente multimodal, lo que significa que
0:29
puede crear subtítulos para imágenes o
0:31
responder preguntas como un chatbot que verías
0:34
que gpt3 ya puede hacer eso pero ghetto
0:36
puede hacer más la multimodalidad viene de
0:39
el hecho de que ghetto también puede jugar atari
0:41
juegos a nivel humano o incluso hacer real
0:44
tareas mundiales como controlar robótica
0:46
brazos para mover objetos con precisión
0:48
entiende palabras imágenes e incluso
0:51
gueto de física es el primer generalista
0:54
modelo que funciona tan bien en tantos
0:56
diferentes tareas y es extremadamente
0:58
prometedor para el campo en el que fue entrenado
1:00
en 604 tareas distintas con diferentes
1:03
modalidades observaciones y acción
1:06
especificaciones que lo hacen perfecto
1:08
generalista y como dije lo hace todo
1:11
que con la misma red y pesos
1:13
y antes de preguntar solo necesita 1.2
1:15
mil millones de parámetros en comparación con gpt3 que
1:18
requiere
1:19
175 mil millones de ellos no es una trampa
1:22
donde tienes que volver a entrenar o luchar contra la unidad
1:24
a todas las tareas puedes enviar tanto una imagen
1:27
y texto y funcionará, incluso puedes
1:29
agregue algunos movimientos de un brazo robótico
1:32
el modelo puede decidir qué tipo de
1:34
salida para proporcionar en función de su contexto
1:36
desde texto hasta acciones discretas en
1:38
un ambiente si te gusto el video
1:41
por favor considera suscribirte y déjame
1:43
saber si te gustan este tipo de videos de noticias
1:46
Definitivamente hago más esto es posible
1:48
debido a su proceso de tokenización
1:50
tokenización es cuando preparas tu
1:52
entradas para el modal ya que no
1:55
comprender texto o imágenes por sí mismos
1:57
los modelos de lenguaje y el gueto tomaron la
1:59
número total de subpalabras por ejemplo 32
2:02
000 y cada palabra tiene un número asignado
2:05
a ella por imagenes siguen la vit
2:08
incrustación de parches utilizando un ampliamente utilizado
2:10
bloque resnet como cubrimos en un artículo anterior
2:12
video también tokenizamos el botón
2:14
prensas como números enteros para atari
2:16
juegos o valores discretos finalmente para
2:19
valores continuos como propioceptivo
2:21
entradas de las que hablamos con la robótica
2:23
brazos codificaron la pista diferente
2:25
matriz en números flotantes y los agregó
2:27
después de los tokens de texto usando todos esos
2:30
diferentes entradas el agente se adapta a la
2:32
tarea actual para generar
2:34
salidas durante el entrenamiento que usan aviso
2:36
acondicionado como en gpt3 con anteriormente
2:39
acciones y observaciones muestreadas
2:42
avances en agentes rl generalistas en el
2:44
últimos años ha sido increíble y vino
2:47
principalmente desde la mente profunda se podía ver que
2:49
están acercando la aguja a
2:51
IA general o inteligencia a nivel humano
2:55
si finalmente podemos definirlo, me encanta cómo
2:57
muchos detalles que dieron en su papel
2:59
y estoy emocionado de ver lo que harán
3:01
o lo que otras personas harán usando esto
3:03
arquitectura del modelo el enlace a la
3:06
documento para obtener más información sobre el
3:07
el modelo esta en la descripcion te espero
3:09
disfruté este video corto acabo de ver esto
3:12
noticias cuando desperté y no podía hacer
3:13
otra cosa que hacer este video
3:15
antes de empezar mi día es demasiado
3:17
emocionante te veré la próxima semana con
otro papel increíble