Los autores: Scott Reed Konrad Zołna Emilio Parisotto Sergio Gómez Colmenarejo Alejandro Novikov por Gabriel Barth-Maron Mai Giménez Yuri Sulsky Jackie Kay Jost Tobias Springenberg Tomás Eccles Jake Bruce Ali Razavi Ashley Edwards Nicolas Heess Juan Chen Raia Hadsell Vinos de Oriol Mahyar Bordbar Nando de Freitas Los autores: Scott Reed Konrad Zołna Emilio Parisotto Sergio Gómez Colmenarejo Alejandro Novikov por Gabriel Barth-Maron Mai Giménez Yuri Sulsky Jackie Kay Jost Tobias Springenberg Tomás Eccles Jake Bruce Ali Razavi Ashley Edwards NICOLAS HEESS Juan Chen Raíña Hadsell Vinos de Oriol Mahyar Bordbar Nando de Freitas Abstracción Inspirado por los avances en la modelización del lenguaje a gran escala, aplicamos un enfoque similar hacia la construcción de un único agente generalista más allá del ámbito de las salidas de texto. El agente, al que referimos como Gato, funciona como una política generalista multi-modal, multi-task, multi-embodiment. La misma red con los mismos pesos puede jugar Atari, imágenes de subtítulos, chat, pilas de bloques con un brazo de robot real y mucho más, decidiendo en función de su contexto si debe salir texto, torque de articulación, presiones de botones u otros tokens. En este informe describimos el modelo y los datos, y documentamos las capacidades actuales de Gato. 1 Introducción Hay beneficios significativos al usar un único modelo de secuencia neural en todas las tareas. Reduce la necesidad de modelos de políticas de fabricación manual con biases inductivas adecuadas para cada dominio. Aumenta la cantidad y diversidad de datos de formación ya que el modelo de secuencia puede ingerir cualquier dato que pueda ser serializado en una secuencia plana. Además, su rendimiento continúa mejorando incluso en la frontera de datos, computación y escala de modelo Históricamente, los modelos genéricos que son mejores en el aprovechamiento de la computación también han tendido a superar los enfoques específicos de dominio más especializados. al final. (Madrid y otros, En el 2020; Hoffmann y otros. En el año 2022. (Sutton, En el 2019), En este artículo, describimos la iteración actual de un agente de propósito general que llamamos Gato, instantiado como un modelo de secuencia de transformadores único, grande.Con un único conjunto de pesos, Gato puede participar en diálogo, imágenes de subtítulos, empacar bloques con un brazo de robot real, superar a los humanos jugando a los juegos de Atari, navegar en entornos 3D simulados, seguir instrucciones y más. Si bien no se puede esperar que ningún agente excele en todas las tareas de control imaginables, especialmente aquellas que están lejos de su distribución de entrenamiento, aquí testamos la hipótesis de que el entrenamiento de un agente que generalmente es capaz en una Este agente general puede ser adaptado con pocos datos adicionales para tener éxito en un número aún mayor de tareas. Hipotetizamos que tal agente puede obtenerse a través de la escalación de datos, cálculo y parámetros de modelo, ampliando continuamente la distribución de capacitación mientras se mantiene el rendimiento, para cubrir cualquier tarea, comportamiento e implementación de interés. En este entorno, el lan-guage natural puede actuar como una base común en diferentes implementaciones incompatibles, desbloqueando la generalización combinatoria a nuevos comportamientos. Gran número Centramos nuestra formación en el punto de operación de la escala del modelo que permite el control en tiempo real de los robots del mundo real, actualmente alrededor de los parámetros 1.2B en el caso de Gato. A medida que las arquitecturas de hardware y modelo mejoran, este punto de operación aumentará naturalmente el tamaño del modelo viable, empujando modelos generalistas más arriba a la curva de la ley de escala. Para la simplicidad, Gato fue entrenado fuera de línea de una manera puramente supervisada; sin embargo, en principio, no hay razón para que no pueda ser entrenado con el aprendizaje de reforzamiento (RL) fuera de línea o en línea. 2 Modelos El principio de diseño guía de Gato es entrenar en la mayor variedad de datos relevantes posible, incluyendo diversas modalidades como imágenes, texto, propriocepción, torques conjuntos, presiones de botones, y otras observaciones y acciones discretas y continuas. Para permitir el procesamiento de estos datos multi-modales, serializamos todos los datos en una secuencia plana de tokens. En esta representación, Gato puede ser entrenado y muestrado de forma similar a un modelo de lenguaje de gran escala estándar. Durante la implementación, los tokens muestran respuestas de diálogo, titulaciones, presiones de botones u otras acciones basadas en el contexto. En las subsecciones siguientes, describimos la tokenización de Gato, la arquitectura de red, la función y la implementación. 2.1 Tokenización Hay infinitas maneras posibles de transformar datos en tokens, incluido el uso directo del flujo de bytes subyacente crudo.A continuación informamos del esquema de tokenización que encontramos para producir los mejores resultados para Gato en la escala actual utilizando arquitecturas de hardware y modelo contemporáneos. El texto está codificado a través de SentencePiece (Kudo & Richardson, 2018) con 32000 subpalabras en el rango de números enteros [0, 32000]. Las imágenes se transforman primero en secuencias de 16 16 parches no superpuestos en orden raster, como se hizo en ViT (Dosovitskiy et al., 2020). Cada píxel en la imagen __p__atches se normaliza entonces entre [−1*,* 1] y se divide por la raíz cuadrada del tamaño del parche (es decir, √16 = 4). Los valores discretos, por ejemplo, los botones de Atari, se aplanan en secuencias de números enteros en orden mayor. El resultado tokenizado es una secuencia de números enteros dentro del rango de [0*,* 1024). Los valores continuos, por ejemplo, las entradas proprioceptivas o los torques conjuntos, se aplanan primero en secuencias de valores de punto flotante en orden mayor. Los valores se codifican mu-law en el rango [ 1*,* 1] si no están ya allí (véase la Figura 14 para más detalles), luego se discretizan a 1024 binos uniformes. Después de convertir los datos en tokens, utilizamos el siguiente orden de secuencia canónica. Tokens de texto en el mismo orden que el texto de entrada crudo. Imágenes de patch tokens en orden raster. Tensores en orden mayor. Estructuras en orden lexicográfico por clave. Los horarios del agente como tokens de observación seguidos de un separador, luego tokens de acción. Los episodios de los agentes como cronogramas en orden temporal. Más detalles sobre los datos de los agentes de tokenización se presentan en el material complementario (Sección b) El 2.2 Incorporar tokens de entrada y establecer metas de salida Después de la tokenización y la secuenciación, aplicamos una función de incorporación parametrizada *f* ( ; *θe*) a cada token (es decir, se aplica tanto a las observaciones como a las acciones) para producir la entrada del modelo final. • Los tokens pertenecientes a observaciones o acciones de texto, discretas o continuas para cualquier paso de tiempo se incorporan a través de una tabla de búsqueda en un espacio de incorporación de vectores aprendidos. • Los tokens pertenecientes a los parches de imagen para cualquier paso de tiempo se incorporan utilizando un único ResNet para obtener un vector por parche. Para las incorporaciones de token de parche de imagen, también añadimos un vector de codificación de posición dentro de la imagen aprendible. Él y el, En el 2016a Se refiere al apéndice Detalles completos sobre la función de embalaje. C.3 A medida que modelamos los datos de forma autoregresiva, cada token es potencialmente también una etiqueta de destino dada por los tokens anteriores. Tokens de texto, valores discretos y continuos, y acciones pueden ser directamente establecidos como objetivos después de la tokenización. Tokens de imagen y observaciones no textuales de agentes no se preveen actualmente en Gato, aunque eso puede ser una dirección interesante para el trabajo futuro. Los objetivos para estos tokens no predecibles se establecen a un valor no utilizado y su contribución a la pérdida se oculta. 2.3 Formación Dada una secuencia de tokens 1er : y los parámetros , modelamos los datos utilizando la regla de probabilidad de cadena: s L θ Deja Definimos una función de mascaramiento *m* de tal forma que *m*(*b, l*) = 1 si el token en el índice *l* es de texto o de la acción lograda de un agente, y 0 de otra manera. b Como se describió anteriormente, la arquitectura de la red de Gato tiene dos componentes principales: la función de embalaje paramétrico que transforma los tokens en embalajes de tokens, y el modelo de secuencia que emite una distribución sobre el siguiente token discreto. para la simplicidad y la escalabilidad. Gato utiliza un transformador solo para decodificación de parámetros 1.2B con 24 capas, un tamaño de embalaje de 2048, y un tamaño oculto de feedforward post-attention de 8196 (más detalles en Sección asani et al., El 2017 C 1 ) Debido a que las tareas distintas dentro de un dominio pueden compartir ejecuciones idénticas, formatos de observación y especificaciones de acción, el modelo a veces necesita más contexto para desambiguar las tareas. y use el condicionamiento prompt. Durante el entrenamiento, para el 25% de las secuencias en cada lote, se prependía una secuencia prompt, proveniente de un episodio generado por el mismo agente de fuente en la misma tarea. La mitad de las secuencias prompt son del final del episodio, actuando como una forma de condicionamiento objetivo para muchos dominios; y la otra mitad se muestran uniformemente del episodio. Durante la evaluación, el agente puede ser solicitado usando una demostración exitosa de la tarea deseada, que hacemos por defecto en todos los resultados de control que presentamos aquí. (Sanh et al. En el 2022; El y el, en 2021; Brown y otros. En el 2020) El entrenamiento del modelo se realiza en una fila 16x16 TPU v3 para pasos de 1M con tamaño de lote 512 y longitud de secuencia de token = 1024, que toma aproximadamente 4 días. Los detalles de la arquitectura se pueden encontrar en la sección Debido a que los episodios y documentos de agentes pueden contener fácilmente muchos más tokens de los que se ajustan al contexto, muestran aleatoriamente secuencias de Tokens de los episodios disponibles. Cada lote mezcla subsequencias aproximadamente uniformemente en todos los dominios (por ejemplo, Atari, MassiveWeb, etc.), con algún ponderamiento manual de conjuntos de datos de mayor y mayor calidad (véase la Tabla). En Sección para los detalles). L C . L 1 3 2.4 Deployment La implementación de Gato como una política se ilustra en la Figura Primero un prompt, como una demostración, se tokeniza, formando la secuencia inicial. Por defecto, tomamos los primeros 1024 tokens de la demostración. A continuación, el entorno produce la primera observación que se tokeniza y se adhiere a la secuencia. Gato muestra el vector de acción de forma autoregresiva un token a la vez. Una vez que todos los tokens que comprenden el vector de acción se han mostrado (determinado por la especificación de la acción del entorno), la acción se descifra invertiendo el procedimiento de tokenización descrito en la Sección Esta acción se envía al entorno que pasa y produce una nueva observación. El procedimiento se repite. El modelo siempre ve todas las observaciones y acciones anteriores en su ventana de contexto de 1024 tokens. 3. 2.1 El (Dai et al. El 2019). 3 Datos Gato está entrenado en un gran número de conjuntos de datos que incluyen experiencia de agentes en entornos simulados y reales, así como una variedad de conjuntos de datos de lenguaje natural e imagen. El número aproximado de tokens por conjunto de datos de control se calcula asumiendo el mecanismo de tokenización descrito en la Sección 1. 2.1 El 3.1 Tareas de control simuladas Nuestras tareas de control consisten en conjuntos de datos generados por especialistas SoTA o agentes de aprendizaje de refuerzo cerca de SoTA entrenados en una variedad de entornos diferentes. Para cada entorno registramos un subconjunto de la experiencia que genera el agente (estados, acciones y recompensas) mientras se está entrenando. Los entornos simulados incluyen Meta-World (Y Introducido a aprendizaje de meta-reforzo de referencia y aprendizaje multi-task, Sokoban Propuesto como un problema de planificación, BabyAI para la instrucción de idioma que sigue en los mundos de la red, el DM Control Suite (T para el control continuo, así como DM Lab Diseñado para enseñar a los agentes la navegación y la visión 3D a partir de píxeles crudos con un punto de vista egocéntrico. con los clásicos juegos de Atari (utilizamos dos conjuntos de juegos que llamamos ALE Atari y ALE Atari Extended, véase Sección para los detalles). U y al. En el 2020) (Racanière et al., El 2017 (Chevalier Boisvert et al., El 2018 Encuentran a los alemanes, En el 2020) (Battie et al. El 2016 (Madrid y otros, En el 2013) F1 También incluimos el Procgen Benchmark Modularidad RL También incluimos cuatro tareas utilizando un brazo Kinova Jaco simulado de DM Manipulation Playground, como se introdujo en Sección Incluye una descripción más detallada de estas tareas de control, junto con qué agente RL se utilizó para generar los datos. (Cobbe et al. En el 2020) (Juan y otros, En el 2020). Zola et al. y el 2020. F Encontramos que es eficaz entrenar en un conjunto filtrado de episodios con retornos de al menos el 80% del retorno del experto para la tarea.El retorno del experto mide el rendimiento máximo sostenido que el agente experto puede alcanzar. lo definimos como el máximo sobre el conjunto de todos los retornos promedio de ventana calculados sobre todos los episodios recopilados para una tarea: dónde es el número total de episodios recopilados para la tarea, es el tamaño de la ventana, y Es el retorno total para el episodio Para obtener estimaciones precisas, en la práctica, establecemos ser el 10% del total de datos o un mínimo de 1000 episodios (es decir, = min(1000*, * 0 * * 1 ) y N W ría i W W × N 3.2 Lenguaje y visión Gato es entrenado en MassiveText una colección de grandes conjuntos de datos de texto en inglés de múltiples fuentes: páginas web, libros, artículos de noticias y código. (Rae et al. En el año 2021, También incluimos varios conjuntos de datos en el lenguaje de visión en el entrenamiento de Gato. ALIGN Se compone de 1.8B de imágenes y sus anotaciones alternativas de texto (alt-text). LTIP (Long Text & Image Pairs), consta de 312 millones de imágenes con capturas. , de Capciones conceptuales Las capas de coco , de están titulando conjuntos de datos con pares de texto-imagen de 3,3M y 120k respectivamente. . , incluye 43M páginas web donde se extrajeron tanto texto como imágenes. También incluimos conjuntos de datos de respuesta a preguntas visuales. en particular OKVQA y VQAv2 con 9K y 443K tripletes de imágenes, preguntas y respuestas. Para formar un episodio de entrenamiento de estos, tomamos muestras de cinco pares (imagen, texto), tokenizamos, concatenamos y luego padamos o cosechamos aleatoriamente a la longitud de la secuencia de entrenamiento requerida. (Jesús y otros) En el 2021) (Alejandro y otros. En el año 2022. (Sharma et al. El 2018 (Juan y al. En el 2015) (Madrid y al En el 2022) (Marino y al , El 2019) (Antol et al. En el 2015) 3.3 Robotics - RGB Stacking Benchmark (real and sim) Como un conjunto de datos de prueba para tomar acciones físicas en el mundo real, eligimos el entorno de ensamblaje de bloques robóticos introducido por [Lee et al.](#_bookmark89) [(2021).](#_bookmark89) El entorno consiste en un brazo robótico de Sawyer con control de velocidad cartesiano 3-DoF, un DoF adicional para la velocidad y una acción de gripper discreta. El espacio de trabajo del robot contiene tres bloques de plástico de color rojo, verde y azul con formas variables. Las observaciones disponibles incluyen dos 128 imágenes de cámara, brazo robótico y ángulos articulares del gripper, así como la posición de efecto final del robot. Notablemente, la información de estado de la verdad en el terreno para los tres objetos en la cesta no es observada por el agente En Skill Generalization, para simulación y real, utilizamos datos recopilados por el mejor generalista sim2real agente de We collected data only when interacting with the designated RGB-stacking (esto equivale a un total de 387k trayectorias exitosas en simulación y 15k trayectorias en realidad). en simulación y a partir de la mejor política sim2real en el robot real (incluyendo hasta 219k trayectorias en total). Lee y Al. El 2021). Objetos de entrenamiento Lee y Al. (2021) en el 5.4 El 4 Capabilities of the generalist agent In this section, we summarize the performance of Gato when trained on the above described data. That is, all results across all tasks are derived from a single pretrained model with a single set of weights. Results with fine-tuning will be presented in Section 5. 4.1 Simulated control tasks Figure muestra el número de tareas de control distintas para las que Gato realiza más de un umbral de puntuación dado, en relación con el rendimiento de los expertos demostrado en los datos de capacitación de Gato. 5 Informamos el rendimiento como porcentaje, donde el 100% corresponde al experto por tarea y el 0% a una política aleatoria. Para cada tarea de control simulada en la que hemos entrenado nuestro modelo, implementamos la política de Gato en el entorno correspondiente 50 veces y promedio de las puntuaciones definidas. Gato realiza más de 450 de 604 tareas con un umbral de puntuación de más del 50% de expertos. 5, En el Atari Gato logra el promedio humano (o mejor) en 23 juegos de Atari , achieving over twice human score for 11 games. While the single-task online RL agents which generated the data still outperform Gato, this may be overcome by adding capacity or using offline RL training rather than purely supervised (see Section where we present a specialist single domain ALE Atari agent achieving better than human scores for 44 games). (Bellemare et al., 2013) 1 5.5 On BabyAI Gato achieves over 80% of expert score for nearly all levels . For the most difficult task, called BossLevel, Gato scores 75%. The two other published baselines we could find, BabyAI 1.0 and BabyAI 1.1 , scored 77% and 90%, respectively, having trained on this single task alone using a million demonstrations. (Chevalier-Boisvert et al., 2018) 2 (Hui et al. En el 2020), On Meta-World (Y Gato achieves more than 50% for all 44 out of 45 tasks that we trained on, over 80% for 35 tasks, and over 90% for 3 tasks. On canonical DM Control Suite (T Gato achieves better than 50% of the expert score on 21 out of 30 tasks from state, and more than 80% for 18 tasks. u et al., 2020) assa et al. 2018), 4.2 Robotics First person teleoperation enables the collection of expert demonstrations. However, such demonstrations are slow and costly to collect. Data-efficient behavior cloning methods are therefore desirable for training a generalist robot manipulator and offline pretraining is thus a well-motivated area of research. To that end, we evaluated Gato on the established RGB Stacking benchmark for robotics. Skill Generalization Performance The Skill Generalization challenge from the RGB Stacking robotics benchmark tests the agent’s ability to stack objects of previously unseen shapes. The agent is trained on a dataset consisting of episodes of the robot stacking objects with a variety of different shapes. Five triplets of object shapes are, however, not included in the training data and serve as test triplets. We evaluated the trained generalist for 200 episodes per test triplet on the real robot. Table shows that our generalist agent’s success rate on each test triplet is comparable to the single task BC-IMP (filtered BC) baseline in 2 Lee et al. (2021). 4.3 Text samples The model demonstrates rudimentary dialogue and image captioning capabilities. Figure contains a rep-resentative sample of Gato’s image captioning performance. Figure muestra algunos ejemplos seleccionados a mano del intercambio de diálogo de texto simple. 6 7 5 Analysis 5.1 Scaling Laws Analysis In Figure analizamos el rendimiento agregado en la distribución del modelo pre-entrenado como una función del número de parámetros para obtener una idea de cómo el rendimiento podría mejorar con una mayor capacidad del modelo. evaluamos 3 tamaños de modelo diferentes (medidos en número de parámetros): un modelo 79M, un modelo 364M y un modelo 1.18B (Gato). for details on the three model architectures. 8, C Here, for all three model sizes we plot the normalized return as training progresses. To get this single value, for each task we calculate the performance of the model as a percentage of expert score (the same as done in Section 1). Then for each domain listed in Table promedio de los porcentajes de puntuación en todas las tareas para ese dominio. Finalmente, agregamos los porcentajes de puntuación en todos los dominios. Podemos ver que para un número de tokens equivalente, hay una mejora significativa en el rendimiento con mayor escala. 4. 1 5.2 Out of distribution tasks In this section we want to answer the following question: For this reason, we held-out all data for four tasks from our pre-training set: cartpole.swingup (DM Control Suite domain), assembly-v2 (Meta-World domain), order_of_apples_forage_simple (DM Lab domain), and boxing (ALE Atari domain). These four tasks will serve as testbeds for evaluating the out-of-distribution capabilities of Gato. Can our agent be used to solve a completely new task efficiently? Ideally, the agent could potentially learn to adapt to a new task via conditioning on a prompt including demonstrations of desired behaviour. However, due to accelerator memory constraints and the extremely long sequence lengths of tokenized demonstrations, the maximum context length possible does not allow the agent to attend over an informative-enough context. Therefore, to adapt the agent to new tasks or behaviours, we choose to fine-tune the agent’s parameters on a limited number of demonstrations of a single task, and then evaluate the fine-tuned model’s performance in the environment. Fine-tuning is very similar to pretraining with minor changes, such as different learning rate schedule; see Section for details. E We want to measure how choice of data used during pretraining influences post-fine-tuning performance. To this end, we compare Gato (trained on ) to variants trained on ablated datasets: all data 1. A model pretrained only on data from the same domain as the task to be fine-tuned on, . same domain only data 2. A model pretrained only on non-control data, . no control data 3. A model fine-tuned from scratch, i.e. no pretraining at all, . El Scratch Considerando que todos estos experimentos requieren la formación de un nuevo modelo desde cero y luego también el ajuste fino, presentamos los resultados utilizando la arquitectura de parámetros 364M menos computacional descrita en la Sección Los resultados se muestran en la figura 5.1. 9. Fine-tuning performance on both cartpole.swingup and assembly-v2 tasks, both of which do not require image processing, present similar trends. Pretraining on all the datasets yields the best results, followed by pretraining on the same domain only. This difference is smaller for assembly-v2 but consistent for all few shot datasets. For these non-image-based environments, we see either no benefit (cartpole.swingup) or even negative transfer (assembly-v2) when pretraining on datasets, which only contain images and text data. no control Los resultados para DM Lab order_of_apples_forage_simple son ligeramente diferentes. El entrenamiento previo en los datos de DM Lab solo es ya suficiente para acercarse a la recompensa máxima de 19 y por lo tanto no hay ningún beneficio observable de agregar datos de diferentes entornos. Lo que es diferente cuando se compara con los entornos sin visión previamente analizados es que el entrenamiento previo en data helps, which can be possibly explained by the fact that agents in the DM Lab environment are fed images which, despite being simulated, are natural looking. Therefore, transfer from image captioning or visual grounded question answering tasks is possible. no control We were not able to observe any benefit from pretraining on boxing. The randomly initialized model seems to work better than any of the pretrained variants considered. We hypothesise that this is caused by the game’s input images being visually very distinct from the other data, suggesting transfer is difficult. We discuss this Atari challenge further in our related work section. 5.3 Fine-tuning on Robotic Stacking Tasks Sección Demostra que la base Gato capaz de una variedad de tareas puede desempeñar de manera competitiva en el RGB Stacking Skill Generalization benchmark. En esta sección, nos gustaría responder a la siguiente pregunta: *Cómo mejora nuestro agente en las tareas de robótica cuando se permite ajustar de forma similar a cómo ajustamos a las nuevas tareas en Sección * Consideramos diferentes tamaños de modelo y analizamos el impacto de los conjuntos de datos de pretraining en el índice de Skill Generalization, así como una nueva tarea fuera de distribución. 4.2 5.2 ¿ I. Skill Generalization En primer lugar, queremos mostrar que el ajuste de datos específicos de objetos, similar a lo que se hizo por is beneficial. Therefore, we fine-tuned Gato separately on five subsets of demonstrations from the dataset. Each subset was obtained by random partitioning of a test dataset consisting of demonstrations gathered by a generalist sim-to-real agent stacking real test objects. We consider this setting, which is comparable to the fine-tuning baselines on RGB stacking tasks from Para coincidir mejor con sus experimentos, cambiamos nuestro esquema de filtración de retorno durante el entrenamiento: en lugar de usar sólo las pilas exitosas, condicionamos el retorno normalizado del episodio. Lee et al. (2022), test (Lee et al., 2022); Figura compares the success rate of Gato across different fine-tuning data regimes to the sim-to-real expert and a Critic-Regularized Regression (CRR) agent trained on 35k episodes of all test triplets. Gato, in both reality and simulation (red curves on the left and right figure, respectively), recovers the expert’s performance with only 10 episodes, and peaks at 100 or 1000 episodes of fine-tuning data, where it exceeds the expert. After this point (at 5000), performance degrades slightly but does not drop far below the expert’s performance. 10 (Wang et al., En el 2020) Fine-tuning and Model Size To better understand the benefit of large models for few-shot adaptation in robotics domains, we conducted an ablation on model parameter size. This section focuses on in-simulation evaluation. Figure compares the full 1.18B parameter Gato with the smaller 364M and 79M parameter variants for varying amounts of fine-tuning data. Although the 364M model overfits on one episode, causing performance to drop, there is a clear trend towards better adaptation with fewer episodes as the number of parameters is scaled up. The 79M model performs clearly worse than its bigger counterparts. The results suggest that the model’s greater capacity allows the model to use representations learned from the diverse training data at test time. 10 Adaptation to Perceptual Variations While the Skill Generalization task is an effective benchmark for motor Skill Generalization to shape varia-tions, it does not test the agent’s ability to adapt to perceptual variations and permutations in the objective specification. To further evaluate Gato’s generalization capabilities, we devised a new task in the RGB stacking benchmark where the goal is to stack the blue object on the green object, for test triplet 1 (see Figure En primer lugar, usamos un ratón 3D para recoger 500 demostraciones de esta tarea en el robot real, por un total de 2 horas y 45 minutos de datos de demostración, y ajustamos a Gato a estos episodios. Notablemente, todos los datos de robótica simulados y reales en el conjunto de pre-entrenamiento muestran al robot empacar con éxito el objeto rojo en el objeto azul, y los datos no incluyen las formas de objeto en el conjunto de prueba. 11 ) We achieved a final 60% success rate after evaluating fine-tuned Gato on the real robot, while a BC baseline trained from scratch on the blue-on-green data achieved only 0.5% success (1/200 episodes). Qualitatively, the BC baseline would consistently move towards the blue object and occasionally pick it up and place it on top of the green object, but a full, stable stack was almost never achieved. 5.4 Robótica: Habilidades de dominio Al igual que el reto de la generalización de habilidades discutido en la sección the Skill Mastery challenge consists in training a robotic arm to stack blocks of different shapes. However, the Skill Mastery allows the agent to train on data involving the object shapes used for evaluation, i.e. the set in Skill Generalization becomes a part of the Skill Mastery set. Thus, this challenge serves to measure Gato’s performance on in-distribution tasks (possibly with initial conditions not seen in the training demonstrations). Our Skill Mastery results use an earlier version of the Gato architecture described in Appendix with no fine-tuning. 4.2, test training H, Table compares the group-wise success percentage and the average success across object groups for Gato and the established BC-IMP baseline. Gato exceeds or closely matches BC-IMP’s performance on all but one training triplet. 3 5.5 Specialist single-domain multi-task agents In this section we show results obtained with two specialist (rather than generalist) agents. Both of them were trained on data from a single domain only and rolled out 500 times for each training task without any per-task fine-tuning. Meta-World The first agent uses the smallest architecture introduced in Section i.e. 79M parameters, and is trained on all 50 Meta-World tasks. While Gato has access to the state of the MuJoCo physics engine and unlimited task seeds, the agent presented here has no access to any extra features or tasks and uses the canonical API as in (Y This experiment is to show that the architecture proposed in our paper can be used to obtain state-of-the-art agents also at small scale. The training procedure was to train single-task MPO experts on each of the MT-50 tasks individually, recording the trajectories produced while training. This experience is then combined, or distilled, into a single agent, which achieves 96.6% success rate averaged over all 50 tasks. To the best of our knowledge this agent is the first one to accomplish nearly 100% average success rate simultaneously (multi-task) for this benchmark. See Table in the supplementary material (Section for the full list of tasks and corresponding success rates of our agent. 5.1, u et al., En el 2020). (Abdolmaleki et al., El 2018 7 K) ALE Atari We also trained a specialist agent on all 51 ALE Atari tasks. As the Atari domain is much more challenging than Meta-World, we used the Gato architecture with 1.18B parameters. The resulting agent performs better than the average human for 44 games (see Section for details on our evaluation and scoring). We want to note that the performance of online experts used to generate training data for the other 7 games were also below the average human. Hence, the specialist Atari agent achieved better than human performance for all games where data contained super-human episodes. 4.1 The specialist Atari agent outperforms our generalist agent Gato, which achieved super-human performance on 23 games. It suggests that scaling Gato may result in even better performance. We, however, purposely restricted Gato’s size such that it can be run in real-time on the real robot. 5.6 Análisis de la atención We rendered the transformer attention weights over the image observations for various tasks, to gain a qualitative sense of how Gato attends to different regions of the image across tasks (see Figure Further details and visualizations for more tasks can be found in Appendix These visualizations clearly show that attention tracks the task-relevant objects and regions. 12). J. 5.7 Embedding Visualization Para comprender cómo Gato codifica de manera diferente la información por tarea, visualizamos las incorporaciones por tarea. We analysed 11 tasks. For each task, we randomly sample 100 episodes and tokenize each of them. Then, from each episode we take a subsequence of 128 tokens, compute their embeddings (at layer 12, which is half the total depth of the transformer layers) and average them over the sequence. The averaged embeddings for all tasks are used as input to PCA, which reduces their dimensionality to 50. Then, T-SNE is used to get the final 2D embeddings. Figure shows the final T-SNE embeddings plotted in 2D, colorized by task. Embeddings from the same tasks are clearly clustered together, and task clusters from the same domain and modality are also located close to each other. Even held-out task (cartpole.swingup) is clustered correctly and lays next to another task from DM Control Suite Pixels. 13 6 Related Work The most closely related architectures to that of Gato are Decision Transformers , and Trajectory Transformer which showed the usefulness of highly generic LM-like architectures for a variety of control problems. Gato also uses an LM-like architecture for control, but with design differences chosen to support multi-modality, multi-embodiment, large scale and general purpose deployment. Pix2Seq also uses an LM-based architecture for object detection. Perceiver IO ., utiliza una arquitectura derivada de transformadores especializada en secuencias muy largas, para modelar cualquier modalidad como una secuencia de bytes. (Chen et al., 2021b; Reid et al., 2022; Zheng et al., 2022; Furuta et al. 2021) (Janner et al., 2021), (Chen et al., 2022) (Jaegle et al 2021) Gato was inspired by works such as GPT-3 and Gopher pushing the limits of generalist language models; and more recently the Flamingo generalist visual language model. developed the 540B parameter Pathways Language Model (PalM) explicitly as a generalist few-shot learner for hundreds of text tasks. (Brown et al., En el 2020) (Rae et al., 2021), (Alejandro y otros. En el 2022) Chowdhery et al. (2022) Future work should consider how to unify these text capabilities into one fully generalist agent that can also act in real time in the real world, in diverse environments and embodiments. Gato also takes inspiration from recent works on multi-embodiment continuous control. used message passing graph networks to build a single locomotor controller for many simulated 2D walker variants. showed that transformers can outperform graph based approaches for incom-patible (i.e. varying embodiment) control, despite not encoding any morphological inductive biases. learn a modular policy for multi-task and multi-robot transfer in simulated 2D manipulation environments. train a universal policy conditioned on a vector representation of robot hardware, showing successful transfer both to simulated held out robot arms, and to a real world sawyer robot arm. Huang et al. (2020) Córdoba et al. El 2020 Devin y al . (2017) Chen et al. (2018) A variety of earlier generalist models have been developed that, like Gato, operate across highly distinct domains and modalities. NPI Entrenado con un único LSTM to execute diverse programs such as sorting an array and adding two numbers, such that the network is able to generalize to larger problem instances than those seen during training. developed the MultiModel that trains jointly on 8 distinct speech, image and text processing tasks including classifica-tion, image captioning and translation. Modality-specific encoders were used to process text, images, audio and categorical data, while the rest of the network parameters are shared across tasks. proposed “ ”, describing a method for the incremental training of an increasingly general problem solver. proposed controllable multi-task language models that can be directed according to language domain, subdomain, entities, relationships between entities, dates, and task-specific behavior. (Reed & De Freitas, 2016) (Hochreiter & Schmidhuber, 1997) Kaiser et al. (2017) Schmidhuber (2018) one big net for everything César et al. (2019) In this discussion, it is important to distinguish between one single multi-task network architecture versus one single neural network with the same weights for all tasks. Several poplar RL agents achieve good multi-task RL results within single domains such as Atari57 and DMLab However, it is much more common to use the same policy architecture and hyper-parameters across tasks, but the policy parameters are different in each task This is also true of state-of-the-art RL methods applied to board games Moreover, this choice has been adopted by off-line RL benchmarks and recent works on large sequence neural networks for control, including decision transformers and the Trajectory Transformer of In contrast, in this work we learn a single network with the same weights across a diverse set of tasks. (Espeholt et al., En 2018; canciones y al. 2020; Hessel et al., 2019). (Muchos y otros) 2015; Tassa et al., 2018). (Schrittwieser et al., 2020). (Gulcehre et al., 2020; Fu et al., 2020) (Chen et al., 2021b; Reid et al., En el 2022; Zheng et al. En el 2022) Janner et al. El 2021). Los trabajos de postura recientes abogan por modelos altamente generalistas, en particular proposing one big net for everything, and on foundation models. However, to our knowledge there has not yet been reported a single generalist trained on hundreds of vision, language and control tasks using modern transformer networks at scale. SiguienteSiguiente (2018) Bommasani et al. (2021) “Single-brain”-style models have interesting connections to neuroscience. famously stated that “ ”. Mountcastle found that columns of neurons in the cortex behave similarly whether associated with vision, hearing or motor control. This has motivated arguments that we may only need one algorithm or model to build intelligence Mountcastle (1978) the processing function of neocortical modules is qualitatively similar in all neocortical regions. Put shortly, there is nothing intrinsically motor about the motor cortex, nor sensory about the sensory cortex (Hawkins & Blakeslee, 2004). Sensory substitution provides another argument for a single model For example, it is possible to build tactile visual aids for blind people as follows. The signal captured by a camera can be sent via an electrode array on the tongue to the brain. The visual cortex learns to process and interpret these tactile signals, endowing the person with some form of “vision”. Suggesting that, no matter the type of input signal, the same network can process it to useful effect. (Bach-y Rita & Kercel, 2003). Our work is based on deep autoregressive models, which have a long history and can be found in generative models of text, images, video and audio. Combining autoregressive generation with transformers (V has been of enormous impact in language modelling protein folding Modelo de lenguaje visual (T) code generation Sistemas de diálogo con capacidades de recuperación speech recognition neural machine translation and more , Recently researchers have explored task decomposition and grounding with language models aswani et al., 2017; Devlin et al. 2018) (Brown et al., 2020; Rae et al., 2021), (Jumper et al., 2021), de Simancas et al. 2021; Wang et al., 2021; Alayrac et al., 2022), (Chen et al., 2021c; Li et al., 2022b), (Nakano et al., 2021; Thoppilan et al., 2022), (Pratap et al., 2020), (Johnson et al., 2019) (Bommasani et al. 2021). (Huang et al., 2022; Ahn y al , 2022). construct a control architecture, consisting of a sequence tokenizer, a pretrained language model and a task-specific feed-forward network. They apply it to VirtualHome and BabyAI tasks, and find that the inclusion of the pretrained language model improves generalisation to novel tasks. Similarly, demonstrate that vision models pretrained with self-supervised learning, especially crop segmentations and momentum contrast can be effectively incorporated into control policies. Li et al. (2022a) Parisi et al. (2022) (He et al., 2020), As mentioned earlier, transfer in Atari is challenging. researched transfer between ran-domly selected Atari games. They found that Atari is a difficult domain for transfer because of pronounced differences in the visuals, controls and strategy among the different games. Further difficulties that arise when applying behaviour cloning to video games like Atari are discussed by Rusu et al. (2016) Kanervisto et al. (2020). There has been great recent interest in data-driven robotics However, note that in robotics “ ”. Moreover, every time we update the hardware in a robotics lab, we need to collect new data and retrain. We argue that this is precisely why we need a generalist agent that can adapt to new embodiments and learn new tasks with few data. (Cabi et al., El 2019; Chen et al., 2021a). Bommasani et al. (2021) the key stumbling block is collecting the right data. Unlike language and vision data, robotics data is neither plentiful nor representative of a sufficiently diverse array of embodiments, tasks, and environments Generar acciones utilizando un modelo autoregresivo puede conducir a prejuicios causales de “auto-delusión” cuando hay variables confusas For example, sampling actions can condition the model to solve the wrong task when multiple tasks share similar observation and actions specifications. As explained in Section we use prompt engineering in ambiguous tasks, conditioning our model on a successful demon-stration. This screens off confounding variables, reducing self-delusions. Another solution which we did not explore in this work is to use counterfactual teaching, where we train a model online using instantaneous expert feedback. We leave this for future investigation. (Ortega et al., 2021). 2 , 7 Broader Impact Although generalist agents are still only an emerging area of research, their potential impact on society calls for a thorough interdisciplinary analysis of their risks and benefits. For the sake of transparency, we document the intended use cases of Gato in the model card in Appendix However, the tools for mitigating harms of generalist agents are relatively underdeveloped, and require further research before these agents are deployed. A. Since our generalist agent can act as a vision-language model, it inherits similar concerns as discussed in In addition, generalist agents can take actions in the the physical world; posing new challenges that may require novel mitigation strategies. For example, physical embodiment could lead to users anthropomorphizing the agent, leading to misplaced trust in the case of a malfunctioning system, or be exploitable by bad actors. Additionally, while cross-domain knowledge transfer is often a goal in ML research, it could create unexpected and undesired outcomes if certain behaviors (e.g. arcade game fighting) are transferred to the wrong context. The ethics and safety considerations of knowledge transfer may require substantial new research as generalist systems advance. (Wei-dinger et al., 2021; Bommasani et al., 2021; Rae et al., en 2021; Alayrac et al. 2022). Technical AGI safety may also become more challenging when considering generalist agents that operate in many embodiments. For this reason, preference learning, uncertainty modeling and value alignment (R are especially important for the design of human-compatible generalist agents. It may be possible to extend some of the value alignment approaches for language to generalist agents. However, even as technical solutions are developed for value alignment, generalist systems could still have negative societal impacts even with the intervention of well-intentioned designers, due to unforeseen circumstances or limited oversight This limitation underscores the need for a careful design and a deployment process that incorporates multiple disciplines and viewpoints. (Bostrom, 2017) ussell, 2019) (Ouyang et al., 2022; Kenton et al., En el 2021) (Madrid y otros. 2016). Understanding how the models process information, and any emergent capabilities, requires significant ex-perimentation. External retrieval se ha demostrado que mejora tanto la interpretabilidad como el rendimiento, por lo que debe ser considerado en los futuros diseños de agentes generalistas. (Borgeaud et al., 2021; Menéndez et al. 2022; Nakano et al., en 2021; Thoppilan y al , 2022) Aunque todavía se encuentra en la fase de prueba del concepto, los recientes avances en los modelos generalistas sugieren que los investigadores de seguridad, los éticos y, lo más importante, el público en general, deben considerar sus riesgos y beneficios. Actualmente no estamos desplegando Gato a ningún usuario, y por lo tanto no anticipamos ningún impacto inmediato en la sociedad. Sin embargo, dado su impacto potencial, los modelos generalistas deben ser desarrollados con cuidado y desplegados de una manera que promueva la salud y la vitalidad de la humanidad. 8 Limitations and Future work 8.1 RL data collection Gato is a data-driven approach, as it is derived from imitation learning. While natural language or image datasets are relatively easy to obtain from the web, a web-scale dataset for control tasks is not currently available. This may seem at first to be problematic, especially when scaling Gato to a higher number of parameters. That being said, there has already been extensive investigation into this issue. Offline RL aims at leveraging existing control datasets, and its increasing popularity has already resulted in the availability of more diverse and larger datasets. Richer environments and simulations are being built (e.g. Metaverse), and increasing numbers of users already interact with them among thousands of already deployed online games (e.g. there exists a large dataset of Starcraft 2 games). Real-life data has also been already stored for ML research purposes; for example, data for training self-driving cars is acquired from recording human driver data. Finally, while Gato uses data consisting of both observations and corresponding actions, the possibility of using large scale observation-only data to enhance agents has been already studied (Baker et al., En el año 2022. Thanks to online video sharing and streaming platforms such as Youtube and Twitch, observation-only datasets are not significantly more difficult to collect than natural language datasets, motivating a future research direction to extend Gato to learn from web data. While the previous paragraph focuses on alleviating drawbacks of data collection from RL agents, it is important to note that this approach presents a different set of tradeoffs compared to scraping web data and can be actually more practical in some situations. Once the simulation is set up and near SOTA agent trained, it can be used to generate massive amounts of high quality data. That is in contrast to the quality of web data which is notorious for its low quality. In short, we believe that acquiring suitable data is another research question on its own, and this is an active area of research with growing momentum and importance. 8.2 Prompt and short context Gato is prompted with an expert demonstration, which aids the agent to output actions corresponding to the given task. This is particularly useful since there is otherwise no task identifier available to the agent (that is in contrast to many multi-task RL settings). Gato infers the relevant task from the observations and actions in the prompt. However, the context length of our agent is limited to 1024 tokens which translates to the agent sometimes attending to only a few environment timesteps in total. This is especially the case for environments with image observations, where depending on the resolution each observation can result in more than one hundred tokens each. Hence for certain environments only a short chunk of a demonstration episode fits in the transformer memory. Due to this limited prompt context, preliminary experiments with different prompt structures resulted in very similar performance. Similarly, early evaluations of the model using prompt-based in-context learning on new environments did not show a significant performance improvement compared to prompt-less evaluation in the same setting. Context-length is therefore a current limitation of our architecture, mainly due to the quadratic scaling of self-attention. Many recently proposed architectures enable a longer context at greater efficiency and these innovations could potentially improve our agent performance. We hope to explore these architectures in future work. 9 Conclusiones Transformer sequence models are effective as multi-task multi-embodiment policies, including for real-world text, vision and robotics tasks. They show promise as well in few-shot out-of-distribution task learning. In the future, such models could be used as a default starting point via prompting or fine-tuning to learn new behaviors, rather than training from scratch. Dadas las tendencias de escalada de la ley, el rendimiento en todas las tareas, incluido el diálogo, aumentará con la escala en parámetros, datos y computación. Las mejores arquitecturas de hardware y red permitirán la formación de modelos más grandes mientras se mantiene la capacidad de control de robots en tiempo real. Al escalar e iterar sobre este mismo enfoque básico, podemos construir un agente de propósito general útil. Acknowledgments We would like to thank Dan Horgan, Manuel Kroiss, Mantas Pajarskas, and Thibault Sottiaux for their help with data storage infrastructure; Jean-Baptiste Lespiau and Fan Yang for help on concurrent evalua-tion; Joel Veness for advising on the model design; Koray Kavukcuoglu for helping inspire the project and facilitating feedback; Tom Erez for advising on the agent design and task selection for continuous control; Igor Babuschkin for helping code the initial prototype; Jack Rae for advising on the transformer language model codebase; Thomas Lampe for building robot infrastructure and advising on real robotics experiments; Boxi Wu for input on ethics and safety considerations; Pedro A. Ortega for advice in regard to causality and self-delusion biases. Author Contributions desarrolló el concepto del proyecto, escribió el prototipo inicial y dirigió el proyecto en su conjunto. led architecture development for vision and text, built infrastructure for tokenization and prompting, and contributed heavily to overall agent development and evaluation. Scott Reed Konrad Żołna led work on optimizing the transformer architecture, ran the largest number of experi-ments, and analyzed scaling law properties and in-distribution agent performance. Emilio Parisotto was the technical lead, responsible for creating a scalable data loader and evaluator supporting hundreds of tasks at once, and for the initial robot integration with Gato. Sergio Gómez Colmenarejo developed the model including the sampler for the initial prototype, carried out ex-periments focusing on robotics, and created visualizations. Alexander Novikov built scalable storage infrastructure to provide Gato with SoTA-level agent expe-rience in Atari and other domains. Gabriel Barth-Maron Realizó la recopilación de datos de agentes a gran escala, construyó una infraestructura de carga de datos sustancial y integró conjuntos de datos de lenguaje visual a gran escala en la formación de Gato. Mai Giménez contributed broadly to the Gato codebase including a bespoke distributed training sequence loader, and led the development of benchmarks for out-of-distribution generalization, and the training of competitive baseline agents. Yury Sulsky supported physical robotics infrastructure, conducted numerous evaluations and experiments to analyze the generalization properties of Gato, and contemplated broader ethical impact. Jackie Kay guided Gato’s deployment to the physical robot, provided strong existing base-lines for block stacking, and advised on model development and experimental design. Jost Tobias Springenberg developed the Gato dialogue and image captioning demonstrations, allowing users to easily probe the vision and language capacities of agents in development. Tom Eccles contributed to agent design as well as control datasets and environments with randomized physics and morphology variations. Jake Bruce helped in exploring vision architectures. Ali Razavi contributed to the first prototype of Gato that worked on Atari, in addition to exploring alternative network architectures and training objectives. Ashley Edwards Asesoramiento en el diseño de agentes, diseño experimental y selección de tareas, especialmente para aplicaciones de control continuo. Nicolas Heess advised on model design and experiments, and provided feedback in regular meetings. Yutian Chen advised on the design and planning of robotics efforts. Raia Hadsell advised on all aspects of the project, especially model architecture, training strategies and benchmark design. Oriol Vinyals was the primary project manager; eliciting key goals, tracking progress, facilitating pre-sentations and feedback, and coordinating resource planning. Mahyar Bordbar oversaw the project from its inception. Nando de Freitas References Abbas Abdolmaleki, Jost Tobias Springenberg, Yuval Tassa, Remi Munos, Nicolas Heess, and Martin Ried-miller. Maximum a posteriori policy optimisation. , 2018. Preprint arXiv:1806.06920 Samira Abnar and Willem Zuidema. Quantifying attention flow in transformers. En el 2020. Preimpresión arXiv:2005.00928 Michael Ahn, Anthony Brohan, Noah Brown, Yevgen Chebotar, Omar Cortes, Byron David, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, et al. Do as i can, not as i say: Grounding language in robotic affordances. En el 2022. Preprint arXiv:2204.01691 Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andy Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, and Karen Simonyan. Flamingo: a visual language model for few-shot learning. , 2022. Preprint arXiv:2204.14198 Dario Amodei, Chris Olah, Jacob Steinhardt, Paul F. Christiano, John Schulman y Dan Mané. , 2016. Preprint arXiv:1606.06565 Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh. VQA: Visual question answering. In , pp. 2425–2433, 2015. International Conference on Computer Vision Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. , 2016. Preprint arXiv:1607.06450 Paul Bach-y Rita and Stephen W Kercel. Sensory substitution and the human-machine interface. , 7(12):541–546, 2003. Trends in cognitive sciences Bowen Baker, Ilge Akkaya, Peter Zhokhov, Joost Huizinga, Jie Tang, Adrien Ecoffet, Brandon Houghton, Raul Sampedro, and Jeff Clune. Video pretraining (vpt): Learning to act by watching unlabeled online videos. , 2022. Preprint arXiv::2206.11795 Gabriel Barth-Maron, Matthew W Hoffman, David Budden, Will Dabney, Dan Horgan, Dhruva Tb, Alistair Muldal, Nicolas Heess, and Timothy Lillicrap. Distributed distributional deterministic policy gradients. , 2018. Preprint arXiv:1804.08617 Charles Beattie, Joel Z Leibo, Denis Teplyashin, Tom Ward, Marcus Wainwright, Heinrich Küttler, Andrew Lefrancq, Simon Green, Víctor Valdés, Amir Sadik, et al. DeepMind lab. , 2016. Preprint arXiv:1612.03801 Marc G Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling. The arcade learning environment: An evaluation platform for general agents. , 47:253 a 279, 2013. Journal of Artificial Intelligence Research Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, et al. On the opportunities and risks of foundation models. , 2021. Preprint arXiv:2108.07258 Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, et al. Improving language models by retrieving from trillions of tokens. , 2021. Preprint arXiv:2112.04426 Nick Bostrom. . Dunod, 2017. Superintelligence Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman, Jie Tang, and Wojciech Zaremba. Openai gym. En el 2016. Preprint arXiv:1606.01540 TB Brown, B Mann, N Ryder, M Subbiah, J Kaplan, P Dhariwal, A Neelakantan, P Shyam, G Sastry, A Askell, et al. Language models are few-shot learners. In , pp. 1877–1901, 2020. Avances en Sistemas Neurales de Procesamiento de Información Serkan Cabi, Sergio Gómez Colmenarejo, Alexander Novikov, Ksenia Konyushkova, Scott Reed, Rae Jeong, Konrad Zolna, Yusuf Aytar, David Budden, Mel Vecerik, et al. Scaling data-driven robotics with reward sketching and batch reinforcement learning. En el 2019. Preprint arXiv:1909.12200 Annie S Chen, Suraj Nair, and Chelsea Finn. Learning generalizable robotic reward functions from “in-the-wild" human videos. , 2021a. Preprint arXiv:2103.16817 Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Misha Laskin, Pieter Abbeel, Ar-avind Srinivas, and Igor Mordatch. Decision transformer: Reinforcement learning via sequence modeling. , 34, 2021b. Avances en Sistemas Neurales de Procesamiento de Información Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. Evaluating large language models trained on code. , 2021c. Preprint arXiv:2107.03374 Tao Chen, Adithyavairavan Murali, and Abhinav Gupta. Hardware conditioned policies for multi-robot transfer learning. 31 de enero de 2018. Advances in Neural Information Processing Systems Ting Chen, Saurabh Saxena, Lala Li, David J Fleet, and Geoffrey Hinton. Pix2seq: A language modeling framework for object detection. In En el 2022. ICLR Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollár, y C Lawrence Zitnick. En el 2015. Preprint arXiv:1504.00325 Maxime Chevalier-Boisvert, Dzmitry Bahdanau, Salem Lahlou, Lucas Willems, Chitwan Saharia, Thien Huu Nguyen, and Yoshua Bengio. BabyAI: A platform to study the sample efficiency of grounded language learning. , 2018. Preprint arXiv:1810.08272 Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. PaLM: Scaling language modeling with pathways. , 2022. Preprint arXiv:2204.02311 Karl Cobbe, Chris Hesse, Jacob Hilton, and John Schulman. Leveraging procedural generation to benchmark reinforcement learning. In , pp. 2048–2056, 2020. International Conference on Machine Learning Zihang Dai, Zhilin Yang, Yiming Yang, Jaime G Carbonell, Quoc Le, and Ruslan Salakhutdinov. Transformer-xl: Attentive language models beyond a fixed-length context. In , pp. 2978–2988, 2019. Reunión Anual de la Asociación de Lingüística Computacional Coline Devin, Abhishek Gupta, Trevor Darrell, Pieter Abbeel, and Sergey Levine. Learning modular neural network policies for multi-task and multi-robot transfer. In , pp. 2169–2176, 2017. IEEE International Conference on Robotics & Automation Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirec-tional transformers for language understanding. , 2018. Preprint arXiv:1810.04805 Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Un-terthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. , 2020. Preprint arXiv:2010.11929 Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Vlad Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, et al. Impala: Scalable distributed deep-RL with importance weighted actor-learner architectures. In , pp. 1407–1416, 2018. International Conference on Machine Learning Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey Levine. D4RL: Datasets for deep data-driven reinforcement learning. , 2020. Preprint arXiv:2004.07219 Hiroki Furuta, Yutaka Matsuo, and Shixiang Shane Gu. Generalized decision transformer for offline hindsight information matching. , 2021. Preprint arXiv:2111.10364 Caglar Gulcehre, Ziyu Wang, Alexander Novikov, Thomas Paine, Sergio Gómez, Konrad Zolna, Rishabh Agarwal, Josh S Merel, Daniel J Mankowitz, Cosmin Paduraru, et al. RL unplugged: A suite of benchmarks for offline reinforcement learning. , 33:7248–7259, 2020. Avances en Sistemas Neurales de Procesamiento de Información Jeff Hawkins and Sandra Blakeslee. . Macmillan, 2004. On intelligence Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In , pp. 770–778, 2016a. IEEE Computer Vision and Pattern Recognition Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity mappings in deep residual networks. In , pp. 630–645, 2016b. European Conference on Computer Vision Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. In , pp. 9729–9738, 2020. IEEE Computer Vision y reconocimiento de patrones Dan Hendrycks and Kevin Gimpel. Gaussian error linear units (GELUs). , 2016. Matteo Hessel, Hubert Soyer, Lasse Espeholt, Wojciech Czarnecki, Simon Schmitt, and Hado van Hasselt. Preprint arXiv:1606.08415 Multi-task Deep Reinforcement Learning con popart. , 2019. AAAI Matteo Hessel, Ivo Danihelka, Fabio Viola, Arthur Guez, Simon Schmitt, Laurent Sifre, Theophane Weber, David Silver, and Hado van Hasselt. Muesli: Combining improvements in policy optimization. , 2021. Preprint arXiv:2104.06159 Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. , 9(8):1735–1780, 1997. Neural computation Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. Training compute-optimal large language models. En el 2022. Preprint arXiv:2203.15556 Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, and Kilian Weinberger. Deep networks with stochastic depth. , 2016. Preprint arXiv:1603.09382 Wenlong Huang, Igor Mordatch, and Deepak Pathak. One policy to control them all: Shared modular policies for agent-agnostic control. In , pp. 4455–4464, 2020 International Conference on Machine Learning Wenlong Huang, Pieter Abbeel, Deepak Pathak, and Igor Mordatch. Language models as zero-shot planners: Extracting actionable knowledge for embodied agents. En el 2022. Preprint arXiv:2201.07207 David Yu-Tung Hui, Maxime Chevalier-Boisvert, Dzmitry Bahdanau y Yoshua Bengio. , 2020. Preprint arXiv:2007.12770 Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, et al. Perceiver IO: A general architecture for structured inputs & outputs. , 2021. Preprint arXiv:2107.14795 Michael Janner, Qiyang Li, and Sergey Levine. Offline reinforcement learning as one big sequence modeling problem. , 34, 2021. Advances in Neural Information Processing Systems Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc Le, Yun-Hsuan Sung, Zhen Li, and Tom Duerig. Scaling up visual and vision-language representation learning with noisy text supervision. In , pp. 4904–4916, 2021. International Conference on Machine Learning Melvin Johnson, Orhan Firat, y Roee Aharoni. Traducción masiva de máquina neural multilingüe. , pp. 3874–3884, 2019. Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, et al. Predición de estructura de proteínas altamente precisa con AlphaFold. , 596(7873):583–589, 2021. Nature Lukasz Kaiser, Aidan N Gomez, Noam Shazeer, Ashish Vaswani, Niki Parmar, Llion Jones y Jakob Uszkoreit. , 2017. Preprint arXiv:1706.05137 Anssi Kanervisto, Joonas Pussinen, and Ville Hautamäki. Benchmarking end-to-end behavioural cloning on video games. In , pp. 558–565, 2020. IEEE conference on games (CoG) Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. , 2020. Preprint arXiv:2001.08361 Steven Kapturowski, Georg Ostrovski, John Quan, Remi Munos, and Will Dabney. Recurrent experience replay in distributed reinforcement learning. In , 2018. International Conference on Learning Representations Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik y Geoffrey Irving. Alineación de agentes lingüísticos. , 2021. Preprint arXiv:2103.14659 Nitish Shirish Keskar, Bryan McCann, Lav R Varshney, Caiming Xiong, and Richard Socher. CTRL: A conditional transformer language model for controllable generation. , 2019. Preprint arXiv:1909.05858 Diederik P. Kingma and Jimmy Ba. Adam: A method for stochastic optimization. , 2014. Preprint arXiv:1412.6980 Taku Kudo and John Richardson. SentencePiece: A simple and language independent subword tokenizer and detokenizer for neural text processing. In , Reunión Anual de la Asociación de Lingüística Computacional pp. 66–71, 2018. Vitaly Kurin, Maximilian Igl, Tim Rocktäschel, Wendelin Boehmer, and Shimon Whiteson. My body is a cage: the role of morphology in graph-based incompatible control. En el 2020. Preprint arXiv:2010.01856 Alex X Lee, Coline Manon Devin, Yuxiang Zhou, Thomas Lampe, Konstantinos Bousmalis, Jost Tobias Springenberg, Arunkumar Byravan, Abbas Abdolmaleki, Nimrod Gileadi, David Khosid, et al. Más allá del pick-and-place: Tackling robotic stacking de diversas formas. En el 2021. Conferencia sobre el aprendizaje robótico Alex X Lee, Coline Manon Devin, Jost Tobias Springenberg, Yuxiang Zhou, Thomas Lampe, Abbas Abdol-maleki, and Konstantinos Bousmalis. How to spend your robot time: Bridging kickstarting and offline reinforcement learning for vision-based robotic manipulation. , 2022. Preprint arXiv:2205.03353 Shuang Li, Xavier Puig, Chris Paxton, Yilun Du, Clinton Wang, Linxi Fan, Tao Chen, De-An Huang, Ekin Akyürek, Anima Anandkumar, Jacob Andreas, Igor Mordatch, Antonio Torralba, and Yuke Zhu. Pre-trained language models for interactive decision-making. En el año 2022a. Preprint arXiv:2202.01771 Yujia Li, David Choi, Junyoung Chung, Nate Kushman, Julian Schrittwieser, Rémi Leblond, Tom Eccles, James Keeling, Felix Gimeno, Agustin Dal Lago, et al. Competition-level code generation with AlphaCode. , 2022b. Preprint arXiv:2203.07814 Ilya Loshchilov y Frank Hutter. Regularización de la decadencia de peso desconocida. , 2017. Preprint arXiv:1711.05101 Kenneth Marino, Mohammad Rastegari, Ali Farhadi, and Roozbeh Mottaghi. Ok-VQA: A visual question answering benchmark requiring external knowledge. In ,pp. 3195–3204, 2019. IEEE Computer Vision and Pattern Recognition Jacob Menick, Maja Trebacz, Vladimir Mikulik, John Aslanides, Francis Song, Martin Chadwick, Mia Glaese, Susannah Young, Lucy Campbell-Gillingham, Geoffrey Irving, et al. Teaching language models to support answers with verified quotes. En el 2022. Preprint arXiv:2203.11147 Margaret Mitchell, Simone Wu, Andrew Zaldivar, Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji, and Timnit Gebru. Model cards for model reporting. In , pp. 220–229, 2019. Proceedings of the conference on fairness, accountability, and transparency Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu, Joel Veness, Marc G Bellemare, Alex Graves, Martin Riedmiller, Andreas K Fidjeland, Georg Ostrovski, et al. Human-level control through deep reinforcement learning. , 518(7540):529–533, 2015 Naturaleza Vernon Mountcastle. An organizing principle for cerebral function: the unit module and the distributed system. En 1978. The mindful brain Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, et al. WebGPT: Browser-assisted question-answering with human feedback. , 2021. Preprint arXiv:2112.09332 Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu. WaveNet: A generative model for raw audio. , 2016. Preprint arXiv:1609.03499 Pedro A Ortega, Markus Kunesch, Grégoire Delétang, Tim Genewein, Jordi Grau-Moya, Joel Veness, Jonas Buchli, Jonas Degrave, Bilal Piot, Julien Perolat, et al. Shaking the foundations: delusions in sequence models for interaction and control. , 2021. Preprint arXiv:2110.10819 Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. , 2022. Preprint arXiv:2203.02155 Simone Parisi, Aravind Rajeswaran, Senthil Purushwalkam y Abhinav Gupta.La eficacia no sorprendente de los modelos de visión pre-entrenados para el control. , 2022. Preprint arXiv:2203.03580 Vineel Pratap, Anuroop Sriram, Paden Tomasello, Awni Hannun, Vitaliy Liptchinsky, Gabriel Synnaeve, and Ronan Collobert. Massively multilingual ASR: 50 languages, 1 model, 1 billion parameters. , 2020. Preprint arXiv:2007.03001 Sébastien Racanière, Théophane Weber, David Reichert, Lars Buesing, Arthur Guez, Danilo Jimenez Rezende, Adrià Puigdomènech Badia, Oriol Vinyals, Nicolas Heess, Yujia Li, et al. Imagination-augmented agents for deep reinforcement learning. , 30, 2017. Advances in Neural Information Processing Systems Jack W Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, et al. Scaling language models: Methods, analysis & insights from training gopher. , 2021. Preprint arXiv:2112.11446 Scott Reed y Nando De Freitas, programadores neuronales , 2016. International Conference on Learning Representations Machel Reid, Yutaro Yamada, y Shixiang Shane Gu. ¿Puede Wikipedia ayudar al aprendizaje en línea? , 2022. Preprint arXiv:2201.12122 de Stuart Russell. . Penguin, 2019. Andrei A Rusu, Neil C Rabinowitz, Guillaume Desjardins, Hubert Soyer, James Kirkpatrick, Koray Human compatible: Artificial intelligence and the problem of control Kavukcuoglu, Razvan Pascanu, and Raia Hadsell. Progressive neural networks. , 2016. Preprint arXiv:1606.04671 Victor Sanh, Albert Webson, Colin Raffel, Stephen Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Arun Raja, Manan Dey, M Saiful Bari, Canwen Xu, Urmish Thakker, Shanya Sharma Sharma, Eliza Szczechla, Taewoon Kim, Gunjan Chhablani, Nihal Nayak, Debajyoti Datta, Jonathan Chang, Mike Tian-Jian Jiang, Han Wang, Matteo Manica, Sheng Shen, Zheng Xin Yong, Harshit Pandey, Rachel Bawden, Thomas Wang, Trishala Neeraj, Jos Rozen, Abheesht Sharma, Andrea Santilli, Thibault Fevry, Jason Alan Fries, Ryan Teehan, Teven Le Scao, Stella Biderman, Leo Gao, Thomas Wolf, and Alexander M Rush. Multitask prompted training enables zero-shot task generalization. In En el 2022. International Conference on Learning Representations Jürgen Schmidhuber. One big net for everything. , 2018. Preprint arXiv:1802.08864 Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, et al. Mastering atari, go, chess and shogi by planning with a learned model. , 588(7839):604–609, 2020. Nature Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut. Conceptual captions: A cleaned, hyper-nymed, image alt-text dataset for automatic image captioning. In , pp. 2556–2565, 2018. Annual Meeting of the Association for Computational Linguistics Noam Shazeer. Glu variants improve transformer. En el 2020. Preprint arXiv::2002.05202 H Francis Song, Abbas Abdolmaleki, Jost Tobias Springenberg, Aidan Clark, Hubert Soyer, Jack W Rae, Seb Noury, Arun Ahuja, Siqi Liu, Dhruva Tirumala, et al. V-mpo: On-policy maximum a posteriori policy optimization for discrete and continuous control. In , 2020. ICLR Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever y Ruslan Salakhutdinov. , 15(56): de 1929 a 1958, 2014. Journal of Machine Learning Research Richard Sutton. The bitter lesson. , 13:12, 2019. Incomplete Ideas (blog) Yuval Tassa, Yotam Doron, Alistair Muldal, Tom Erez, Yazhe Li, Diego de Las Casas, David Budden, Abbas Abdolmaleki, Josh Merel, Andrew Lefrancq, y otros. , 2018. Preprint arXiv:1801.00690 Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, et al. LaMDA: modelos de idiomas para aplicaciones de diálogo. , 2022. Preprint arXiv:2201.08239 Emanuel Todorov, Tom Erez y Yuval Tassa. Mujoco: Un motor de física para el control basado en modelos. , pp. 5026–5033, 2012 International Conference on Intelligent Robots and Systems Maria Tsimpoukelli, Jacob L Menick, Serkan Cabi, SM Eslami, Oriol Vinyals, and Felix Hill. Multimodal few-shot learning with frozen language models. , pp. 200–212, 2021. Advances in Neural Information Processing Systems Saran Tunyasuvunakool, Alistair Muldal, Yotam Doron, Siqi Liu, Steven Bohez, Josh Merel, Tom Erez, Timothy Lillicrap, Nicolas Heess, and Yuval Tassa. dm_control: Software and tasks for continuous control. , 6:100022, 2020. Software Impacts Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. 30 de diciembre de 2017. Advances in Neural Information Processing Systems Zirui Wang, Jiahui Yu, Adams Wei Yu, Zihang Dai, Yulia Tsvetkov, and Yuan Cao. Simvlm: Simple visual language model pretraining with weak supervision. , 2021. Preprint arXiv:2108.10904 Ziyu Wang, Alexander Novikov, Konrad Zolna, Josh S Merel, Jost Tobias Springenberg, Scott E Reed, Bobak Shahriari, Noah Siegel, Caglar Gulcehre, Nicolas Heess, y otros. , 33:7768–7778, 2020. Avances en Sistemas Neurales de Procesamiento de Información Jason Wei, Maarten Bosma, Vincent Y Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M Dai, and Quoc V Le. Finetuned language models are zero-shot learners. , 2021. Preprint arXiv:2109.01652 Laura Weidinger, John Mellor, Maribeth Rauh, Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng, Mia Glaese, Borja Balle, Atoosa Kasirzadeh, et al. Ethical and social risks of harm from language models. , 2021. Preprint arXiv:2112.04359 Yuxin Wu and Kaiming He. Group normalization. In , pp. 3 a 19, 2018. European Conference on Computer Vision Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julian, Karol Hausman, Chelsea Finn, and Sergey Levine. Meta-World: A benchmark and evaluation for multi-task and meta reinforcement learning. In , pp. 1094–1100, 2020. Conference on Robot Learning Qinqing Zheng, Amy Zhang, and Aditya Grover. Online decision transformer. , 2022. Preprint arXiv:2202.05607 Konrad Zolna, Alexander Novikov, Ksenia Konyushkova, Caglar Gulcehre, Ziyu Wang, Yusuf Aytar, Misha Denil, Nando de Freitas, and Scott Reed. Offline learning from demonstrations and unlabeled experience. , 2020. Preprint arXiv:2011.13885 Konrad Zolna, Scott Reed, Alexander Novikov, Sergio Gómez Colmenarejo, David Budden, Serkan Cabi, Misha Denil, Nando de Freitas, and Ziyu Wang. Task-relevant adversarial imitation learning. In , pp. 247–263, 2021. Conference on Robot Learning Supplementary Material A Model card We present a model card for Gato in Table 4. Table 4: We follow the framework proposed in Gato Model Card. (Mitchell et al., 2019). B Agent Data Tokenization Details En esta sección proporcionamos detalles adicionales sobre nuestros esquemas de tokenización.Nuestros datos de agentes se secuencian de la siguiente manera: • are presented to the agent in order of time (timesteps). Episodes • in turn are presented in the following order: Timesteps ([ 1: 1: 1: ]) are ordered lexicographically by key, each item is sequenced as follows: – Observations y k, x m, z n ∗ Texto tokens ( 1: ) are in the same order as the raw input text. y k ∗ Image patch tokens ( 1: ) are in raster order. x m ∗ Tensors ( 1: ) (such as discrete and continuous observations) are in row-major order. z n – (' "); se proporciona un token de separador designado después de las observaciones. Separator | – (en el 1: ) son tokenizados como valores discretos o continuos y en orden mayor. Actions a A A full sequence of tokens is thus given as the concatenation of data from T timesteps: where L = T(k + m + n + 1 + A) is the total number of tokens. Each floating point element of tensors in the observation sequence is mu-law companded as in WaveNet (Oord y al , 2016): con parámetros μ = 100 y M = 256. (Si el tensor de punto flotante está en el conjunto de acciones, no necesitamos compilar los elementos en la secuencia porque las acciones sólo se definen en el rango \[1, 1\] para todos nuestros entornos.) Todos los elementos se cortan posteriormente para que caigan en el conjunto \[1, 1\]. Por último, se discretizan utilizando binos de anchura uniforme en el dominio \[1, 1\]. Utilizamos 1024 binos y desplazamos los enteros resultantes para que no se sobrepongan con los utilizados para tokens de texto. See Figure and Figure para visualizaciones de valores de tokenización y secuenciación (tanto discretos como contínuos) e imágenes. for details about local position encodings referenced in the figures. 14 15 C C Model Architecture C.1 Transformer Hyperparameters The transformer hyperparameters of Gato are presented in Table We also list the hyperparameters of smaller architecture variants used in Section 5. 5. C.2 Embedding Function El bloque ResNet utiliza la arquitectura v2 contains GroupNorm with 32 groups instead of LayerNorm and GELU activation functions instead of RELU. The block is diagrammed in Figure (He et al., 2016b), (Wu & He, 2018) (Ba et al., 2016), (Hendrycks y Gimpel, 2016) 16. C.3 Position Encodings Después de que los tokens se mapeen en las incorporaciones de tokens, se añaden dos codificaciones de posición a las incorporaciones de tokens (cuando sea aplicable) para proporcionar información temporal y espacial al modelo. Patch de posición de codificación These position encodings convey information about a patch’s global position within the image from which the patch was extracted. First, the relative row and column intervals of the patch are calculated by normalizing the patch’s pixel intervals by the image resolution. The row and column normalized intervals are then quantized into a vocabulary size (we use 128) and are used to index a row and column table of learnable position encodings. The method in which the quantized row and column intervals are converted into indices depends on whether we are training or evaluating the model: during training a random index is uniformly sampled from the quantized interval, while during evaluation we deterministically take the (rounded) mean of the interval. Once row and column position encoding are retrieved from the embedding table, they are added onto the token embedding produced by the resnet embedding function, as described previously. To more concretely demonstrate this process, we provide an example in Figure [17.](#_bookmark144) We will follow the process with the patch highlighted in red on the left of the subfigure. The image is of resolution 80 64 and each patch is 16 16, meaning there are 5 4 = 20 patches total. The highlighted patch starts at pixel row interval \[16*,* 32\] and pixel column interval \[32*,* 64\]. Normalized, the row interval is therefore \[0*.*25*,* 0*.*5\] and the column interval is \[0*.*4*,* 0*.*6\]. We then separately quantize the intervals into 128 uniformly spaced bins, with the resulting quantized row interval being \[32*,* 64\] and the quantized column interval being \[51*,* 77\]. During training, we uniformly sample integers between the quantized row intervals, whereas during testing we would use the means, which are index 48 for row position and index 64 for column position. The row and column positions are finally used to index separate row and column position encoding tables to produce learnable embeddings which are added onto the corresponding patch token embedding. Local Observation Position Encodings The local observation position encoding adds positional information about where observation tokens are positioned within the local time-step they were an element of. First, we reiterate that, during tokenization, for each time-step all elements of the observation set are tokenized into sequences and concatenated into an observation sequence. Each token in this observation sequence is given an index which corresponds to the sequence order, i.e. the first token is 0 and the last is the length of the observation sequence minus one. After embedding, for any tokens that were a part of an observation set, the corresponding observation token index is used to index an embedding table of learnable position encodings, with one embedding for every possible observation token index (in practice we simply set the table size to a large value like 512). / The position encoding is then added onto the observation token embedding to produce the final token embedding. Note that all action tokens are given the same position encoding regardless of their position in the time-step sequence. We illustrate an example of this process in Figure 18. D Pretraining Setup For all models we use the AdamW optimizer with a linear warm-up and cosine schedule decay. The linear warmup lasts for 15*,* 000 steps, starting from a learning rate of 1e-7 and ending at a different maximum learning rate depending on the model (see Table This learning rate is then cosine decayed by a factor 10x over 1,000,000 steps. The AdamW optimizer has parameters 1 = 0 2 = 0.*95 and = 1e-8. We use a batch size of 512 and a sequence length of 1024 tokens for all models. Optimizer: (Loshchilov & Hutter, 2017) 6 ) β 9 y β ϵ We train with an AdamW weight decay parameter of 0.1. Additionally, we use stochastic depth during pretraining, where each of the transformer sub-layers (i.e. each Multi-Head Attention and Dense Feedforward layer) is skipped with a probability of 0.1. Regularization: (Huang et al., 2016) E Fine-tuning Setup For all models we use the Adam optimizer with a constant learning rate of 1e-5. The Adam optimizer has parameters 1 = 0*. 2 = 0.*95 and = 1e-8. We use a batch size of 64 and a sequence length of 1024 tokens for all models. We train for 10,000 gradient steps. Optimizer: (Kingma & Ba, En el 2014) β 9, β ϵ Uso de Dropout with a rate of 0.1. Regularization: (Srivastava et al., En el 2014) We evaluate agent every 100 learning steps. Each evaluation reports the average of 10 runs of a given checkpoint. The moving average of 5 such scores is computed (to gather 50 runs together). The final fine-tuning performance is defined as the maximum of these smoothed scores. Evaluation: We generated data for the fine-tuning tasks the same way we did for the other tasks (see Section 3.1 for details). Instead of using all the data for a fine-tuning task, we discarded all but 2000 best episodes (leading to the highest returns). The fine-tuning datasets were created in the following way. We randomly took 1000 episodes (out of 2000 preselected episodes), then a subset of 100 episodes from the selected episodes, then 10, 5, 3, and finally a single episode. We repeated this procedure 3 times to obtain 3 series of cascading subsets for each task. Each subset is used to conduct one fine-tuning experiment, and each is reported on our plots in Section como punto separado. Datasets: 5.2 We have not altered any of the tasks and used their canonical versions. As 3 out of 4 tasks are open sourced, they do not need further explanation. For the fourth task, DMLab order_of_apples_forage_simple, the goal is to collect apples in the right order, green ones first followed by the gold one. Task settings: F Data Collection Details F1 de Atari We collect two separate sets of Atari environments. The first (that we refer to as ALE Atari) consists of 51 canonical games from the Arcade Learning Environment The second (that we refer to as ALE Atari Extended) is a set of alternative games with their game mode and difficulty randomly set at the beginning of each episode. (Bellemare et al., 2013). 3 For each environment in these sets we collect data by training a Muesli Agente para 200M pasos ambientales totales. registramos aproximadamente 20.000 episodios aleatorios generados por el agente durante el entrenamiento. (Gijón et al. 2021) F.2 Sokoban Sokoban is a planning problem en el que el agente tiene que empujar las cajas a los lugares de destino. Algunos de los movimientos son irreversibles y, por lo tanto, los errores pueden hacer que el rompecabezas sea insoluble. para la recopilación de datos de formación. (Racanière et al., En el 2017), (Hessel et al., En el 2021) F3 Bebé BabyAI es un entorno gridworld cuyos niveles consisten en tareas de seguimiento de instrucciones que se describen por un lenguaje sintético. Generamos datos para estos niveles con el bot BabyAI incorporado. El bot tiene acceso a información adicional que se utiliza para ejecutar soluciones óptimas, véase Sección C en el apéndice de for more details about the bot. We collect 100,000 episodes for each level. (Chevalier-Boisvert et al., 2018) F.4 Suite de control DeepMind La suite de control DeepMind (T) . , es un conjunto de entornos de simulación basados en la física. Para cada tarea en el paquete de control, recopilamos dos conjuntos de datos desconectados, uno usando solo características de estado y otro usando solo píxeles. agent to collect data from tasks with state features, and an MPO based agent to collect data using pixels. Encuadernación et al En el 2020; Tassa et al., 2018) (Barth-Maron y otros) 2018) (Abdolmaleki et al., El 2018 También recopilamos datos para versiones aleatorias de las tareas de la suite de control con un agente D4PG. Estas versiones aleatorian la transmisión del actuador, el rango de articulación, la rigidez y la amortización, y el tamaño y la densidad geom. Hay dos ajustes de dificultad para las versiones aleatorias. ¡¡¡¡¡¡¡ 0 [1. ,* 1*. . ¡¡¡¡¡¡¡ 0 [1. ,* 1*.*4]. 9 95) 05 1]. El gran ajuste escala valores por un número aleatorio mostrado de la unión de intervalos [0 6 8] 2 F5 DeepMind Laboratorio DeepMind Laboratorio , de es un entorno 3D en primera persona diseñado para enseñar a los agentes la visión 3D de las entradas de píxeles crudos con un punto de vista egocéntrico, la navegación y la planificación. (Battie et al. El 2016 Hemos entrenado un IMPALA Agente conjuntamente en un conjunto de 18 niveles de DM Lab madre que generan mapas procedimentalmente para cada nuevo episodio.Los datos se recopilaron ejecutando al agente en estos 18 niveles, así como un conjunto adicional de 237 niveles hechos a mano para probar un conjunto diverso de habilidades. (Madrid y otros, El 2018 The 18 parent levels are characterized by high diversity of generated maps. The difference between the levels is rooted in hyper-parameters used in a generation process. These hyper-parameters control high-level characteristics such as types of structures spawned, difficulty of language instructions, or presence of specific tools. The parent levels were developed to improve performance of RL agents trained online on them. In contrast to the parent levels, each of the additional handcrafted 237 levels uses almost the same map, and the main differences between instances of the same level map are aesthetics such as colors of walls or lighting conditions. The maps are procedimentalmente generados y fueron diseñados para probar un conjunto diverso de habilidades como subir escaleras o utilizar herramientas específicas. son similares a los niveles presentados en la Figura 3, la Figura 7 y la Figura 8 en el documento antes mencionado por not Beatriz y al. (2016 en adelante). La información adicional sobre los 18 niveles parentales (y su relación con los otros niveles) se presenta en detalle en el Taller de NeurIPS por Daniel Tanis . Metodología para la Investigación Ambiental de RL 4 En total, recopilamos datos para 255 niveles del DeepMind Lab (18 niveles padres y 237 niveles artesanales), de los cuales 254 fueron utilizados durante el entrenamiento de Gato. F.6 Procgen Benchmark Procgen es una suite de 16 entornos procedimentalmente generados como Atari, que se propuso para evaluar la eficiencia de la muestra y la generalización en el aprendizaje de reforzamiento. Usamos la configuración de dificultad dura para todos los entornos excepto para laberinto y robo, que configuramos como fácil. (Cobbe et al. En el 2020) (Kapturowski y otros. 2018) F.7 Modular RL Módulo RL es una colección de MuJoCo (T Medios de control continuo basados, compuestos por tres conjuntos de variantes del OpenAI Gym Walker2d-v2, Humanoid-v2, and Hopper-v2. Each variant is a morphological modification of the original body: the set of morphologies is generated by enumerating all possible subsets of limbs, and keeping only those sets that a) contain the torso, and b) still form a connected graph. This results in a set of variants with different input and output sizes, as well as different dynamics than the original morphologies. We collected data by training a single morphology-specific D4PG agent on each variant for a total of 140M actor steps, this was done for 30 random seeds per variant. (Juan y otros, En el 2020) Cabrera et al. 2012) (Madrid y otros, El 2016 F.8 DeepMind Manipulation Playground El campo de juego de manipulación DeepMind Es una suite de tareas de robot simuladas basadas en MuJoCo. Recopilamos datos para 4 de las tareas de Jaco (caixa, pila de plátano, inserción y diafragma) utilizando un agente de Regresión Regularizada Crítica (CRR). Los datos recopilados incluyen el estado físico de MuJoCo, que utilizamos para entrenar y evaluar a Gato. (Zolna et al., 2021) (Wang et al., 2020) F.9 Meta-mundo Meta-Mundo (Y Es un conjunto de entornos for benchmarking meta-reinforcement learning and multi-task learning. We collect data from all train and test tasks in the MT50 mode by training a MPO agent con semillas ambientales ilimitadas y con acceso al estado del motor de física MuJoCo. Los datos recopilados también contienen el estado del motor de física MuJoCo. U y al. En el 2020) 5 (Abdolmaleki et al., 2018) G Detalles de la evaluación real de la robótica En el mundo real, el control es asíncrono; la física no espera que los cálculos terminen. Por lo tanto, la latencia de inferencia es una preocupación para evaluar un modelo grande para tareas del mundo real. En robótica, se cree que una tasa de control rápido es crítica para reaccionar a fenómenos dinámicos. La configuración del robot para la acumulación de RGB tiene una tasa de control de 20Hz (0.05 segundos) por diseño. Para alcanzar una margen de latencia aceptable, modificamos la inferencia en el tiempo de evaluación al acortar la longitud del contexto a 1. También implementamos un esquema de muestreo paralelo donde todos los tokens de acción se eliminan en las secuencias de entrada durante el entrenamiento para que podamos muestrar todos los tokens correspondientes a una acción del robot en un paso de inferencia único en lugar Utilizamos la función de recompensa escasa descrita en for data filtering. We only select trajectories with task success; that is, a sparse reward of 1 on the final timestep. Lee y Al. (2021) Finalidad H Skill Mastery architecture Los números reportados para el índice de referencia de Skill Mastery fueron recopilados mediante la ejecución de un modelo cero-shot que utilizaba una versión anterior de la arquitectura de Gato. En lugar de la incorporación de patches de ResNet, se utilizó una arquitectura similar utilizando un transformador local para incorporar tokens de patches de imagen. Las incorporaciones de posición local y incorporaciones de posición de patches no se utilizaron. Estos cambios se implementaron y se encontró que mejoraron el rendimiento de Gato después de que se cambiaron los datos de pre-entrenamiento (ya que decidimos centrarnos en la generalización de habilidades en lugar del desafío de dominio de habilidades), por lo que se presentan como la arquitectura final de nuestro modelo completo. Ablaciones robóticas adicionales Hemos realizado una serie de ablaciones en simulación para comprender mejor el efecto de los diversos datos de pretraining en el dominio de la robótica (véase la figura). Incluimos las mismas bases que en la Sección Seleccionando la variante de tamaño del parámetro 364M, así como una línea de base adicional entrenada con sólo datos de la suite de control. El agente DM Control-only es superior a la base Gato en transferencia de tiro cero y con un montón de datos de ajuste fino, lo que sugiere que Gato puede no estar utilizando las representaciones aprendidas de los conjuntos de datos basados en texto al adaptarse a las tareas de robótica. El mismo agente de dominio solo realiza el mejor en general, coincidiendo con la línea de base CRR en 1 episodio de ajuste fino y superándolo con más datos, lo que sugiere que Gato en la escala actual puede intercambiar su capacidad de generalización para una adaptación de datos eficiente y efectiva de pocos disparos. 19 ) 5.2, J Atención visualización To render the transformer attention weights, we retrieved the cross-attention logits, a tensor with dimension ( d) donde Es el número de cabezas y es el número de tokens en una secuencia. el ( )th entry of this matrix can be interpreted as the amount that head A la espera de Token por Token Debido al esquema de tokenización de imagen de Gato, hay múltiples tokens por timestep. Por lo tanto, para prestar atención a un determinado timestep, tomamos la submatriz que corresponde a ese timestep. Luego aplicamos una softmax sobre las filas de esta matriz para normalizar los valores pertinentes. Debido a que solo estamos interesados en prestar atención a los tokens anteriores, excluimos la diagonal estableciéndola en infinidad negativa antes de softmax. H, T y T H T h, i, j h j i Para medir la importancia de cada parche, medimos los pesos de atención sobre la columna correspondiente. Debido a que Gato utiliza un transformador causal, la matriz de atención es triangular inferior, por lo que la media sólo se consideró sobre la subcolumna debajo de la diagonal de la matriz. Usando este método, encontramos que los mapas de atención en la primera capa del transformador son más interpretables, de acuerdo con los hallazgos de Ciertas cabezas rastrean claramente las entidades y regiones específicas de la imagen. muestra los mapas de atención para cabezas seleccionadas manualmente en la primera capa para varias tareas. Abnar y Zuidema y el 2020. 20 K Resultados detallados para el agente especializado Meta-World The specialist Meta-World agent described in Section achieves 96.6% success rate averaged over all 50 Meta-World tasks. The detailed success rates are presented in Table Hemos evaluado al agente 500 veces para cada tarea. 5.5 7. L Per-domain resultados para Gato Describimos el rendimiento de Gato para tareas de control simuladas en Sección en la mesa presentamos resultados normalizados por dominio. Hemos evaluado al agente 50 veces para cada tarea. 4.1. 8 , Este artículo está disponible en archivo bajo la licencia CC by 4.0 Deed (Attribution 4.0 International). Este artículo está disponible en archivo bajo la licencia CC by 4.0 Deed (Attribution 4.0 International).