Die Autoren: Scott Reed Konrad Żołna Emilio Parisotto Sergio Gómez Colmenarejo Alexander Novikov Gabriel Barth-Maron Mai Giménez Yury Sulsky Jackie Kay Jost Tobias Springenberg Tom Eccles Jake Bruce Ali Razavi Ashley Edwards Nicolas Heess Yutian Chen Raia Hadsell Oriol Vinyals Mahyar Bordbar Nando de Freitas Die Autoren: von Scott Reed Konrad Frau von Emilio Parisotto von Sergio Gómez Colmenarejo Alexander Novikov von Gabriel Barth-Maron Mai Gymnastik Jurij Sulsky von Jackie Kay von Jost Tobias Springenberg von Tom Eccles von Jake Bruce Ali Razavi von Ashley Edwards von Nicolas Heess von Yutian Chen Raia Hadsell Oriol Vinyals Mahyar Bordbar Nando von Freitas Abstrakte Der Agent, den wir als Gato bezeichnen, funktioniert als eine multi-modale, multi-task, multi-embodiment generalist-Politik. Das gleiche Netzwerk mit den gleichen Gewichten kann Atari spielen, Untertitelbilder, Chat, Stapelblöcke mit einem echten Roboterarm und vieles mehr, und entscheidet auf der Grundlage seines Kontexts, ob man Text, gemeinsame Drehmomente, Knopfdruck oder andere Token herausgeben soll. 1 Einführung Es gibt erhebliche Vorteile bei der Verwendung eines einzelnen neuronalen Sequenzmodells über alle Aufgaben hinweg. Es reduziert die Notwendigkeit für handgefertigte Politikmodelle mit geeigneten induktiven Vorurteilen für jede Domäne. Es erhöht die Menge und Vielfalt der Trainingsdaten, da das Sequenzmodell alle Daten aufnehmen kann, die in eine flache Sequenz serialisiert werden können. Historisch gesehen haben generische Modelle, die die Berechnung besser nutzen, auch dazu neigt, spezialisiertere Domainspezifische Ansätze zu übertreffen. am Ende. (Kaplan et al., im Jahr 2020; Hoffmann et al. Im Jahr 2022). von Sutton, im Jahr 2019), In diesem Papier beschreiben wir die aktuelle Iteration eines allgemeinen Agenten, den wir Gato nennen, instantiert als ein einziges, großes, Transformersekvensmodell.Mit einem einzigen Satz von Gewichten kann Gato in Dialog, Untertitelbilder, Stapelblöcke mit einem echten Roboterarm, übertreffen Menschen beim Spielen von Atari-Spielen, navigieren in simulierten 3D-Umgebungen, folgen Anweisungen und vieles mehr. Zwar kann von keinem Agent erwartet werden, dass er in allen denkbaren Steuerungsaufgaben, insbesondere denen, die weit außerhalb seiner Trainingsverteilung liegen, hervorsteht, testen wir hier die Hypothese, dass ein Agent trainiert wird, der im Allgemeinen in der Lage ist, of tasks is possible; and that this general agent can be adapted with little extra data to succeed at an even larger number of tasks. We hypothesize that such an agent can be obtained through scaling data, compute and model parameters, continually broadening the training distribution while maintaining performance, towards covering any task, behavior and embodiment of interest. In this setting, natural lan-guage can act as a common grounding across otherwise incompatible embodiments, unlocking combinatorial generalization to new behaviors. Große Anzahl Wir konzentrieren unser Training auf den Betriebspunkt der Modellskala, der die Echtzeitkontrolle von Robotern in der realen Welt ermöglicht, derzeit bei 1.2B-Parametern im Fall von Gato. Da sich die Hardware- und Modellarchitekturen verbessern, wird dieser Betriebspunkt natürlich die machbare Modellgröße erhöhen und allgemeinistische Modelle höher auf die Skalierungsgesetzkurve schieben. 2 Modell Das Leitprinzip des Designs von Gato besteht darin, die breitestmögliche Vielfalt an relevanten Daten zu trainieren, einschließlich vielfältiger Modalitäten wie Bilder, Text, Propriozeption, gemeinsame Drehmomente, Knopfdruck und andere diskrete und kontinuierliche Beobachtungen und Aktionen. Um die Verarbeitung dieser multi-modalen Daten zu ermöglichen, serialisieren wir alle Daten in eine flache Sequenz von Token. In dieser Darstellung kann Gato aus einem Standard-Großsprachmodell ausgebildet und gesammelt werden. 2.1 Tokenisierung Es gibt endlose Möglichkeiten, Daten in Token umzuwandeln, einschließlich der direkten Verwendung des zugrunde liegenden Roh-Byte-Streams.Unten berichten wir über das Tokenisierungsschema, das wir gefunden haben, um die besten Ergebnisse für Gato im aktuellen Maßstab mit modernen Hardware- und Modellarchitekturen zu erzielen. Text wird über SentencePiece (Kudo & Richardson, 2018) mit 32000 Unterwörtern in den Ganzzahlbereich [0, 32000] kodiert. Bilder werden zuerst in Sequenzen von nicht überlappenden 16 16 Patches in Rasterordnung umgewandelt, wie in ViT (Dosovitskiy et al., 2020). Jeder Pixel im Bild __p__atches wird dann zwischen [−1*,* 1] normalisiert und durch die Quadratwurzel der Patchgröße geteilt (d.h. √16 = 4). Diskrete Werte, z. B. Atari-Button drücken, werden in Reihenmajor-Sekvenzen in Reihenfolge ausgeglichen. Das tokenisierte Ergebnis ist eine Reihenfolge von Ganzen im Bereich [0*,* 1024). Kontinuierliche Werte, z. B. propriozeptive Eingänge oder gemeinsame Drehmomente, werden zuerst in Sequenzen von schwimmenden Punktwerten in Reihe-majorer Reihenfolge abgeflacht. Die Werte werden mu-law auf den Bereich [ 1*,* 1] codiert, wenn nicht bereits da (siehe Abbildung 14 für Details), dann auf 1024 einheitliche Bins diskretisiert. Nachdem wir die Daten in Token konvertiert haben, verwenden wir die folgende kanonische Reihenfolgeordnung. Text-Token in der gleichen Reihenfolge wie Roh-Eingabetext. Bild Patch-Token in Rasterordnung. Tensoren in größerer Reihenfolge. Strukturen in lexikographischer Reihenfolge nach Schlüssel. Agent-Timer als Beobachtungs-Token, gefolgt von einem Separator, dann Aktions-Token. Agent-Episoden wie Timesteps in zeitlicher Reihenfolge Weitere Details zu Tokenisierungsagentdaten finden Sie im ergänzenden Material (Abschnitt b) der 2.2 Einbettung von Input-Token und Einstellung von Output-Zielen Nach Tokenisierung und Sequenzierung wenden wir eine parameterisierte Einbettungsfunktion *f* ( ; *θe*) auf jedes Token an (dh es wird sowohl auf Beobachtungen als auch auf Aktionen angewendet), um die endgültige Modellinput herzustellen. • Token, die zu Text, diskreten oder kontinuierlich bewerteten Beobachtungen oder Aktionen für einen beliebigen Zeitschritt gehören, werden über eine Suchtabelle in einen erlernten Vektor-Embedding-Raum eingebettet. • Token, die zu den Bildpatches für jeden Zeitschritt gehören, werden mithilfe eines einzelnen ResNet eingebettet Für Bild-Patch-Token-Embeddings fügen wir auch einen lehrbaren innerhalb-Bild-Position-Codierungsvektor hinzu. (Er und Al. Im Jahr 2016a We refer to appendix Section für vollständige Details zur Embedded-Funktion. C.3 zu Da wir die Daten autoregressiv modellieren, ist jeder Token möglicherweise auch ein Ziel-Label angesichts der vorherigen Token. Text-Token, diskrete und kontinuierliche Werte und Aktionen können nach der Tokenisierung direkt als Ziele gesetzt werden. Bild-Token und Agenten-Nichttextuelle Beobachtungen werden derzeit in Gato nicht vorhergesagt, obwohl dies eine interessante Richtung für zukünftige Arbeit sein kann. 2.3 Ausbildung Eine Sequenz von Token 1 : und Parameter , modellieren wir die Daten mithilfe der Kettenregel der Wahrscheinlichkeit: s L θ Lassen Sie Wir definieren eine Masking-Funktion *m* so, dass *m*(*b, l*) = 1 wenn das Token bei Index *l* entweder aus Text oder aus der protokollierten Aktion eines Agenten stammt, und 0 andernfalls. b Wie oben beschrieben, hat Gatos Netzwerkarchitektur zwei Hauptkomponenten: die parameterisierte Embedding-Funktion, die Token in Token-Embeddings umwandelt, und das Sequenzmodell, das eine Verteilung über den nächsten diskreten Token herausgibt.Während jedes allgemeine Sequenzmodell für die nächste Token-Vorhersage funktionieren kann, wählten wir einen Transformator (V). für Einfachheit und Skalierbarkeit. Gato verwendet einen 1.2B-Parameter-Transformator mit nur einem Decoder mit 24 Schichten, eine Einbettungsgröße von 2048, und eine nach-Aufmerksamkeits-Feedforward versteckte Größe von 8196 (mehr Details im Abschnitt Aswan et al., im Jahr 2017 C 1 ) Da verschiedene Aufgaben innerhalb einer Domäne identische Ausführungsformen, Beobachtungsformate und Aktionsspezifikationen teilen können, benötigt das Modell manchmal einen weiteren Kontext, um Aufgaben zu entlarven. Während des Trainings wird für 25% der Sequenzen in jeder Batch eine Prospektsequenz vorbestellt, die aus einer Episode stammt, die von demselben Quellagent für die gleiche Aufgabe erzeugt wurde. Die Hälfte der Prospektsequenzen stammt vom Ende der Episode, die als Form der Zielkonditionierung für viele Domänen fungiert; und die andere Hälfte wird gleichmäßig aus der Episode geprüft. Während der Bewertung kann der Agent mit einer erfolgreichen Demonstration der gewünschten Aufgabe aufgefordert werden, was wir standardmäßig in allen Kontrollergebnissen tun, die wir hier präsentieren. Sanh et al. im Jahr 2022; Wei et al., im Jahr 2021; Brown et al., im Jahr 2020) Das Training des Modells erfolgt auf einem 16x16 TPU v3-Schnitt für 1M-Schritte mit Batchgröße 512 und Token-Sequenzlänge = 1024, was etwa 4 Tage dauert. Architekturdetails finden Sie im Abschnitt Da Agent-Episoden und Dokumente leicht viele mehr Token enthalten können, als sie in den Kontext passen, sammeln wir zufällig Nachfolgen von Jede Batch mischt Subsequenzen ungefähr gleichmäßig über Domains (z.B. Atari, MassiveWeb usw.), mit etwas manueller Gewichtung von größeren und qualitativ höheren Datensätzen (siehe Tabelle). In der Sektion for details). L C ist L 1 3 2.4 Einsatz Die Implementierung von Katze als Richtlinie ist in der Abbildung dargestellt Zuerst wird ein Prompt, wie eine Demonstration, tokenisiert und bildet die anfängliche Sequenz. Standardmäßig nehmen wir die ersten 1024 Token der Demonstration. Danach liefert die Umgebung die erste Beobachtung, die tokenisiert wird und der Sequenz angehängt wird. Gato sammeln den Aktionsvektor autoregressiv ein Token zu einer Zeit. Sobald alle Token, die den Aktionsvektor enthalten, geprüft wurden (bestimmt durch die Aktionsspezifikation der Umgebung), wird die Aktion durch die Inversion des Tokenisierungsverfahrens beschrieben. Diese Aktion wird an die Umgebung gesendet, die Schritte macht und eine neue Beobachtung ergibt. Das Verfahren wiederholt sich. Das Modell sieht immer alle vorherigen Beobachtungen und Aktionen in seinem Kontextfenster von 1024 Token. Wir fanden es vorteilhaft, Transformer XL-Speicher während des Einsatzes zu verwenden, obwohl es während des Trainings nicht verwendet wurde. 3. 2.1 Die Dai et al., im Jahr 2019). 3 Datensätze Gato ist auf einer großen Anzahl von Datensätzen ausgebildet, die Erfahrung von Agenten in simulierten und realen Umgebungen umfassen, sowie auf einer Vielzahl von Datensätzen aus natürlicher Sprache und Bildern.Die von uns verwendeten Datensätze und ihre Attribute sind in Tabelle aufgeführt Die ungefähre Anzahl der Token pro Kontrolldatensatz wird unter der Annahme des Tokenisierungsmechanismus berechnet, der im Abschnitt beschrieben ist. 1. 2.1 Die 3.1 Simulierte Kontrollaufgaben Unsere Kontrollaufgaben bestehen aus Datensätzen, die von spezialisierten SoTA- oder Near-SoTA-Erweiterungslernagern generiert werden, die in einer Vielzahl verschiedener Umgebungen ausgebildet wurden.Für jede Umgebung erfassen wir eine Untergruppe der Erfahrung, die der Agent während des Trainings erzeugt (Zustände, Aktionen und Belohnungen). The simulated environments include Meta-World (Y benchmark meta-reinforcement learning und multi-task learning, Sokoban eingeführt als Planungsproblem vorgeschlagen, BabyAI für Sprachunterricht in Grid-Welten, die DM Control Suite (T für die kontinuierliche Kontrolle, sowie DM Lab entworfen, um Agentennavigation und 3D-Sicht aus rohen Pixeln mit einem egozentrischen Blickwinkel zu lehren. mit klassischen Atari-Spielen (wir verwenden zwei Sätze von Spielen, die wir ALE Atari und ALE Atari Extended nennen, siehe Abschnitt für die Details) Sie und Al. im Jahr 2020) (Racanière et al., im Jahr 2017 (Chevalier-Boisvert et al., im Jahr 2018 unisuvunakool et al., im Jahr 2020) (Beattie und Al., Das Jahr 2016) (Bürger und Al. von 2013) F1 zu Dazu gehört auch der Procgen Benchmark. Modularer RL Wir enthalten auch vier Aufgaben mit einem simulierten Kinova Jaco Arm von DM Manipulation Playground, wie in Sektion enthält eine eingehendere Beschreibung dieser Steuerungsaufgaben, zusammen mit dem RL-Agent, mit dem die Daten erzeugt wurden. (Cobbe et al., im Jahr 2020) (Huang et al., Das Jahr 2020). Zolna et al. Das ist (2020) F Wir fanden es effektiv, auf einer gefilterten Reihe von Episoden zu trainieren, bei denen mindestens 80% der Expertenrückgabe für die Aufgabe zurückgegeben wird. Die Expertenrückgabe misst die maximale nachhaltige Leistung, die der Expertenagent erreichen kann. Wir definieren sie als das Maximum über die Reihe aller Fensterdurchschnittliche Rücksendungen, die über alle gesammelten Episoden für eine Aufgabe berechnet wurden: wo die Gesamtzahl der gesammelten Episoden für die Aufgabe, ist die Größe des Fensters, und ist die vollständige Rückkehr für Episode Um genaue Schätzungen zu erhalten, setzen wir in der Praxis 10 % der Gesamtdatenmenge oder mindestens 1000 Episoden (d.h. = min(1000*,* 0*.* 1 ) und N W Ri i W W × N 3.2 Vision und Sprache Gato wird auf MassiveText trainiert eine Sammlung großer englischsprachiger Textdatensätze aus mehreren Quellen: Webseiten, Bücher, Nachrichtenartikel und Code. (Rei und Al. im Jahr 2021), Wir haben auch mehrere Datensätze in der Vision-Sprache in Gatos Ausbildung aufgenommen. ALIGN LTIP (Long Text & Image Pairs) besteht aus 312 Millionen Bildern mit Untertiteln. , der Konzeptionelle Kapitel und Coco Captions , der Sie unterzeichnen Datensätze mit 3,3M und 120k Bild-Textpaaren.Die MultiModal MassiveWeb (M3W) Datensätze ... , enthält 43M Webseiten, auf denen sowohl Text als auch Bilder extrahiert wurden. Wir haben auch visuelle Datensätze zur Beantwortung von Fragen aufgenommen. und VQAv2 mit 9K- und 443K-Tripletten von Bildern, Fragen und Antworten.Um eine Trainingsepisode aus diesen zu bilden, sammeln wir fünf (Bild, Text) Paare, tokenisieren sie, vernetzen und dann pad oder zufällig auf die erforderliche Trainingssequenzlänge. Jia et al., von 2021 (Alexander und Al. Im Jahr 2022). (Sharma et al. im Jahr 2018 Chen et al. von 2015) (Alayrac et al) von 2024) (von Marino und Al, 2019 ) (Antol et al., von 2015) 3.3 Robotik - RGB Stacking Benchmark (real und sim) Als Testbett für physikalische Datenaktionen in der realen Welt wählten wir die von [Lee et al.] eingeführte Roboterblock-Stacking-Umgebung (#_bookmark89) [(2021).](#_bookmark89) Die Umgebung besteht aus einem Sawyer-Roboterarm mit 3-DoF-Cartesian-Geschwindigkeitssteuerung, einem zusätzlichen DoF für Geschwindigkeit und einer diskreten Griff-Aktion. Der Arbeitsraum des Roboters enthält drei Plastikblöcke in Farbe rot, grün und blau mit unterschiedlichen Formen. Die verfügbaren Beobachtungen umfassen zwei 128 Kamera-Bilder, Roboterarm und Griffper-Gemeinschaftswinkel sowie die Endeffektor-Position des Roboters. Bemerkenswert ist, dass In Skill Generalization verwenden wir für Simulation und Real sowohl Daten, die vom besten generalistischen sim2real-Agenten gesammelt wurden. Wir sammelten Daten nur bei der Interaktion mit dem bestimmten RGB-Stacking (Dies entspricht insgesamt 387k erfolgreichen Laufbahnen in der Simulation und 15k Laufbahnen in der Realität). in simulation and from the best sim2real policy on the real robot (amounting to 219k trajectories in total). Note that this data is only included for specific Skill Mastery experiments in Section Lee und Al. Das ist (2021). training objects Lee und Al. (2021) 5.4 Die 4 Capabilities of the generalist agent In diesem Abschnitt werden wir die Leistung von Gato zusammenfassen, wenn er auf den oben beschriebenen Daten geschult wurde. Das heißt, alle Ergebnisse in allen Aufgaben stammen aus einem einzigen vorgeschulten Modell mit einem einzigen Gewichtssatz. 5. 4.1 Simulierte Kontrollaufgaben Figuren zeigt die Anzahl der unterschiedlichen Kontrollaufgaben, für die Gato über einer gegebenen Punktenschwelle hinausgeht, in Bezug auf die in den Schulungsdaten von Gato nachgewiesene Expertenleistung. 5 Wir berichten über die Leistung als Prozentsatz, bei dem 100% dem Pro-Task-Experten entspricht und 0% einer zufälligen Richtlinie. Für jede simulierte Steuerungsaufgabe, auf die wir unser Modell ausgebildet haben, rollen wir die Gato-Richtlinie auf die entsprechende Umgebung 50 Mal aus und durchschreiben die definierten Punkte. Gato erfüllt mehr als 450 von 604 Aufgaben bei über einem Expertenwert von 50%. 5 , Alle Atari Gato erzielt die durchschnittlichen menschlichen (oder besseren) Punkte für 23 Atari-Spiele Während die Single-Task-Online-RL-Agenten, die die Daten erzeugt haben, immer noch Gato übertreffen, kann dies durch das Hinzufügen von Kapazität oder die Verwendung von Offline-RL-Training anstatt rein überwacht (siehe Abschnitt) überwunden werden. where we present a specialist single domain ALE Atari agent achieving better than human scores for 44 games). (Bürger und Al. von 2013) 1 5.5 Das Baby Gato erreicht über 80% der Experten-Score für fast alle Ebenen Für die schwierigste Aufgabe, genannt BossLevel, erzielt Gato 75%. Die beiden anderen veröffentlichten Basislinien, die wir finden konnten, BabyAI 1.0 und BabyAI 1.1 , der Er erzielte 77 % bzw. 90 %, nachdem er allein mit einer Million Demonstrationen auf diese Aufgabe trainiert hatte. (Chevalier-Boisvert et al., im Jahr 2018 2 Hui et al. im Jahr 2020), On Meta-World (Y Gato erreicht mehr als 50% für alle 44 von 45 Aufgaben, die wir trainiert haben, über 80% für 35 Aufgaben und über 90% für 3 Aufgaben. Gato erzielt bei 21 von 30 Aufgaben besser als 50 % der Experten-Score und bei 18 Aufgaben mehr als 80 %. Sie und Al. im Jahr 2020) Assa et al. im Jahr 2018), 4.2 Robotik First-person-Teleoperation ermöglicht die Sammlung von Experten-Demonstrationen. Jedoch sind solche Demonstrationen langsam und teuer zu sammeln. Daten-effiziente Verhaltens-Klonierungsmethoden sind daher wünschenswert für die Ausbildung eines generellen Robotermanipulators und das Offline-Prätraining ist daher ein gut motivierter Forschungsbereich. Zu diesem Zweck haben wir Gato auf dem etablierten RGB Stacking-Benchmark für Robotik bewertet. Skill Generalization Performance Die Skill Generalization Challenge vom RGB Stacking Robotics Benchmark testet die Fähigkeit des Agenten, Objekte vorher unsichtbarer Formen zu stapeln. Der Agent wird auf einem Datensatz aus Episoden des Roboters ausgebildet, der Objekte mit einer Vielzahl verschiedener Formen stapeln. Fünf Triplets von Objektformen sind jedoch nicht in den Trainingsdaten enthalten und dienen als Testtriplets. shows that our generalist agent’s success rate on each test triplet is comparable to the single task BC-IMP (filtered BC) baseline in 2 Lee und Al. (2021). 4.3 Text samples The model demonstrates rudimentary dialogue and image captioning capabilities. Figure contains a rep-resentative sample of Gato’s image captioning performance. Figure zeigt einige handgefertigte Beispiele für den einfachen Textdialogaustausch. 6 7 5 Analyse 5.1 Scaling Laws Analysis In Figure we analyze the aggregate in-distribution performance of the pretrained model as a function of the number of parameters in order to get insight into how performance could improve with increased model capacity. We evaluated 3 different model sizes (measured in parameter count): a 79M model, a 364M model, and a 1.18B model (Gato). We refer to Section for details on the three model architectures. 8, C Hier berechnen wir für alle drei Modellgrößen die normalisierte Rendite, wenn das Training voranschreitet.Um diesen einzelnen Wert zu erhalten, berechnen wir für jede Aufgabe die Leistung des Modells als Prozentsatz der Experten-Score (so wie in Abschnitt 1. Dann für jede in der Tabelle aufgeführte Domain we average the percentage scores across all tasks for that domain. Finally, we mean-aggregate the percentage scores across all domains. We can see that for an equivalent token count, there is a significant performance improvement with increased scale. 4. 1 5.2 Out of distribution tasks In diesem Abschnitt wollen wir die folgende Frage beantworten: For this reason, we held-out all data for four tasks from our pre-training set: cartpole.swingup (DM Control Suite domain), assembly-v2 (Meta-World domain), order_of_apples_forage_simple (DM Lab domain), and boxing (ALE Atari domain). These four tasks will serve as testbeds for evaluating the out-of-distribution capabilities of Gato. Can our agent be used to solve a completely new task efficiently? Ideally, the agent could potentially learn to adapt to a new task via conditioning on a prompt including demonstrations of desired behaviour. However, due to accelerator memory constraints and the extremely long sequence lengths of tokenized demonstrations, the maximum context length possible does not allow the agent to attend over an informative-enough context. Therefore, to adapt the agent to new tasks or behaviours, we choose to fine-tune the agent’s parameters on a limited number of demonstrations of a single task, and then evaluate the fine-tuned model’s performance in the environment. Fine-tuning is very similar to pretraining with minor changes, such as different learning rate schedule; see Section for details. E We want to measure how choice of data used during pretraining influences post-fine-tuning performance. To this end, we compare Gato (trained on ) to variants trained on ablated datasets: Alle Daten 1. A model pretrained only on data from the same domain as the task to be fine-tuned on, . same domain only data 2. Ein Modell, das nur auf nicht kontrollierenden Daten vorbereitet ist, . Keine Datenkontrolle 3. A model fine-tuned from scratch, i.e. no pretraining at all, . scratch Considering as all these experiments require training a new model from scratch and then also fine-tuning, we present results using the less compute-intensive 364M parameter architecture described in Section Results are shown in Figure 5.1. 9. Fine-tuning-Performance auf beiden cartpole.swingup und assembly-v2 Aufgaben, die beide keine Bildverarbeitung erfordern, präsentieren ähnliche Trends. Pretraining auf allen Datensätzen liefert die besten Ergebnisse, gefolgt von Pretraining auf der gleichen Domäne nur. Dieser Unterschied ist kleiner für assembly-v2 aber konsistent für alle wenigen Aufnahmen Datensätze. Für diese nicht-image-basierten Umgebungen sehen wir entweder keinen Nutzen (cartpole.swingup) oder sogar einen negativen Transfer (assembly-v2) beim Pretraining auf Datensätze, die nur Bilder und Textdaten enthalten. no control Results for DM Lab order_of_apples_forage_simple are slightly different. Pretraining on DM Lab data only is already enough to approach the maximum reward of 19 and hence there is no observable benefit of adding data from different environments. What is different when compared to previously analysed no-vision environments is that pretraining on Daten hilft, was möglicherweise durch die Tatsache erklärt werden kann, dass Agenten in der DM Lab-Umgebung Bilder gefüttert werden, die trotz Simulation natürlich aussehen. Keine Kontrolle Das zufällig initialisierte Modell scheint besser zu funktionieren als jede der berücksichtigten vortrainierten Varianten. Wir gehen davon aus, dass dies darauf zurückzuführen ist, dass die Eingabebilder des Spiels visuell sehr unterschiedlich von den anderen Daten sind, was darauf hindeutet, dass der Transfer schwierig ist. 5.3 Fine-Tuning auf Robotic Stacking Tasks Section demonstrates that the base Gato capable of a diverse array of tasks can perform competitively on the RGB Stacking Skill Generalization benchmark. In this section, we would like to answer the following question: *How does our agent improve on robotics tasks when allowed to fine-tune similarly to how we fine-tune on new tasks in Section *We consider different model sizes and analyse the impact of pretraining datasets on the Skill Generalization benchmark, as well as a novel out of distribution task. Further analysis of fine-tuning with dataset ablations is in Appendix 4.2 5 2 ? Die I. Skill Generalization First, we would like to show that fine-tuning on object-specific data, similarly to what was done by is beneficial. Therefore, we fine-tuned Gato separately on five subsets of demonstrations from the dataset. Each subset was obtained by random partitioning of a test dataset consisting of demonstrations gathered by a generalist sim-to-real agent stacking real test objects. We consider this setting, which is comparable to the fine-tuning baselines on RGB stacking tasks from and use the 5k dataset that their behavior cloning 5k results are obtained with. To best match their experiments, we change our return filtering scheme during training: instead of using only successful stacks, we condition on the normalized return of the episode. Lee et al. (2022), test (Lee et al., 2022); Figure compares the success rate of Gato across different fine-tuning data regimes to the sim-to-real expert and a Critic-Regularized Regression (CRR) agent trained on 35k episodes of all test triplets. Gato, in both reality and simulation (red curves on the left and right figure, respectively), recovers the expert’s performance with only 10 episodes, and peaks at 100 or 1000 episodes of fine-tuning data, where it exceeds the expert. After this point (at 5000), performance degrades slightly but does not drop far below the expert’s performance. 10 (Wang et al., 2020) Fine-tuning and Model Size To better understand the benefit of large models for few-shot adaptation in robotics domains, we conducted an ablation on model parameter size. This section focuses on in-simulation evaluation. Figure compares the full 1.18B parameter Gato with the smaller 364M and 79M parameter variants for varying amounts of fine-tuning data. Although the 364M model overfits on one episode, causing performance to drop, there is a clear trend towards better adaptation with fewer episodes as the number of parameters is scaled up. The 79M model performs clearly worse than its bigger counterparts. The results suggest that the model’s greater capacity allows the model to use representations learned from the diverse training data at test time. 10 Adaptation to Perceptual Variations While the Skill Generalization task is an effective benchmark for motor Skill Generalization to shape varia-tions, it does not test the agent’s ability to adapt to perceptual variations and permutations in the objective specification. To further evaluate Gato’s generalization capabilities, we devised a new task in the RGB stacking benchmark where the goal is to stack the blue object on the green object, for test triplet 1 (see Figure Zunächst haben wir eine 3D-Maus verwendet, um 500 Demonstrationen dieser Aufgabe auf dem echten Roboter zu sammeln, für insgesamt 2 Stunden und 45 Minuten Demonstrationsdaten, und fein abgestimmte Gato auf diese Episoden. Bemerkenswert ist, dass alle simulierten und echten Robotik-Daten in der Vor-Training-Set zeigt, dass der Roboter erfolgreich das rote Objekt auf dem blauen Objekt stapeln, und die Daten enthalten nicht die Objektformen in der Test-Set. 11 ) Wir erreichten eine endgültige Erfolgsquote von 60% nach der Bewertung von fein abgestimmtem Gato auf dem echten Roboter, während eine BC-Basislinie, die von Grund auf auf die blau-auf-grünen Daten trainiert wurde, nur 0,5% Erfolg erreichte (1/200 Episoden). 5.4 Robotics: Skill Mastery Similarly to the Skill Generalization challenge discussed in Section the Skill Mastery challenge consists in training a robotic arm to stack blocks of different shapes. However, the Skill Mastery allows the agent to train on data involving the object shapes used for evaluation, i.e. the set in Skill Generalization becomes a part of the Skill Mastery set. Thus, this challenge serves to measure Gato’s performance on in-distribution tasks (possibly with initial conditions not seen in the training demonstrations). Our Skill Mastery results use an earlier version of the Gato architecture described in Appendix with no fine-tuning. 4.2, test training H, Table compares the group-wise success percentage and the average success across object groups for Gato and the established BC-IMP baseline. Gato exceeds or closely matches BC-IMP’s performance on all but one training triplet. 3 5.5 Specialist single-domain multi-task agents In this section we show results obtained with two specialist (rather than generalist) agents. Both of them were trained on data from a single domain only and rolled out 500 times for each training task without any per-task fine-tuning. Meta-Welt The first agent uses the smallest architecture introduced in Section i.e. 79M parameters, and is trained on all 50 Meta-World tasks. While Gato has access to the state of the MuJoCo physics engine and unlimited task seeds, the agent presented here has no access to any extra features or tasks and uses the canonical API as in (Y This experiment is to show that the architecture proposed in our paper can be used to obtain state-of-the-art agents also at small scale. The training procedure was to train single-task MPO experts on each of the MT-50 tasks individually, recording the trajectories produced while training. This experience is then combined, or distilled, into a single agent, which achieves 96.6% success rate averaged over all 50 tasks. To the best of our knowledge this agent is the first one to accomplish nearly 100% average success rate simultaneously (multi-task) for this benchmark. See Table Im Zusatzmaterial (Abschnitt for the full list of tasks and corresponding success rates of our agent. 5.1, u et al., Das Jahr 2020). (Abdolmaleki et al., 2018) 7 K) der ALE Atari We also trained a specialist agent on all 51 ALE Atari tasks. As the Atari domain is much more challenging than Meta-World, we used the Gato architecture with 1.18B parameters. Der resultierende Agent ist für 44 Spiele besser als der durchschnittliche Mensch (siehe Abschnitt for details on our evaluation and scoring). We want to note that the performance of online experts used to generate training data for the other 7 games were also below the average human. Hence, the specialist Atari agent achieved better than human performance for all games where data contained super-human episodes. 4.1 The specialist Atari agent outperforms our generalist agent Gato, which achieved super-human performance on 23 games. It suggests that scaling Gato may result in even better performance. We, however, purposely restricted Gato’s size such that it can be run in real-time on the real robot. 5.6 Attention Analysis We rendered the transformer attention weights over the image observations for various tasks, to gain a qualitative sense of how Gato attends to different regions of the image across tasks (see Figure Weitere Details und Visualisierungen für weitere Aufgaben finden Sie im Anhang These visualizations clearly show that attention tracks the task-relevant objects and regions. 12). J. 5.7 Embedded Visualisierung To understand how Gato encodes differently information per task, we visualized per-task embeddings. Wir analysierten 11 Aufgaben. Für jede Aufgabe sammeln wir zufällig 100 Episoden und tokenisieren jede von ihnen. Dann nehmen wir aus jeder Episode eine Nachfolge von 128 Tokens, berechnen ihre Embeddings (in Schicht 12, was die Hälfte der Gesamttiefe der Transformerschicht ist) und durchschreiben sie über die Sequenz. Die durchschnittlichen Embeddings für alle Aufgaben werden als Eingabe zu PCA verwendet, was ihre Dimensionalität auf 50 reduziert. Figure shows the final T-SNE embeddings plotted in 2D, colorized by task. Embeddings from the same tasks are clearly clustered together, and task clusters from the same domain and modality are also located close to each other. Even held-out task (cartpole.swingup) is clustered correctly and lays next to another task from DM Control Suite Pixels. 13 6 Related Work The most closely related architectures to that of Gato are Decision Transformers , Der Trajectory Transformator which showed the usefulness of highly generic LM-like architectures for a variety of control problems. Gato also uses an LM-like architecture for control, but with design differences chosen to support multi-modality, multi-embodiment, large scale and general purpose deployment. Pix2Seq also uses an LM-based architecture for object detection. Perceiver IO ., uses a transformer-derived architecture specialized for very long sequences, to model any modality as a sequence of bytes. This and similar architectures could be used to expand the range of modalities supported by future generalist models. (Chen et al., 2021b; Reid et al., 2022; Zheng et al., 2022; Furuta et al. 2021) (Janner et al., 2021), (Chen et al., 2022) (Jaegle et al 2021) Gato was inspired by works such as GPT-3 and Gopher pushing the limits of generalist language models; and more recently the Flamingo generalist visual language model. developed the 540B parameter Pathways Language Model (PalM) explicitly as a generalist few-shot learner for hundreds of text tasks. (Brown et al., 2020) (Rei und Al. 2021), (Alayrac et al., 2022) Chowdhery et al. Das (2022) Die künftige Arbeit sollte darüber nachdenken, wie diese Textfähigkeiten in einem vollständig allgemeinen Agent vereinigt werden können, der auch in Echtzeit in der realen Welt, in verschiedenen Umgebungen und Ausführungsformen wirken kann. Gato also takes inspiration from recent works on multi-embodiment continuous control. used message passing graph networks to build a single locomotor controller for many simulated 2D walker variants. showed that transformers can outperform graph based approaches for incom-patible (i.e. varying embodiment) control, despite not encoding any morphological inductive biases. learn a modular policy for multi-task and multi-robot transfer in simulated 2D manipulation environments. train a universal policy conditioned on a vector representation of robot hardware, showing successful transfer both to simulated held out robot arms, and to a real world sawyer robot arm. Huang et al. (2020) Kurin et al. (2020) Devin et al. (2017) Chen et al. Der (2018) A variety of earlier generalist models have been developed that, like Gato, operate across highly distinct domains and modalities. NPI trained a single LSTM to execute diverse programs such as sorting an array and adding two numbers, such that the network is able to generalize to larger problem instances than those seen during training. developed the MultiModel that trains jointly on 8 distinct speech, image and text processing tasks including classifica-tion, image captioning and translation. Modality-specific encoders were used to process text, images, audio and categorical data, while the rest of the network parameters are shared across tasks. proposed “ ”, describing a method for the incremental training of an increasingly general problem solver. proposed controllable multi-task language models that can be directed according to language domain, subdomain, entities, relationships between entities, dates, and task-specific behavior. (Reed & De Freitas, Das Jahr 2016) (Hochreiter & Schmidhuber, 1997) Kaiser et al. (2017) Schmidhuber (2018) one big net for everything Keskar et al. Die (2019) In this discussion, it is important to distinguish between one single multi-task network architecture versus one single neural network with the same weights for all tasks. Several poplar RL agents achieve good multi-task RL results within single domains such as Atari57 and DMLab However, it is much more common to use the same policy architecture and hyper-parameters across tasks, but the policy parameters are different in each task This is also true of state-of-the-art RL methods applied to board games Moreover, this choice has been adopted by off-line RL benchmarks and recent works on large sequence neural networks for control, including decision transformers and the Trajectory Transformer of In contrast, in this work we learn a single network with the same weights across a diverse set of tasks. (Espeholt et al., 2018; Song et al., 2020; Hessel et al., 2019). (Mnih et al., 2015; Tassa et al., 2018). (Schrittwieser et al., 2020). (Gulcehre et al., 2020; Fu et al., 2020) (Chen et al., 2021b; Reid et al., 2022; Zheng et al., 2022) Janner et al. (2021). Recent position papers advocate for highly generalist models, notably proposing one big net for everything, and on foundation models. However, to our knowledge there has not yet been reported a single generalist trained on hundreds of vision, language and control tasks using modern transformer networks at scale. Schmidhuber (2018) Bommasani et al. (2021) “Single-brain”-style models have interesting connections to neuroscience. famously stated that “ Mountcastle fand heraus, dass sich Säulen von Neuronen im Kortex ähnlich verhalten, sei es im Zusammenhang mit Sehen, Hören oder Motorsteuerung. von Mountcastle (1978) the processing function of neocortical modules is qualitatively similar in all neocortical regions. Put shortly, there is nothing intrinsically motor about the motor cortex, nor sensory about the sensory cortex (Hawkins & Blakeslee, 2004). Sensory substitution provides another argument for a single model For example, it is possible to build tactile visual aids for blind people as follows. The signal captured by a camera can be sent via an electrode array on the tongue to the brain. The visual cortex learns to process and interpret these tactile signals, endowing the person with some form of “vision”. Suggesting that, no matter the type of input signal, the same network can process it to useful effect. Bach-y Rita und Kercel 2003). Our work is based on deep autoregressive models, which have a long history and can be found in generative models of text, images, video and audio. Combining autoregressive generation with transformers (V has been of enormous impact in language modelling protein folding Vision-Sprach Modelle (T code generation dialogue systems with retrieval capabilities speech recognition Neural Machine Übersetzung and more , In jüngster Zeit haben Forscher die Aufgabenauflösung und Grundlage mit Sprachmodellen untersucht. aswani et al., 2017; Devlin et al., 2018) (Brown et al., 2020; Rae et al., im Jahr 2021), (Jumper et al., 2021), simpoukelli et al., im Jahr 2021; Wang et al., 2021; Alayrac et al., 2022), Chen et al., 2021c; Li et al., 2022b), (Nakano et al., 2021; Thoppilan et al., 2022), (Pratap et al., 2020), (Johnson et al., 2019) (Bommasani et al. 2021). (Huang et al., 2022; Ahn und Al, 2022). construct a control architecture, consisting of a sequence tokenizer, a pretrained language model and a task-specific feed-forward network. They apply it to VirtualHome and BabyAI tasks, and find that the inclusion of the pretrained language model improves generalisation to novel tasks. Similarly, zeigen, dass Vision-Modelle mit selbstbeaufsichtigtem Lernen vorbereitet wurden, insbesondere mit Ernte-Segmentierungen und Impulskontrast can be effectively incorporated into control policies. Li et al. (2022a) Parisi et al. Das (2022) (He et al., 2020), As mentioned earlier, transfer in Atari is challenging. researched transfer between ran-domly selected Atari games. They found that Atari is a difficult domain for transfer because of pronounced differences in the visuals, controls and strategy among the different games. Further difficulties that arise when applying behaviour cloning to video games like Atari are discussed by Rusu et al. (2016) Kanervisto et al. (2020). There has been great recent interest in data-driven robotics However, note that in robotics “ Darüber hinaus müssen wir jedes Mal, wenn wir die Hardware in einem Robotiklabor aktualisieren, neue Daten sammeln und neu trainieren.Wir argumentieren, dass wir genau deshalb einen Generalistenagent benötigen, der sich an neue Ausführungsmodalitäten anpassen und neue Aufgaben mit wenigen Daten erlernen kann. (Cabi et al., im Jahr 2019; Chen et al., 2021a). Bommasani et al. (2021) the key stumbling block is collecting the right data. Unlike language and vision data, robotics data is neither plentiful nor representative of a sufficiently diverse array of embodiments, tasks, and environments Generating actions using an autoregressive model can lead to causal “self-delusion” biases when there are confounding variables Beispielsweise können Sampling-Aktionen das Modell dazu bedingen, die falsche Aufgabe zu lösen, wenn mehrere Aufgaben ähnliche Beobachtungs- und Aktionsspezifikationen teilen. we use prompt engineering in ambiguous tasks, conditioning our model on a successful demon-stration. This screens off confounding variables, reducing self-delusions. Another solution which we did not explore in this work is to use counterfactual teaching, where we train a model online using instantaneous expert feedback. We leave this for future investigation. (Ortega et al., 2021). 2, 7 Broader Impact Obwohl generalistische Agenten immer noch nur ein aufstrebendes Forschungsgebiet sind, erfordert ihre potenzielle Auswirkung auf die Gesellschaft eine gründliche interdisziplinäre Analyse ihrer Risiken und Vorteile. However, the tools for mitigating harms of generalist agents are relatively underdeveloped, and require further research before these agents are deployed. A. Since our generalist agent can act as a vision-language model, it inherits similar concerns as discussed in In addition, generalist agents can take actions in the the physical world; posing new challenges that may require novel mitigation strategies. For example, physical embodiment could lead to users anthropomorphizing the agent, leading to misplaced trust in the case of a malfunctioning system, or be exploitable by bad actors. Additionally, while cross-domain knowledge transfer is often a goal in ML research, it could create unexpected and undesired outcomes if certain behaviors (e.g. arcade game fighting) are transferred to the wrong context. The ethics and safety considerations of knowledge transfer may require substantial new research as generalist systems advance. (Wei-dinger et al., 2021; Bommasani et al., im Jahr 2021; Rae et al., 2021; Alayrac et al., 2022). Technical AGI safety may also become more challenging when considering generalist agents that operate in many embodiments. For this reason, preference learning, uncertainty modeling and value alignment (R are especially important for the design of human-compatible generalist agents. It may be possible to extend some of the value alignment approaches for language to generalist agents. However, even as technical solutions are developed for value alignment, generalist systems could still have negative societal impacts even with the intervention of well-intentioned designers, due to unforeseen circumstances or limited oversight Diese Begrenzung unterstreicht die Notwendigkeit eines sorgfältigen Designs und eines Implementierungsprozesses, der mehrere Disziplinen und Standpunkte umfasst. (Bostrom, 2017) ussell, 2019) (Ouyang et al., 2022; Kenton et al., von 2021 (Amodei et al., 2016). Understanding how the models process information, and any emergent capabilities, requires significant ex-perimentation. External retrieval Es hat sich gezeigt, dass es sowohl die Interpretabilität als auch die Leistung verbessert, und daher sollte es in zukünftigen Entwürfen von Generalisten-Agenten berücksichtigt werden. (Borgeaud et al., 2021; Menick et al., 2022; Nakano et al., 2021; Thoppilan und Al, 2022) Although still at the proof-of-concept stage, the recent progress in generalist models suggests that safety researchers, ethicists, and most importantly, the general public, should consider their risks and benefits. We are not currently deploying Gato to any users, and so anticipate no immediate societal impact. However, given their potential impact, generalist models should be developed thoughtfully and deployed in a way that promotes the health and vitality of humanity. 8 Beschränkungen und zukünftige Arbeit 8.1 RL Datenerfassung Gato is a data-driven approach, as it is derived from imitation learning. While natural language or image datasets are relatively easy to obtain from the web, a web-scale dataset for control tasks is not currently available. This may seem at first to be problematic, especially when scaling Gato to a higher number of parameters. Offline RL zielt darauf ab, die bestehenden Steuerungsdatensätze zu nutzen, und ihre wachsende Beliebtheit hat bereits zur Verfügbarkeit vielfältigerer und größerer Datensätze geführt. Reicherere Umgebungen und Simulationen werden gebaut (z.B. Metaverse), und zunehmende Anzahl von Nutzern interagieren bereits mit ihnen unter Tausenden von bereits eingesetzten Online-Spielen (z.B. gibt es einen großen Datensatz von Starcraft 2 Spielen). Real-life-Daten wurden auch bereits für ML-Forschungszwecke gespeichert; zum Beispiel werden Daten für das Training von selbstfahrenden Autos aus der Aufzeichnung menschlicher Fahrerdaten gewonnen. Baker et al. 2022). Thanks to online video sharing and streaming platforms such as Youtube and Twitch, observation-only datasets are not significantly more difficult to collect than natural language datasets, motivating a future research direction to extend Gato to learn from web data. While the previous paragraph focuses on alleviating drawbacks of data collection from RL agents, it is important to note that this approach presents a different set of tradeoffs compared to scraping web data and can be actually more practical in some situations. Once the simulation is set up and near SOTA agent trained, it can be used to generate massive amounts of high quality data. That is in contrast to the quality of web data which is notorious for its low quality. In short, we believe that acquiring suitable data is another research question on its own, and this is an active area of research with growing momentum and importance. 8.2 Prompt and short context Gato wird mit einer Expertendemonstration aufgefordert, die dem Agent hilft, Aktionen auszugeben, die der gegebenen Aufgabe entsprechen. Dies ist besonders nützlich, da es dem Agent sonst keinen Task-Identifier zur Verfügung hat (das ist im Gegensatz zu vielen Multi-Task-RL-Einstellungen). However, the context length of our agent is limited to 1024 tokens which translates to the agent sometimes attending to only a few environment timesteps in total. This is especially the case for environments with image observations, where depending on the resolution each observation can result in more than one hundred tokens each. Hence for certain environments only a short chunk of a demonstration episode fits in the transformer memory. Due to this limited prompt context, preliminary experiments with different prompt structures resulted in very similar performance. Similarly, early evaluations of the model using prompt-based in-context learning on new environments did not show a significant performance improvement compared to prompt-less evaluation in the same setting. Context-length is therefore a current limitation of our architecture, mainly due to the quadratic scaling of self-attention. Many recently proposed architectures enable a longer context at greater efficiency and these innovations could potentially improve our agent performance. We hope to explore these architectures in future work. 9 Conclusions Transformer sequence models are effective as multi-task multi-embodiment policies, including for real-world text, vision and robotics tasks. They show promise as well in few-shot out-of-distribution task learning. In the future, such models could be used as a default starting point via prompting or fine-tuning to learn new behaviors, rather than training from scratch. Given scaling law trends, the performance across all tasks including dialogue will increase with scale in parameters, data and compute. Better hardware and network architectures will allow training bigger models while maintaining real-time robot control capability. By scaling up and iterating on this same basic approach, we can build a useful general-purpose agent. Acknowledgments We would like to thank Dan Horgan, Manuel Kroiss, Mantas Pajarskas, and Thibault Sottiaux for their help with data storage infrastructure; Jean-Baptiste Lespiau and Fan Yang for help on concurrent evalua-tion; Joel Veness for advising on the model design; Koray Kavukcuoglu for helping inspire the project and facilitating feedback; Tom Erez for advising on the agent design and task selection for continuous control; Igor Babuschkin for helping code the initial prototype; Jack Rae for advising on the transformer language model codebase; Thomas Lampe for building robot infrastructure and advising on real robotics experiments; Boxi Wu for input on ethics and safety considerations; Pedro A. Ortega for advice in regard to causality and self-delusion biases. Author Contributions developed the project concept, wrote the initial prototype, and led the project overall. led architecture development for vision and text, built infrastructure for tokenization and prompting, and contributed heavily to overall agent development and evaluation. Scott Reed Konrad Żołna led work on optimizing the transformer architecture, ran the largest number of experi-ments, and analyzed scaling law properties and in-distribution agent performance. Emilio Parisotto was the technical lead, responsible for creating a scalable data loader and evaluator supporting hundreds of tasks at once, and for the initial robot integration with Gato. Sergio Gómez Colmenarejo entwickelte das Modell einschließlich des Samplers für den ursprünglichen Prototyp, führte Ex-Experimente mit Fokus auf Robotik durch und erstellte Visualisierungen. Alexander Novikov built scalable storage infrastructure to provide Gato with SoTA-level agent expe-rience in Atari and other domains. Gabriel Barth-Maron conducted large scale agent data collection, built substantial data loading infrastructure, and integrated large scale visual-language datasets into the training of Gato. Mai Giménez contributed broadly to the Gato codebase including a bespoke distributed training sequence loader, and led the development of benchmarks for out-of-distribution generalization, and the training of competitive baseline agents. Yury Sulsky supported physical robotics infrastructure, conducted numerous evaluations and experiments to analyze the generalization properties of Gato, and contemplated broader ethical impact. Jackie Kay Führte Gatos Implementierung auf den physischen Roboter, lieferte starke bestehende Basislinien für das Stapeln von Blöcken und beraterte zur Modellentwicklung und zum experimentellen Design. Jost Tobias Springenberg developed the Gato dialogue and image captioning demonstrations, allowing users to easily probe the vision and language capacities of agents in development. Tom Eccles contributed to agent design as well as control datasets and environments with randomized physics and morphology variations. Jake Bruce helped in exploring vision architectures. Ali Razavi hat zum ersten Prototyp von Gato beigetragen, der auf Atari arbeitete, zusätzlich zu der Erforschung alternativer Netzwerkarchitekturen und Trainingszielen. Ashley Edwards advised on agent design, experiment design and task selection, especially for continuous control applications. Nicolas Heess advised on model design and experiments, and provided feedback in regular meetings. Yutian Chen advised on the design and planning of robotics efforts. Raia Hadsell advised on all aspects of the project, especially model architecture, training strategies and benchmark design. Oriol Vinyals was the primary project manager; eliciting key goals, tracking progress, facilitating pre-sentations and feedback, and coordinating resource planning. Mahyar Bordbar oversaw the project from its inception. Nando de Freitas References Abbas Abdolmaleki, Jost Tobias Springenberg, Yuval Tassa, Remi Munos, Nicolas Heess, and Martin Ried-miller. Maximum a posteriori policy optimisation. , 2018. Preprint arXiv:1806.06920 Samira Abnar and Willem Zuidema. Quantifying attention flow in transformers. Und das 2020. Preprint arXiv:2005.00928 Michael Ahn, Anthony Brohan, Noah Brown, Yevgen Chebotar, Omar Cortes, Byron David, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, et al. Do as i can, not as i say: Grounding language in robotic affordances. , 2022. Preprint arXiv:2204.01691 Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andy Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman und Karen Simonyan. , 2022. Preprint arXiv:2204.14198 Dario Amodei, Chris Olah, Jacob Steinhardt, Paul F. Christiano, John Schulman, and Dan Mané. Concrete problems in AI safety. , 2016. Preprint arXiv:1606.06565 Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick und Devi Parikh. , S. 2425–2433, 2015 International Conference on Computer Vision Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. , 2016. Preprint arXiv:1607.06450 Paul Bach-y Rita und Stephen W. Kercel: Sensorische Substitution und die Mensch-Maschine-Schnittstelle. , 7(12):541–546, 2003. Trends in cognitive sciences Bowen Baker, Ilge Akkaya, Peter Zhokhov, Joost Huizinga, Jie Tang, Adrien Ecoffet, Brandon Houghton, Raul Sampedro, and Jeff Clune. Video pretraining (vpt): Learning to act by watching unlabeled online videos. , 2022. Preprint arXiv::2206.11795 Gabriel Barth-Maron, Matthew W Hoffman, David Budden, Will Dabney, Dan Horgan, Dhruva Tb, Alistair Muldal, Nicolas Heess, and Timothy Lillicrap. Distributed distributional deterministic policy gradients. , 2018. Preprint arXiv:1804.08617 Charles Beattie, Joel Z Leibo, Denis Teplyashin, Tom Ward, Marcus Wainwright, Heinrich Küttler, Andrew Lefrancq, Simon Green, Víctor Valdés, Amir Sadik, et al. DeepMind lab. , 2016. Preprint arXiv: 1612.03801 Marc G Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling. The arcade learning environment: An evaluation platform for general agents. , 47:253 bis 279, 2013. Journal of Artificial Intelligence Research Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, et al. On the opportunities and risks of foundation models. , 2021. Preprint arXiv:2108.07258 Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, et al. Improving language models by retrieving from trillions of tokens. , 2021. Preprint arXiv:2112.04426 Nick Bostrom. . Dunod, 2017. Überintelligenz Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman, Jie Tang, and Wojciech Zaremba. Openai gym. , 2016. Preprint arXiv:1606.01540 TB Brown, B Mann, N Ryder, M Subbiah, J Kaplan, P Dhariwal, A Neelakantan, P Shyam, G Sastry, A Askell, et al. Sprachmodelle sind nur wenige Lernende. , pp. 1877–1901, 2020. Advances in Neural Information Processing Systems Serkan Cabi, Sergio Gómez Colmenarejo, Alexander Novikov, Ksenia Konyushkova, Scott Reed, Rae Jeong, Konrad Zolna, Yusuf Aytar, David Budden, Mel Vecerik, et al. Scaling data-driven robotics with reward sketching and batch reinforcement learning. , 2019. Preprint arXiv:1909.12200 Annie S Chen, Suraj Nair, and Chelsea Finn. Learning generalizable robotic reward functions from “in-the-wild" human videos. , 2021a. Preprint arXiv:2103.16817 Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Misha Laskin, Pieter Abbeel, Ar-avind Srinivas und Igor Mordatch. , 34, 2021b. Advances in Neural Information Processing Systems Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. Evaluating large language models trained on code. , 2021c. Preprint arXiv:2107.03374 Tao Chen, Adithyavairavan Murali, and Abhinav Gupta. Hardware conditioned policies for multi-robot transfer learning. , 31, 2018. Advances in Neural Information Processing Systems Ting Chen, Saurabh Saxena, Lala Li, David J Fleet, and Geoffrey Hinton. Pix2seq: A language modeling framework for object detection. In , 2022. ICLR Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco captions: Data collection and evaluation server. Das Jahr 2015. Preprint arXiv:1504.00325 Maxime Chevalier-Boisvert, Dzmitry Bahdanau, Salem Lahlou, Lucas Willems, Chitwan Saharia, Thien Huu Nguyen, and Yoshua Bengio. BabyAI: A platform to study the sample efficiency of grounded language learning. , 2018. Preprint arXiv:1810.08272 Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. PaLM: Scaling language modeling with pathways. , 2022. Preprint arXiv:2204.02311 Karl Cobbe, Chris Hesse, Jacob Hilton, and John Schulman. Leveraging procedural generation to benchmark reinforcement learning. In , pp. 2048–2056, 2020. International Conference on Machine Learning Zihang Dai, Zhilin Yang, Yiming Yang, Jaime G Carbonell, Quoc Le, and Ruslan Salakhutdinov. Transformer-xl: Attentive language models beyond a fixed-length context. In , pp. 2978–2988, 2019. Annual Meeting of the Association for Computational Linguistics Coline Devin, Abhishek Gupta, Trevor Darrell, Pieter Abbeel, and Sergey Levine. Learning modular neural network policies for multi-task and multi-robot transfer. In , pp. 2169–2176, 2017. IEEE International Conference on Robotics & Automation Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirec-tional transformers for language understanding. , 2018. Preprint arXiv:1810.04805 Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Un-terthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. , 2020. Preprint arXiv:2010.11929 Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Vlad Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, et al. Impala: Scalable distributed deep-RL with importance weighted actor-learner architectures. In , S. 1407–1416, 2018 Internationale Konferenz über maschinelles Lernen Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey Levine. D4RL: Datasets for deep data-driven reinforcement learning. , 2020. Preprint arXiv:2004.07219 Hiroki Furuta, Yutaka Matsuo, and Shixiang Shane Gu. Generalized decision transformer for offline hindsight information matching. , 2021. Preprint arXiv:2111.10364 Caglar Gulcehre, Ziyu Wang, Alexander Novikov, Thomas Paine, Sergio Gómez, Konrad Zolna, Rishabh Agarwal, Josh S Merel, Daniel J Mankowitz, Cosmin Paduraru, et al. RL unplugged: A suite of benchmarks for offline reinforcement learning. , 33:7248–7259, 2020. Fortschritte in neuronalen Informationssystemen Jeff Hawkins and Sandra Blakeslee. . Macmillan, 2004. On intelligence Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In , pp. 770–778, 2016a. IEEE Computer Vision und Mustererkennung Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity mappings in deep residual networks. In , pp. 630–645, 2016b. European Conference on Computer Vision Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. In , pp. 9729–9738, 2020. IEEE Computer Vision and Pattern Recognition Dan Hendrycks and Kevin Gimpel. Gaussian error linear units (GELUs). , 2016. Matteo Hessel, Hubert Soyer, Lasse Espeholt, Wojciech Czarnecki, Simon Schmitt, and Hado van Hasselt. Preprint arXiv:1606.08415 Multi-task deep reinforcement learning with popart. In , 2019. AAAI Matteo Hessel, Ivo Danihelka, Fabio Viola, Arthur Guez, Simon Schmitt, Laurent Sifre, Theophane Weber, David Silver, and Hado van Hasselt. Muesli: Combining improvements in policy optimization. , 2021. Preprint arXiv:2104.06159 Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. , 9(8): 1735 bis 1780, 1997. Neural computation Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. Training compute-optimal large language models. , 2022. Preprint arXiv:2203.15556 Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, and Kilian Weinberger. Deep networks with stochastic depth. , 2016. Preprint arXiv:1603.09382 Wenlong Huang, Igor Mordatch und Deepak Pathak. Eine Richtlinie, um sie alle zu kontrollieren: Gemeinsame modulare Richtlinien für Agnostik-Agentenkontrolle. , S. 4455 bis 4464, 2020. International Conference on Machine Learning Wenlong Huang, Pieter Abbeel, Deepak Pathak, and Igor Mordatch. Language models as zero-shot planners: Extracting actionable knowledge for embodied agents. im Jahr 2022. Preprint arXiv:2201.07207 David Yu-Tung Hui, Maxime Chevalier-Boisvert, Dzmitry Bahdanau, and Yoshua Bengio. Babyai 1.1. , 2020. Vorabdruck arXiv:2007.12770 Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, et al. Perceiver IO: A general architecture for structured inputs & outputs. , 2021. Preprint arXiv:2107.14795 Michael Janner, Qiyang Li, and Sergey Levine. Offline reinforcement learning as one big sequence modeling problem. , 34, 2021. Advances in Neural Information Processing Systems Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc Le, Yun-Hsuan Sung, Zhen Li, and Tom Duerig. Scaling up visual and vision-language representation learning with noisy text supervision. In , pp. 4904–4916, 2021. International Conference on Machine Learning Melvin Johnson, Orhan Firat, and Roee Aharoni. Massively multilingual neural machine translation. In , pp. 3874–3884, 2019. Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, et al. Highly accurate protein structure prediction with AlphaFold. , 596(7873):583–589, 2021. Nature Lukasz Kaiser, Aidan N Gomez, Noam Shazeer, Ashish Vaswani, Niki Parmar, Llion Jones, and Jakob Uszkoreit. One model to learn them all. , 2017. Preprint arXiv:1706.05137 Anssi Kanervisto, Joonas Pussinen, and Ville Hautamäki. Benchmarking end-to-end behavioural cloning on video games. In , pp. 558–565, 2020. IEEE conference on games (CoG) Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. , 2020. Preprint arXiv:2001.08361 Steven Kapturowski, Georg Ostrovski, John Quan, Remi Munos, and Will Dabney. Recurrent experience replay in distributed reinforcement learning. In ... 2018 International Conference on Learning Representations Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik, and Geoffrey Irving. Alignment of language agents. , 2021. Preprint arXiv:2103.14659 Nitish Shirish Keskar, Bryan McCann, Lav R Varshney, Caiming Xiong, and Richard Socher. CTRL: A conditional transformer language model for controllable generation. , 2019. Preprint arXiv:1909.05858 Diederik P. Kingma and Jimmy Ba. Adam: A method for stochastic optimization. , 2014. Preprint arXiv:1412.6980 Taku Kudo and John Richardson. SentencePiece: A simple and language independent subword tokenizer and detokenizer for neural text processing. In , Annual Meeting of the Association for Computational Linguistics pp. 66–71, 2018. Vitaly Kurin, Maximilian Igl, Tim Rocktäschel, Wendelin Boehmer, and Shimon Whiteson. My body is a cage: the role of morphology in graph-based incompatible control. , 2020. Preprint arXiv:2010.01856 Alex X Lee, Coline Manon Devin, Yuxiang Zhou, Thomas Lampe, Konstantinos Bousmalis, Jost Tobias Springenberg, Arunkumar Byravan, Abbas Abdolmaleki, Nimrod Gileadi, David Khosid, et al. Beyond pick-and-place: Tackling robotic stacking of diverse shapes. In , 2021. Conference on Robot Learning Alex X Lee, Coline Manon Devin, Jost Tobias Springenberg, Yuxiang Zhou, Thomas Lampe, Abbas Abdol-maleki, and Konstantinos Bousmalis. How to spend your robot time: Bridging kickstarting and offline reinforcement learning for vision-based robotic manipulation. im Jahr 2022. Preprint arXiv:2205.03353 Shuang Li, Xavier Puig, Chris Paxton, Yilun Du, Clinton Wang, Linxi Fan, Tao Chen, De-An Huang, Ekin Akyürek, Anima Anandkumar, Jacob Andreas, Igor Mordatch, Antonio Torralba, and Yuke Zhu. Pre-trained language models for interactive decision-making. , 2022a. Preprint arXiv:2202.01771 Yujia Li, David Choi, Junyoung Chung, Nate Kushman, Julian Schrittwieser, Rémi Leblond, Tom Eccles, James Keeling, Felix Gimeno, Agustin Dal Lago, et al. Competition-level code generation with AlphaCode. , 2022b. Preprint arXiv:2203.07814 Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. ... 2017 Preprint arXiv:1711.05101 Kenneth Marino, Mohammad Rastegari, Ali Farhadi, and Roozbeh Mottaghi. Ok-VQA: A visual question answering benchmark requiring external knowledge. In ,pp. 3195–3204, 2019 IEEE Computer Vision and Pattern Recognition Jacob Menick, Maja Trebacz, Vladimir Mikulik, John Aslanides, Francis Song, Martin Chadwick, Mia Glaese, Susannah Young, Lucy Campbell-Gillingham, Geoffrey Irving, et al. Teaching language models to support answers with verified quotes. , 2022. Vorabdruck arXiv:2203.11147 Margaret Mitchell, Simone Wu, Andrew Zaldivar, Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji, and Timnit Gebru. Model cards for model reporting. In , pp. 220–229, 2019. Verfahren der Konferenz über Fairness, Rechenschaftspflicht und Transparenz Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu, Joel Veness, Marc G Bellemare, Alex Graves, Martin Riedmiller, Andreas K Fidjeland, Georg Ostrovski und andere. , 518(7540):529–533, 2015. Nature Vernon Mountcastle. An organizing principle for cerebral function: the unit module and the distributed system. , 1978. The mindful brain Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders und andere. , 2021. Preprint arXiv:2112.09332 Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu. WaveNet: A generative model for raw audio. , 2016. Preprint arXiv:1609.03499 Pedro A Ortega, Markus Kunesch, Grégoire Delétang, Tim Genewein, Jordi Grau-Moya, Joel Veness, Jonas Buchli, Jonas Degrave, Bilal Piot, Julien Perolat, et al. Shaking the foundations: delusions in sequence models for interaction and control. , 2021. Preprint arXiv:2110.10819 Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray und andere. , 2022. Preprint arXiv:2203.02155 Simone Parisi, Aravind Rajeswaran, Senthil Purushwalkam, and Abhinav Gupta. The unsurprising effec-tiveness of pre-trained vision models for control. , 2022. Preprint arXiv:2203.03580 Vineel Pratap, Anuroop Sriram, Paden Tomasello, Awni Hannun, Vitaliy Liptchinsky, Gabriel Synnaeve, and Ronan Collobert. Massively multilingual ASR: 50 languages, 1 model, 1 billion parameters. , 2020. Preprint arXiv:2007.03001 Sébastien Racanière, Théophane Weber, David Reichert, Lars Buesing, Arthur Guez, Danilo Jimenez Rezende, Adrià Puigdomènech Badia, Oriol Vinyals, Nicolas Heess, Yujia Li und andere. , 30, 2017. Fortschritte in neuronalen Informationssystemen Jack W Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, et al. Scaling language models: Methods, analysis & insights from training gopher. , 2021. Preprint arXiv:2112.11446 Scott Reed and Nando De Freitas. Neural programmer-interpreters. In , 2016. International Conference on Learning Representations Machel Reid, Yutaro Yamada, and Shixiang Shane Gu. Can Wikipedia help offline reinforcement learning? im Jahr 2022. Preprint arXiv:2201.12122 Stuart Russell. Penguin, 2019 Andrei A Rusu, Neil C Rabinowitz, Guillaume Desjardins, Hubert Soyer, James Kirkpatrick, Koray Human compatible: Artificial intelligence and the problem of control Kavukcuoglu, Razvan Pascanu, and Raia Hadsell. Progressive neural networks. , 2016. Preprint arXiv:1606.04671 Victor Sanh, Albert Webson, Colin Raffel, Stephen Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Arun Raja, Manan Dey, M Saiful Bari, Canwen Xu, Urmish Thakker, Shanya Sharma Sharma, Eliza Szczechla, Taewoon Kim, Gunjan Chhablani, Nihal Nayak, Debajyoti Datta, Jonathan Chang, Mike Tian-Jian Jiang, Han Wang, Matteo Manica, Sheng Shen, Zheng Xin Yong, Harshit Pandey, Rachel Bawden, Thomas Wang, Trishala Neeraj, Jos Rozen, Abheesht Sharma, Andrea Santilli, Thibault Fevry, Jason Alan Fries, Ryan Teehan, Teven Le Scao, Stella Biderman, Leo Gao, Thomas Wolf, and Alexander M Rush. Multitask prompted training enables zero-shot task generalization. In , 2022. International Conference on Learning Representations Jürgen Schmidhuber. One big net for everything. , 2018. Preprint arXiv:1802.08864 Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, et al. Atari, Go, Schach und Shogi durch Planung mit einem gelernten Modell beherrschen. , 588(7839):604 bis 609, 2020 Nature Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut. Conceptual captions: A cleaned, hyper-nymed, image alt-text dataset for automatic image captioning. In , pp. 2556–2565, 2018. Annual Meeting of the Association for Computational Linguistics Noam Shazeer. Glu variants improve transformer. , 2020. Vorabdruck arXiv::2002.05202 H Francis Song, Abbas Abdolmaleki, Jost Tobias Springenberg, Aidan Clark, Hubert Soyer, Jack W Rae, Seb Noury, Arun Ahuja, Siqi Liu, Dhruva Tirumala, et al. V-mpo: On-policy maximum a posteriori policy optimization for discrete and continuous control. In Und das 2020. ICLR Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: A simple way to prevent neural networks from overfitting. , 15(56): 1929–1958, 2014. Journal of Machine Learning Forschung Richard Sutton. The bitter lesson. , 13:12 Uhr 2019 Incomplete Ideas (blog) Yuval Tassa, Yotam Doron, Alistair Muldal, Tom Erez, Yazhe Li, Diego de Las Casas, David Budden, Abbas Abdolmaleki, Josh Merel, Andrew Lefrancq, et al. DeepMind control suite. , 2018. Preprint arXiv:1801.00690 Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, et al. LaMDA: Language models for dialog applications. , 2022. Preprint arXiv:2201.08239 Emanuel Todorov, Tom Erez, and Yuval Tassa. Mujoco: A physics engine for model-based control. In , pp. 5026–5033, 2012. International Conference on Intelligent Robots and Systems Maria Tsimpoukelli, Jacob L Menick, Serkan Cabi, SM Eslami, Oriol Vinyals, and Felix Hill. Multimodal few-shot learning with frozen language models. , S. 200–212, 2021. Fortschritte in neuronalen Informationssystemen Saran Tunyasuvunakool, Alistair Muldal, Yotam Doron, Siqi Liu, Steven Bohez, Josh Merel, Tom Erez, Timothy Lillicrap, Nicolas Heess, and Yuval Tassa. dm_control: Software and tasks for continuous control. , 6:100022, 2020 Software Impacts Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. am 30. Dezember 2017. Fortschritte in neuronalen Informationssystemen Zirui Wang, Jiahui Yu, Adams Wei Yu, Zihang Dai, Yulia Tsvetkov und Yuan Cao. Simvlm: Einfaches visuelles Sprachmodell mit schwacher Aufsicht. Und 2021. Preprint arXiv:2108.10904 Ziyu Wang, Alexander Novikov, Konrad Zolna, Josh S Merel, Jost Tobias Springenberg, Scott E Reed, Bobak Shahriari, Noah Siegel, Caglar Gulcehre, Nicolas Heess, et al. Critic regularized regression. , 33:7768–7778, 2020. Fortschritte in neuronalen Informationssystemen Jason Wei, Maarten Bosma, Vincent Y Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M Dai, and Quoc V Le. Finetuned language models are zero-shot learners. , 2021. Preprint arXiv:2109.01652 Laura Weidinger, John Mellor, Maribeth Rauh, Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng, Mia Glaese, Borja Balle, Atoosa Kasirzadeh, et al. Ethical and social risks of harm from language models. , 2021. Preprint arXiv:2112.04359 Yuxin Wu und Kaiming He. Normalisierung der Gruppe. , pp. 3–19, 2018. European Conference on Computer Vision Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julian, Karol Hausman, Chelsea Finn, and Sergey Levine. Meta-World: A benchmark and evaluation for multi-task and meta reinforcement learning. In , pp. 1094–1100, 2020. Conference on Robot Learning Qinqing Zheng, Amy Zhang, and Aditya Grover. Online decision transformer. , 2022. Preprint arXiv:2202.05607 Konrad Zolna, Alexander Novikov, Ksenia Konyushkova, Caglar Gulcehre, Ziyu Wang, Yusuf Aytar, Misha Denil, Nando de Freitas, and Scott Reed. Offline learning from demonstrations and unlabeled experience. , 2020. Preprint arXiv:2011.13885 Konrad Zolna, Scott Reed, Alexander Novikov, Sergio Gómez Colmenarejo, David Budden, Serkan Cabi, Misha Denil, Nando de Freitas und Ziyu Wang. , pp. 247–263, 2021. Conference on Robot Learning Supplementary Material A Model card We present a model card for Gato in Table 4. Table 4: We follow the framework proposed in Gato Model Card. (Mitchell et al., 2019). B Agent Data Tokenization Details In this section we provide additional details on our tokenization schemes. Our agent data is sequenced as follows: • die are presented to the agent in order of time (timesteps). Episodes • die Sie werden wiederum in der folgenden Reihenfolge vorgestellt: Timesteps ([ 1: 1 : 1: ]) are ordered lexicographically by key, each item is sequenced as follows: – Observations y K, x m, z n ∗ Text tokens ( 1 : ) are in the same order as the raw input text. y k ∗ Image patch tokens ( 1: Sie befinden sich in rasterer Reihenfolge. x m ∗ Tensors ( 1 : ) (such as discrete and continuous observations) are in row-major order. z n – (' '); a designated separator token is provided after observations. Separator | – ( 1: ) are tokenized as discrete or continuous values and in row-major order. Actions a A A full sequence of tokens is thus given as the concatenation of data from T timesteps: where L = T(k + m + n + 1 + A) is the total number of tokens. Jedes schwimmende Punktelement der Tensoren in der Beobachtungssequenz ist wie in WaveNet mu-law kompandiert (Oord et al., im Jahr 2016): with parameters µ = 100 and M = 256. (If the floating-point tensor is in the action set, we do not need to compand the elements in the sequence because actions are only defined in the range \[ 1, 1\] for all our environments.) All the elements are subsequently clipped so that they fall in the set \[ 1, 1\]. Finally, they are discretized using bins of uniform width on the domain \[ 1,1\]. We use 1024 bins and shift the resulting integers so they are not overlapping with the ones used for text tokens. The tokenized result is therefore a sequence of integers within the range of \[32000, 33024). Diese Figur and Figure for visualizations of tokenizing and sequencing values (both discrete and con-tinuous) and images. See Section for details about local position encodings referenced in the figures. 14 15 C C Modellarchitektur C.1 Transformer Hyperparameters Die Transformator-Hyperparameter von Gato sind in Tabelle dargestellt We also list the hyperparameters of smaller architecture variants used in Section 5. 5. C.2 Embedding Function The ResNet block uses the v2 architecture contains GroupNorm mit 32 Gruppen statt LayerNorm and GELU activation functions instead of RELU. The block is diagrammed in Figure (Er und Al. 2016b), (Wu & He, 2018) Ba et al. 2016), (Hendrycks & Gimpel, 2016) 16. C.3 Position Encodings After tokens are mapped into token embeddings, two position encodings are added to the token embeddings (when applicable) to provide temporal and spatial information to the model. These are described below. Patch Position Encodings These position encodings convey information about a patch’s global position within the image from which the patch was extracted. First, the relative row and column intervals of the patch are calculated by normalizing the patch’s pixel intervals by the image resolution. The row and column normalized intervals are then quantized into a vocabulary size (we use 128) and are used to index a row and column table of learnable position encodings. The method in which the quantized row and column intervals are converted into indices depends on whether we are training or evaluating the model: during training a random index is uniformly sampled from the quantized interval, while during evaluation we deterministically take the (rounded) mean of the interval. Once row and column position encoding are retrieved from the embedding table, they are added onto the token embedding produced by the resnet embedding function, as described previously. To more concretely demonstrate this process, we provide an example in Figure [17.](#_bookmark144) We will follow the process with the patch highlighted in red on the left of the subfigure. The image is of resolution 80 64 and each patch is 16 16, meaning there are 5 4 = 20 patches total. The highlighted patch starts at pixel row interval \[16*,* 32\] and pixel column interval \[32*,* 64\]. Normalized, the row interval is therefore \[0*.*25*,* 0*.*5\] and the column interval is \[0*.*4*,* 0*.*6\]. We then separately quantize the intervals into 128 uniformly spaced bins, with the resulting quantized row interval being \[32*,* 64\] and the quantized column interval being \[51*,* 77\]. During training, we uniformly sample integers between the quantized row intervals, whereas during testing we would use the means, which are index 48 for row position and index 64 for column position. The row and column positions are finally used to index separate row and column position encoding tables to produce learnable embeddings which are added onto the corresponding patch token embedding. Local Observation Position Encodings Wir wiederholen, dass während der Tokenisierung für jeden Zeit-Schritt alle Elemente des Beobachtungssets in Sequenzen tokenisiert und in eine Beobachtungssequenz verflochten werden. Jeder Token in dieser Beobachtungssequenz erhält einen Index, der der Sequenzordnung entspricht, d.h. der erste Token ist 0 und der letzte die Länge der Beobachtungssequenz minus eins. Nach dem Einbinden wird für alle Token, die Teil eines Beobachtungssets waren, der entsprechende Beobachtungs-Token-Index verwendet, um eine Tabelle von lernbaren Positionierungskodierungen zu indexieren, mit einem Einbinden für jeden möglichen Beobachtungs-Token-Index (in der Praxis setzen wir die Tabelle einfach auf einen großen Wert wie / The position encoding is then added onto the observation token embedding to produce the final token embedding. Note that all action tokens are given the same position encoding regardless of their position in the time-step sequence. We illustrate an example of this process in Figure 18. D. Vorbereitung Für alle Modelle verwenden wir den AdamW Die lineare Erwärmung dauert 15*,* 000 Schritte, beginnend mit einer Lernrate von 1e-7 und endend mit einer anderen maximalen Lernrate je nach Modell (siehe Tabelle) Diese Lernrate wird dann um einen Faktor 10x über 1.000.000 Schritte verringert.Der AdamW-Optimierer hat Parameter 1 = 0*. 2 = 0.*95 and = 1e-8. We use a batch size of 512 and a sequence length of 1024 tokens for all models. Optimizer: von Loshchilov & Hutter, 2017) 6). β 9 und β ϵ Wir trainieren mit einem AdamW-Gewichtsabbauparameter von 0,1. Darüber hinaus verwenden wir stochastische Tiefe during pretraining, where each of the transformer sub-layers (i.e. each Multi-Head Attention and Dense Feedforward layer) is skipped with a probability of 0.1. Regularization: (Huang et al., Das Jahr 2016) E Fine-tuning Setup For all models we use the Adam Optimierer mit einer konstanten Lernrate von 1e-5. Der Adam-Optimierer hat Parameter 1 = 0*. 2 = 0.*95 and = 1e-8. Wir verwenden eine Batchgröße von 64 und eine Sequenzlänge von 1024 Token für alle Modelle. Optimizer: (Kingma & Ba, 2014) β 9 und β ϵ Wir verwenden Dropout Mit einer Rate von 0,1. Regularization: (Vorstand und Al. 2014 ) Wir bewerten Agenten alle 100 Lernschritte. Jede Bewertung berichtet vom Durchschnitt von 10 Läufen eines bestimmten Kontrollpunkts. Der gleitende Durchschnitt von 5 solchen Punkten wird berechnet (um 50 Läufe zusammenzufassen). Die endgültige Fein-Tuning-Leistung wird als das Maximum dieser glatten Punkte definiert. Evaluation: We generated data for the fine-tuning tasks the same way we did for the other tasks (see Section 3.1 for details). Instead of using all the data for a fine-tuning task, we discarded all but 2000 best episodes (leading to the highest returns). The fine-tuning datasets were created in the following way. We randomly took 1000 episodes (out of 2000 preselected episodes), then a subset of 100 episodes from the selected episodes, then 10, 5, 3, and finally a single episode. We repeated this procedure 3 times to obtain 3 series of cascading subsets for each task. Each subset is used to conduct one fine-tuning experiment, and each is reported on our plots in Section als separaten Punkt. Datasets: 5.2 We have not altered any of the tasks and used their canonical versions. As 3 out of 4 tasks are open sourced, they do not need further explanation. For the fourth task, DMLab order_of_apples_forage_simple, the goal is to collect apples in the right order, green ones first followed by the gold one. Task settings: F Datenerhebung Details F.1 Atari We collect two separate sets of Atari environments. The first (that we refer to as ALE Atari) consists of 51 canonical games from the Arcade Learning Environment The second (that we refer to as ALE Atari Extended) is a set of alternative games with their game mode and difficulty randomly set at the beginning of each episode. (Bürger und Al. im Jahr 2013). 3 For each environment in these sets we collect data by training a Muesli Wir erfassen ungefähr 20.000 zufällige Episoden, die der Agent während des Trainings erzeugt. (Hessel et al., von 2021 F2 Sokoban Sokoban is a planning problem in dem der Agent Kisten an Ziellokale drücken muss. Einige der Bewegungen sind irreversibel und folglich können Fehler das Rätsel unlösbar machen. Planung im Voraus ist daher notwendig, um bei diesem Rätsel erfolgreich zu sein. Wir verwenden ein Muesli Agent für die Erhebung von Trainingsdaten. (Racanière et al., im Jahr 2017), Hessel et al., von 2021 F3 Baby BabyAI ist eine Gridworld-Umgebung, deren Ebenen aus anweisungsnachfolgenden Aufgaben bestehen, die durch eine synthetische Sprache beschrieben werden.Wir generieren Daten für diese Ebenen mit dem eingebauten BabyAI-Bot.Der Bot hat Zugang zu zusätzlichen Informationen, die verwendet werden, um optimale Lösungen auszuführen, siehe Abschnitt C im Anhang von for more details about the bot. We collect 100,000 episodes for each level. (Chevalier-Boisvert et al., 2018) F.4 Die DeepMind Control Suite Die DeepMind Control Suite (T) ... , ist eine Reihe von physikalisch-basierten Simulationsumgebungen.Für jede Aufgabe in der Steuerungssuite sammeln wir zwei disjoint Datensätze, eine mit nur Statusfunktionen und eine mit nur Pixeln.Wir verwenden ein D4PG agent to collect data from tasks with state features, and an MPO basierender Agent, um Daten mithilfe von Pixeln zu sammeln. unisuvunakool et al im Jahr 2020; Tassa et al., 2018) (Barth-Maron et al., 2018) Abdolmaleki et al., 2018) Wir sammeln auch Daten für randomisierte Versionen der Steuerungs-Suite-Aufgaben mit einem D4PG-Agent. Diese Versionen randomisieren den Antriebsgerät, Gelenkbereich, Steifigkeit und Dämpfung sowie Geomgröße und Dichte. Es gibt zwei Schwierigkeits-Einstellungen für die randomisierten Versionen. „... 0“ [1. ... * 1 * . „... 0“ [ 1 ] , * 1 * * 4 . 9 95) 05 1]. Die große Einstellung skaliert Werte durch eine zufällige Zahl, die aus der Vereinigung von Intervallen gesammelt wird [0 6 8] 2 F5 DeepMind Laboratorien Das DeepMind Lab , der ist eine First-Person 3D-Umgebung, die Agenten 3D-Vision aus rohen Pixel-Eingängen mit einem egozentrischen Blickwinkel, Navigation und Planung unterrichten soll. (Beattie et al. Das Jahr 2016) Wir trainieren mit einem Impala Daten wurden gesammelt, indem der Agent auf diesen 18 Ebenen ausgeführt wurde, sowie eine zusätzliche Reihe von 237 Ebenen, die handgefertigt wurden, um eine vielfältige Reihe von Fähigkeiten zu testen. (Espeholt et al., im Jahr 2018 Die 18 elterlichen Ebenen zeichnen sich durch eine hohe Vielfalt an generierten Karten aus. Der Unterschied zwischen den Ebenen liegt in den Hyperparametern, die in einem Generierungsprozess verwendet werden. Diese Hyperparameter steuern hochrangige Merkmale wie die Typen von Strukturen, die geboren werden, die Schwierigkeit der Sprachanweisungen oder das Vorhandensein spezifischer Tools. Im Gegensatz zu den älteren Ebenen verwendet jede der zusätzlichen handgefertigten 237 Ebenen fast die gleiche Karte, und die Hauptunterschiede zwischen Instanzen der gleichen Ebene Karte sind Ästhetiken wie Farben der Wände oder Beleuchtungsbedingungen. Prozedurell erzeugt und wurden entwickelt, um eine vielfältige Reihe von Fähigkeiten zu testen, wie z. B. Treppensteigen oder mit spezifischen Werkzeugen. Sie sind ähnlich den Ebenen, die in Abbildung 3, Abbildung 7 und Abbildung 8 in dem oben genannten Papier not Beattie et al. (2016 zu sehen) Weitere Informationen zu den 18 elterlichen Ebenen (und deren Beziehung zu den anderen Ebenen) finden Sie im NeurIPS-Workshop. von Daniel Tanis . Eine Methodik für RL-Umweltforschung 4 Insgesamt sammelten wir Daten für 255 Ebenen aus dem DeepMind Lab (18 elterliche Ebenen und 237 handgefertigte Ebenen), von denen 254 während des Trainings von Gato verwendet wurden. F6 Procgen Benchmark Nächster is a suite of 16 procedurally generated Atari-like environments, which was proposed to benchmark sample efficiency and generalization in reinforcement learning. Data collection was done while training a R2D2 agent on each of the environments. We used the hard difficulty setting for all environments except for maze and heist, which we set to easy. (Cobbe et al., im Jahr 2020) (Kapturowski und Al., im Jahr 2018 F.7 Moduläres RL Modular RL ist eine Sammlung von MuJoCo (T kontinuierliche Steuerungsumgebungen, bestehend aus drei Sätzen von Varianten des OpenAI Gyms Walker2d-v2, Humanoid-v2 und Hopper-v2. Jede Variante ist eine morphologische Modifikation des ursprünglichen Körpers: Die Reihe von Morphologien wird erzeugt, indem alle möglichen Teilsätze von Gliedmaßen aufgezählt und nur jene Sätze beibehalten werden, die a) den Rumpf enthalten und b) immer noch ein verbundenes Diagramm bilden. Dies führt zu einer Reihe von Varianten mit unterschiedlichen Eingangs- und Ausgangsgrößen sowie unterschiedlicher Dynamik als die ursprünglichen Morphologien. (Huang et al., im Jahr 2020) Römer et al., 2012) (Brockman und Al., Das Jahr 2016) F.8 DeepMind Manipulation Spielplatz Der DeepMind Manipulation Spielplatz Wir sammeln Daten für 4 der Jaco-Aufgaben (Box, Stack Banana, Insertion und Slide) mithilfe eines Critic-Regularized Regression (CRR) Agents Die gesammelten Daten umfassen den physikalischen Zustand von MuJoCo, den wir für das Training und die Bewertung von Gato verwenden. (Zolna et al., 2021) (Wang et al., im Jahr 2020) F.9 Meta-Welt Meta-World (Y Es ist eine Suite von Umgebungen für Benchmarking von Meta-Reinforcement-Lernen und Multi-Task-Lernen.Wir sammeln Daten aus allen Trainings- und Testaufgaben im MT50-Modus, indem wir einen MPO-Agenten ausbilden mit unbegrenzten Umweltsamen und mit Zugriff auf den Zustand der MuJoCo-Physik-Engine. u et al., im Jahr 2020) 5 Abdolmaleki et al., im Jahr 2018 G Real Robotics Bewertung Details In the real world, control is asynchronous; physics does not wait for computations to finish. Thus, inference latency is a concern for evaluating a large model for real world tasks. In robotics, a fast control rate is thought to be critical for reacting to dynamic phenomena. The robot setup for RGB stacking has a 20Hz control rate (0.05 second timestep) by design. In order to reach an acceptable margin of latency, we modified inference at evaluation time by shortening the context length to 1. We also implemented a parallel sampling scheme where all the action tokens are zeroed out in the input sequences during training so we can sample all tokens corresponding to a robot action in a single model inference step instead of autoregressively as it’s done in other domains. We found that the 1.18B parameter model was able to run on the hardware accelerators in our robots (NVidia GeForce RTX 3090s), but still overran the 20Hz control rate by a small amount (~0.01 seconds). Wir verwenden die sparse Belohnung-Funktion, die in für die Datenfilterung. Wir wählen nur Spuren mit Erfolg der Aufgabe; das heißt, eine geringe Belohnung von 1 auf der letzten Zeitspanne. Lee et al. Die (2021) endgültig H Skill Mastery Architektur Die für den Skill Mastery-Benchmark gemeldeten Zahlen wurden erfasst, indem ein Modell mit einem Nullschuss ausgeführt wurde, das eine frühere Version der Gato-Architektur verwendet. Anstelle des ResNet-Patch-Embeddings wurde eine ähnliche Architektur mit einem lokalen Transformator verwendet, um Bild-Patch-Token einzubetten. Die lokalen Positions-Embeddings und Patch-Positions-Embeddings wurden nicht verwendet. Diese Änderungen wurden implementiert und wurden gefunden, um die Leistung von Gato zu verbessern, nachdem die Vortraining-Daten geändert wurden (weil wir uns entschieden haben, uns auf Skill Generalization statt auf die Skill Mastery-Herausforderung zu konzentrieren), weshalb sie als die endgültige Archit I Zusätzliche Roboterablationen Wir haben eine Reihe von Ablationen in der Simulation durchgeführt, um die Wirkung vielfältiger Vortrainingsdaten im Bereich Robotik besser zu verstehen (siehe Abbildung). We included the same baselines as in Section die Auswahl der Variante der Parametergröße 364M sowie eine zusätzliche Baseline, die nur mit Control Suite-Daten ausgebildet wurde. Der DM Control-only-Agent ist bei Null-Shot-Transfer überlegen als der Basis-Gato und mit vielen Fein-Tuning-Daten, was darauf hindeutet, dass Gato möglicherweise nicht die aus den textbasierten Datensätzen gelernten Repräsentationen nutzt, wenn er sich an Robotik-Aufgaben anpasst. Der gleiche Domain-Only-Agent erfüllt die Gesamtleistung am besten, entspricht der CRR-Baseline bei 1 Fein-Tuning-Episode und übertrifft sie mit mehr Daten, was darauf hindeutet, dass Gato auf der aktuellen Skala seine Verallgemeinerungskapazität für 19 ) 5.2 und J Aufmerksamkeit Visualisierung To render the transformer attention weights, we retrieved the cross-attention logits, a tensor with dimension ( ) wo Die Anzahl der Köpfe und ist die Anzahl der Token in einer Sequenz. Die ( Der Eintrag dieser Matrix kann als der Betrag interpretiert werden, der Warten auf Token von Token . Due to Gato’s image tokenization scheme, there are multiple tokens per timestep. Therefore to render the attention for a particular timestep, we took the sub-matrix that corresponds to that timestep. We then applied a softmax over the rows of this matrix to normalize the relevant values. Because we are only interested in attention to the previous tokens, we excluded the diagonal by setting it to negative infinity before softmax. H, T und T H T h, i und j h j i Um die Bedeutung jedes Patches zu messen, haben wir die Aufmerksamkeitsgewichte über die entsprechende Spalte durchschnittlich gemessen. Da Gato einen kausalen Transformator verwendet, ist die Aufmerksamkeitsmatrix niedriger dreieckig, so dass der Durchschnitt nur über die Unterspalte unter der Diagonale der Matrix betrachtet wurde. Mit dieser Methode fanden wir, dass die Aufmerksamkeitskarten in der ersten Schicht des Transformators am interpretierbarsten sind und mit den Ergebnissen der Bestimmte Überschriften verfolgen klar Aufgaben-spezifische Entitäten und Regionen des Bildes. zeigt die Aufmerksamkeitskarten für manuell ausgewählte Köpfe in der ersten Schicht für mehrere Aufgaben an. Abnar und Zuidema Das ist (2020) 20 K Detaillierte Ergebnisse für spezialisierte Meta-World-Agenten The specialist Meta-World agent described in Section Erreicht eine durchschnittliche Erfolgsquote von 96,6% bei allen 50 Meta-World-Aufgaben. Wir haben den Agent für jede Aufgabe 500-mal bewertet. 5.5 7. L Per-Domain Ergebnisse für Katze Wir beschreiben die Leistung von Gato für simulierte Steuerungsaufgaben in Abschnitt Auf dem Tisch Wir haben den Agent für jede Aufgabe 50 Mal ausgewertet. 4.1 Die 8 , Dieses Dokument ist unter der Lizenz CC by 4.0 Deed (Attribution 4.0 International) verfügbar. Dieses Papier ist unter der Lizenz CC by 4.0 Deed (Attribution 4.0 International). available on arxiv