DeepMindin kissa osoittaa, miten yksi AI voi oppia kaiken kerralla

Kirjoittajat : Scott Reed Konrad Żołna Emilio Parisotto Sergio Gómez Colmenarejo Alexander Novikov Gabriel Barth-Maron Mai Giménez Yury Sulsky Jackie Kay Jost Tobias Springenberg Tom Eccles Jake Bruce Ali Razavi Ashley Edwards Nicolas Heess Yutian Chen Raia Hadsell Oriol Vinyals Mahyar Bordbar Nando de Freitas Kirjoittajat : Pääosat Scott Reed Konrad Žołna Pääosat Emilio Parisotto Pääosat Sergio Gómez Colmenarejo Aleksanteri Novikov Pääosat Gabriel Barth-Maron Ei enää kouluja Yury Sulsky Pääosat Jackie Kay Pääosat Tobias Springenberg Pääosat Tom Eccles Pääosat Jake Bruce Ali Räsänen Pääosat Ashley Edwards Nicholas Heesistä Jukka Chen Raahia Hadsell Alkuperäiset viinit Mäkäräinen Bordbar Nando de Freitas -keskustelu abstrakti Inspiroituneena laajamittaisen kielen mallinnuksen edistymisestä sovellamme samanlaista lähestymistapaa kohti yhden yleisen agentin rakentamista tekstin lähtöalueen ulkopuolelle. Agentti, jota me kutsumme Gato, toimii monimodaalisena, monitehtävänä, monivaiheisena yleisenä politiikkana. Sama verkko, jolla on samat painot, voi pelata Ataria, otsikoita, chatia, pinota lohkoja todellisella robottikärjellä ja paljon muuta, päättämällä sen kontekstiin perustuen, tulisiko tekstin, yhteisten vääntöjen, painikkeiden painikkeiden tai muiden merkintöjen tuottamiseen. Tässä raportissa kuvaamme mallia ja tietoja ja dokumentoimme Gato: n nykyiset kyvyt. 1 Johdanto On merkittäviä etuja yhden hermosekvenssimallin käyttämisestä kaikissa tehtävissä. Se vähentää käsityöpolitiikan mallien tarvetta sopivilla induktiivisilla ennakkoluuloilla kullekin toimialueelle. Se lisää koulutustietojen määrää ja monimuotoisuutta, koska sekvenssimalli voi syöttää mitä tahansa dataa, joka voidaan serialisoida tasaiseksi sekvenssiksi. Lisäksi sen suorituskyky paranee edelleen jopa tietojen, laskenta- ja mallitasojen rajalla Historiallisesti yleiset mallit, jotka ovat parempia hyödyntämään laskentaa, ovat myös taipuneet ylittämään erikoistuneempia verkkotunnuskohtaisia lähestymistapoja. Ja lopulta (Päällikkö ja al. vuonna 2020; Hoffmann ja al. Vuonna 2022 ”Sutton, vuonna 2019), Tässä artikkelissa kuvaamme yleishyödyllisen agentin nykyistä iteraatiota, jota kutsutaan nimellä Gato, joka on instantioitu yhdeksi, suureksi, transformerin sekvenssimalliksi. yhdellä painoarvolla Gato voi käydä vuoropuhelua, kirjoittaa kuvia, pinota lohkoja todellisella robotin käsivarrella, ylittää ihmiset pelaamalla Atari-pelejä, navigoida simuloiduissa 3D-ympäristöissä, seurata ohjeita ja paljon muuta. Vaikka yksikään agentti ei voi odottaa menestyvän kaikissa kuviteltavissa olevissa valvontatehtävissä, varsinkin niissä, jotka ovat kaukana sen koulutusjakelusta, testaamme tässä hypoteesia, joka kouluttaa agenttia, joka on yleensä kykenevä of tasks is possible; and that this general agent can be adapted with little extra data to succeed at an even larger number of tasks. We hypothesize that such an agent can be obtained through scaling data, compute and model parameters, continually broadening the training distribution while maintaining performance, towards covering any task, behavior and embodiment of interest. In this setting, natural lan-guage can act as a common grounding across otherwise incompatible embodiments, unlocking combinatorial generalization to new behaviors. Suuri määrä Keskitymme koulutuksemme malliasteikon käyttöpisteeseen, joka mahdollistaa reaaliaikaisen robottien hallinnan, tällä hetkellä noin 1.2B-parametreja Gaton tapauksessa. Koska laitteistojen ja malliarkkitehtuurit paranevat, tämä käyttöpiste lisää luonnollisesti toteutettavissa olevaa mallin kokoa, työntämällä yleisiä malleja korkeammalle skaalauslakirivin yläpuolelle. Yksinkertaisuuden vuoksi Gatoa koulutettiin offline-tilassa puhtaasti valvotulla tavalla; periaatteessa ei kuitenkaan ole mitään syytä, miksi sitä ei voitaisi kouluttaa joko offline- tai online-vahvistusoppimisella (RL). 2 mallia The guiding design principle of Gato is to train on the widest variety of relevant data possible, including diverse modalities such as images, text, proprioception, joint torques, button presses, and other discrete and continuous observations and actions. To enable processing this multi-modal data, we serialize all data into a flat sequence of tokens. In this representation, Gato can be trained and sampled from akin to a standard large-scale language model. During deployment, sampled tokens are assembled into dialogue responses, captions, button presses, or other actions based on the context. In the following subsections, we describe Gato’s tokenization, network architecture, loss function, and deployment. 2.1 Tokenisointi On loputtomia mahdollisia tapoja muuttaa tietoja tokeneiksi, mukaan lukien suoraan käyttämällä raakaa taustalla olevaa byte-virtaa. alla raportoimme tokenisointijärjestelmästä, jonka löysimme tuottamaan parhaat tulokset Gato: lle nykyisessä mittakaavassa käyttämällä nykyaikaisia laitteisto- ja mallisarkkitehtuuria. Teksti on koodattu SentencePiecen kautta (Kudo & Richardson, 2018) 32 000 alatunnuksella kokonaislukualueeseen [0, 32000]. Kuvat muunnetaan ensin rasterijärjestyksessä 16 16 päällekkäisen laastarin sekvensseiksi, kuten tehtiin ViT:ssä (Dosovitskiy et al., 2020). Kuvan __p__atches jokainen pikseli normalisoidaan sitten välillä [−1*,* 1] ja jaetaan laastarin koon neliön juurella (ts. √16 = 4). Erilliset arvot, kuten Atarin painikkeen painallukset, tasoitetaan sarjan suurimmassa järjestyksessä oleviin kokonaislukuihin. Tokenisoitu tulos on kokonaislukujen sarja [0*,* 1024:n alueella. Jatkuvat arvot, esim. proprioceptiiviset syöttöt tai yhteiset vääntömomentit, tasoitetaan ensin rivi-major-järjestyksessä kelluvien pistearvojen sekvensseihin. Arvot koodataan mu-law alueeseen [ 1*,* 1] jos niitä ei jo ole (ks. kuva 14 yksityiskohdat), sitten diskretisoidaan 1024 yhtenäiseen vääntömomenttiin. Kun tiedot on muunnettu tokeneiksi, käytämme seuraavaa kanonista järjestystä. Tekstin tokenit ovat samassa järjestyksessä kuin raaka syöttöteksti. Kuvan patch tokenit rasterin järjestyksessä. Tensorit rivi-major järjestyksessä Nostettuja rakenteita lexikografisessa järjestyksessä avaimen mukaan. Agentti aikaväliä havainto tokeneina, jota seuraa erottaja, sitten toiminta tokeneja. Agentti-episodeja ajankohtaisina vaiheina aikajärjestyksessä. Lisätietoja tokenisoivien agenttien tiedoista esitetään täydentävässä aineistossa (Sektio b) ja 2.2 Sisäänrakennettujen tokenien asettaminen ja lähtötavoitteiden asettaminen Tokenisoinnin ja sekvenssin jälkeen sovellamme parametrisoitua upottamisfunktiota *f* ( ; *θe*) jokaiseen tokeniin (eli sitä sovelletaan sekä havaintoihin että toimintoihin) tuottamaan lopullisen mallin syöttö. • Tokenit, jotka kuuluvat tekstiin, erillisiin tai jatkuvasti arvioituihin havaintoihin tai toimintoihin mihin tahansa aikaväliin, upotetaan hakutaulukon kautta opitun vektorin upottamiseen. • Kaikkien aikavälien kuvan korjauksiin kuuluvat tunnisteet on upotettu yhdellä ResNetillä Lisätään myös kuvan patch token-sisääntelyyn oppimiskelpoinen kuvan sisäisen sijainnin koodausvektori. Hän et al. Vuoden 2016 a Viitataan liitteeseen Täydelliset tiedot toiminnasta. C.3 Näytä Kun mallimme tietoja autoregressiivisesti, jokainen token on mahdollisesti myös kohdeetiketti, kun otetaan huomioon aiemmat tokenit. Teksti-tokenit, erilliset ja jatkuvat arvot ja toimet voidaan asettaa suoraan kohteiksi tokenisoinnin jälkeen. Kuvan tokenit ja agentin ei-tekstuaaliset havainnot eivät ole tällä hetkellä ennustettavissa Gato, vaikka se voi olla mielenkiintoinen suunta tulevaan työhön. Näiden ennustamattomien tokenien tavoitteet asetetaan käyttämättömään arvoon ja niiden osuus tappiosta on peitetty. 2.3 Harjoittelu Kun otetaan huomioon tokenien sekvenssi 1 :n ja parametrit , mallimme tiedot käyttämällä todennäköisyyssääntöä ketjussa: s L θ Lataa määrittelemme naamiointitoiminnon *m* siten, että *m*(*b, l*) = 1 jos indeksin *l* tunnus on joko tekstistä tai agentin kirjautuneesta toiminnasta ja 0 muutoin. b Kuten edellä on kuvattu, Gaton verkkoarkkitehtuurissa on kaksi pääkomponenttia: parametri-sisällytysfunktio, joka muuttaa tokenit token-sisällytyksiin, ja sekvenssimalli, joka tuottaa jakelun seuraavalle erilliselle tokenille. yksinkertaisuuden ja skaalautuvuuden vuoksi. Gato käyttää 1.2B-parametrin vain dekooderin muuntajaa, jossa on 24 kerrosta, upottamiskoko 2048, ja huomiovarauksen jälkeinen piilotettu koko 8196 (lisätietoja kohdassa Ahtisaari ja al. Vuonna 2017 C 1 ) Koska toimialueen eri tehtävät voivat jakaa samanlaisia toteutusmuotoja, havaintoformaatteja ja toimen eritelmiä, malli tarvitsee joskus lisää kontekstia tehtävien selventämiseksi. ja käytä välitöntä säätelyä. Harjoittelun aikana jokaisen erän 25%: lla sekvensseistä esitetään välitön sekvenssi, joka on peräisin saman lähteen agentin samassa tehtävässä tuottamasta jaksosta. Puolet välitöntä sekvenssiä on jakson lopusta, joka toimii monien toimialueiden tavoiteedellytyksenä; ja toinen puoli näytetään yhdenmukaisesti jaksosta. Arvioinnin aikana agentti voidaan esittää käyttämällä halutun tehtävän onnistunutta esittelyä, jota teemme oletusarvoisesti kaikissa tässä esitetyissä valvontatuloksissa. (Hän et al. Vuonna 2022 Veli ja al. Vuonna 2021 Brown ja al. vuonna 2020) Mallin koulutus suoritetaan 16x16 TPU v3 -leikkauksella 1M-vaiheille, joissa on erän koko 512 ja token-jakson pituus = 1024, joka kestää noin 4 päivää. Arkkitehtuurin yksityiskohdat löytyvät kohdasta Koska agenttien jaksot ja asiakirjat voivat helposti sisältää paljon enemmän tokeneja kuin ne sopivat kontekstiin, otamme satunnaisesti näytteitä seuraavista: Jokainen erä sekoittaa alajaksot suunnilleen yhtenäisesti eri verkkotunnuksissa (esim. Atari, MassiveWeb jne.), jossa manuaalisesti painotetaan suurempia ja laadukkaampia tietokokonaisuuksia (ks. taulukko). osastolla ja yksityiskohtia varten) L c L 1 3 2.4 Käyttöönotto Kissan käyttöönotto politiikkana on kuvattu kuvassa Ensinnäkin prompt, kuten demonstrointi, tokenisoidaan muodostaen alkuperäisen sekvenssin. Oletusarvoisesti otamme ensimmäiset 1024 tokenia demonstroinnista. Seuraavaksi ympäristö tuottaa ensimmäisen havainnon, joka tokenisoidaan ja liitetään sekvenssiin. Gato näytteet toimintavektori autoregressiivisesti yksi tokeni kerrallaan. Kun kaikki tokenit, jotka sisältävät toimintavektori on otettu näytteitä (määritelty toimintaympäristön toimenpide-eritelmän mukaan), toiminta dekoodaetaan kääntämällä tokenisointimenettely kuvattu kohdassa Tämä toimenpide lähetetään ympäristöön, joka askeleet ja tuottaa uuden havainnon. Menettely toistuu. Malli näkee aina kaikki aiemmat havainnot ja toimet sen kontekstiikkunassa 1024 tokenia. Olemme havainneet, että on hyödyllistä käyttää transformer XL -muistia käyttöönoton aikana, vaikka sitä ei käytetty koulutuksen aikana 3. 2.1 Päätös (Juut ja al. Vuonna 2019). 3 Tiedot Gato on koulutettu lukuisiin tietokokonaisuuksiin, jotka sisältävät agenttikokemusta sekä simuloiduissa että reaalimaailman ympäristöissä, sekä erilaisiin luonnollisiin kieli- ja kuvatietokokonaisuuksiin. Arvioidut tokenien lukumäärät ohjaustietokokonaisuudessa lasketaan ottamalla huomioon kohdassa kuvattu tokenisointimekanismi. 1. 2.1 Päätös 3.1 Simuloidut valvontatehtävät Valvontatehtävämme koostuvat erikoistuneen SoTA: n tai lähellä SoTA: ta vahvistusoppimisen agenttien luomista tietokokonaisuuksista, jotka on koulutettu erilaisissa ympäristöissä.Kunkin ympäristön osalta tallennamme osakokemuksen, jonka agentti tuottaa (valtiot, toimet ja palkinnot) koulutuksen aikana. Simuloituja ympäristöjä ovat Meta-World (Y esiteltiin vertailu meta-vahvistuksen oppimiseen ja monitehtävien oppimiseen, Sokoban esitetään suunnittelun ongelmana, BabyAI kieliopetus seuraavissa grid-maailmoissa, DM Control Suite (T jatkuvaan valvontaan sekä DM Lab suunniteltu opettamaan agenttien navigointia ja 3D-näkemystä raaka-pikseleistä itsekeskeisellä näkökulmalla. klassisilla Atari-peleillä (käytämme kahta sarjaa pelejä, joita kutsumme ALE Atari ja ALE Atari Extended, katso kohta ja yksityiskohtia varten) Sinä ja Al. vuonna 2020) (Häppäri ja muut) Vuonna 2017 (Häppäri ja muut) Vuonna 2018 Jääkiekko et al., vuonna 2020) (Häppäri ja muut) Vuonna 2016 (Häppäri et al. Vuonna 2013) F1Muokkaa Meillä on myös Procgen Benchmark Modulaarinen RL Mukana on myös neljä tehtävää, joissa käytetään simuloitua Kinova Jaco -armoa DM Manipulation Playgroundista. osasto sisältää syvällisemmän kuvauksen näistä valvontatehtävistä sekä siitä, mitä RL-agenttia käytettiin tietojen tuottamiseen. (Häppäri ja muut) vuonna 2020) (Hän et al. Vuonna 2020). Jylhä et al. Jäsenet (2020) F Olemme havainneet, että on tehokasta kouluttaa suodatettu joukko jaksoja, joissa palautetaan vähintään 80 % tehtävän asiantuntija-palautuksesta. Asiantuntija-palautus mittaa asiantuntija-agentin saavuttaman maksimaalisen kestävän suorituskyvyn. Määritämme sen kaikkien laskettujen ikkunan keskimääräisten tuottojen enimmäismääräksi, joka lasketaan tehtävän kaikkien kerättyjen jaksojen osalta: Missä Se on koko tehtävään kerättyjen jaksojen kokonaismäärä, on ikkunan koko, ja on kokonaispaluu episodiin Jotta saataisiin tarkkoja arvioita, käytämme käytännössä on oltava 10 % kokonaistietomäärästä tai vähintään 1000 jaksoa (eli = min(1000*, * 0 * * 1 ) on N W Riin i W W × n 3.2 Näkökulma ja kieli Kissa on koulutettu MassiveTextissä kokoelma suuria englanninkielisiä tekstitietokokonaisuuksia useista lähteistä: verkkosivut, kirjat, uutisartikkelit ja koodi. (Hän et al. Vuonna 2021 Olemme myös sisällyttäneet useita visio-kielen datasetteja Gaton koulutukseen. koostuu 1,8B kuvista ja niiden vaihtoehtoisista tekstin (alt-text) merkinnöistä. LTIP (Long Text & Image Pairs), koostuu 312 miljoonasta kuvasta kappaleilla ja käsitteelliset kappaleet Coco kappaleet ja Tietokannat, joissa on 3,3M ja 120k kuvan ja tekstin parit.MultiModal MassiveWeb (M3W) ... , Sisältää 43 miljoonaa verkkosivua, joissa sekä tekstiä että kuvia on poistettu.Olemme myös sisällyttäneet visuaalisia kysymyksiin vastaavia tietokokonaisuuksia. ja VQAv2 9K- ja 443K-kuvien, kysymysten ja vastausten kolmiosaisuuksilla. Näistä muodostetaan koulutusepisodi, otamme näytteitä viidestä (kuva, teksti) parista, tokenisoimme ne, kytkemme ne yhteen ja laitoimme sitten tai satunnaistamme vaaditun koulutussekvenssin pituuden. Jia ja al. vuonna 2021) (Häppäri et al. Vuonna 2022 (Sharma ja al., Vuonna 2018 (Hän et al. vuonna 2015) (Häppäri et al Vuonna 2022) Merenranta ja al, vuonna 2019) (Anttila ja al. vuonna 2015) Robotics - RGB Stacking Benchmark (todellinen ja sim) Kokeilupöytäkirjana fyysisten toimintojen suorittamiseen todellisessa maailmassa valitsimme [Lee et al.](#_bookmark89) [(2021).](#_bookmark89) Ympäristö koostuu Sawyer-robottilaivasta, jossa on 3-DoF-kartesialaisen nopeuden ohjaus, ylimääräinen DoF nopeudelle ja erillinen tarttuva toiminta. Robotin työtila sisältää kolme punaista, vihreää ja sinistä muovista värillistä lohkoa eri muodoissa. Saatavilla olevat havainnot sisältävät kaksi 128 kameran kuvaa, robotin käsivarren ja tarttuvan liitännäisen kulmat sekä robotin pääteefektorin asento. Huomattavasti kolmen kohteen maapallon totuuden tilaa koskevia tietoja korissa ei tarkkaile agent Käytämme useita koulutustietolähteitä näihin tehtäviin.Kyvyn yleistämisessä käytämme sekä simulaatiossa että todellisuudessa parhaiden sim2real-agenttien keräämiä tietoja We collected data only when interacting with the designated RGB-stacking (tämä vastaa yhteensä 387 000 onnistunutta polkua simulaatiossa ja 15 000 todellista polkua). in simulation and from the best sim2real policy on the real robot (amounting to 219k trajectories in total). Note that this data is only included for specific Skill Mastery experiments in Section Li ja al. 2021 mukaan. Koulutuksen kohteet Li ja al. Päätös (2021) 5.4 Kuitenkin 4 Capabilities of the generalist agent In this section, we summarize the performance of Gato when trained on the above described data. That is, all results across all tasks are derived from a single pretrained model with a single set of weights. Results with fine-tuning will be presented in Section 5. 4.1 Simuloidut valvontatehtävät kuvaa osoittaa niiden erillisten valvontatehtävien lukumäärän, joiden osalta Gato suorittaa tietyn pistemäärän yläpuolella suhteessa Gaton koulutustiedoissa osoitettuun asiantuntijatehtävään. 5 Raportoimme suorituskyvystä prosentteina, joissa 100% vastaa per-tehtävä asiantuntija ja 0% satunnainen politiikka. Kunkin simuloidun valvontatehtävän olemme kouluttaneet mallimme, käytämme Gato-politiikkaa vastaavassa ympäristössä 50 kertaa ja keskimäärin määritellyt pisteet. Gato performs over 450 out of 604 tasks at over a 50% expert score threshold. 5 , In ALE Atari Gato achieves the average human (or better) scores for 23 Atari games , achieving over twice human score for 11 games. While the single-task online RL agents which generated the data still outperform Gato, this may be overcome by adding capacity or using offline RL training rather than purely supervised (see Section jossa esittelemme erikoistuneen yhden verkkotunnuksen ALE Atari-agentin, joka saavuttaa paremmin kuin ihmisen pisteet 44 pelissä). (Häppäri et al. 2013) 1 5.5 On BabyAI Gato achieves over 80% of expert score for nearly all levels . For the most difficult task, called BossLevel, Gato scores 75%. The two other published baselines we could find, BabyAI 1.0 and BabyAI 1.1 , scored 77% and 90%, respectively, having trained on this single task alone using a million demonstrations. (Chevalier-Boisvert et al., 2018) 2 (Hui et al. 2020), On Meta-World (Y Gato achieves more than 50% for all 44 out of 45 tasks that we trained on, over 80% for 35 tasks, and over 90% for 3 tasks. On canonical DM Control Suite (T Gato saavuttaa yli 50 % asiantuntijapisteestä 21 tehtävässä 30 tehtävästä ja yli 80 % 18 tehtävästä. u et al., vuonna 2020) assa et al., 2018), 4.2 Robotics First person teleoperation enables the collection of expert demonstrations. However, such demonstrations are slow and costly to collect. Data-efficient behavior cloning methods are therefore desirable for training a generalist robot manipulator and offline pretraining is thus a well-motivated area of research. To that end, we evaluated Gato on the established RGB Stacking benchmark for robotics. Yleistäminen suorituskykyä The Skill Generalization challenge from the RGB Stacking robotics benchmark tests the agent’s ability to stack objects of previously unseen shapes. The agent is trained on a dataset consisting of episodes of the robot stacking objects with a variety of different shapes. Five triplets of object shapes are, however, not included in the training data and serve as test triplets. We evaluated the trained generalist for 200 episodes per test triplet on the real robot. Table shows that our generalist agent’s success rate on each test triplet is comparable to the single task BC-IMP (filtered BC) baseline in 2 Lee et al. (2021). 4.3 Text samples Malli esittelee alkeellisia vuoropuhelu- ja kuvantamiskykyjä. Sisältää rep-resentatiivisen näytteen Gato's image captioning performance. shows some hand-picked examples of plain text dialogue exchange. 6 7 5 Analysis 5.1 Lainsäädännön analyysi In Figure we analyze the aggregate in-distribution performance of the pretrained model as a function of the number of parameters in order to get insight into how performance could improve with increased model capacity. We evaluated 3 different model sizes (measured in parameter count): a 79M model, a 364M model, and a 1.18B model (Gato). We refer to Section for details on the three model architectures. 8, C Here, for all three model sizes we plot the normalized return as training progresses. To get this single value, for each task we calculate the performance of the model as a percentage of expert score (the same as done in Section 1. Sitten jokaiselle taulukossa luetellulle verkkotunnukselle we average the percentage scores across all tasks for that domain. Finally, we mean-aggregate the percentage scores across all domains. We can see that for an equivalent token count, there is a significant performance improvement with increased scale. 4. 1 5.2 Out of distribution tasks In this section we want to answer the following question: Tästä syystä olemme poistanut kaikki tiedot neljästä esikoulutussarjasta: cartpole.swingup (DM Control Suite -verkkotunnus), assembly-v2 (Meta-World -verkkotunnus), order_of_apples_forage_simple (DM Lab -verkkotunnus) ja boxing (ALE Atari -verkkotunnus). Can our agent be used to solve a completely new task efficiently? Ideally, the agent could potentially learn to adapt to a new task via conditioning on a prompt including demonstrations of desired behaviour. However, due to accelerator memory constraints and the extremely long sequence lengths of tokenized demonstrations, the maximum context length possible does not allow the agent to attend over an informative-enough context. Therefore, to adapt the agent to new tasks or behaviours, we choose to fine-tune the agent’s parameters on a limited number of demonstrations of a single task, and then evaluate the fine-tuned model’s performance in the environment. Fine-tuning is very similar to pretraining with minor changes, such as different learning rate schedule; see Section for details. E We want to measure how choice of data used during pretraining influences post-fine-tuning performance. To this end, we compare Gato (trained on ) ablated datasetsissä koulutettuihin muunnelmiin: all data 1. A model pretrained only on data from the same domain as the task to be fine-tuned on, . same domain only data 2. A model pretrained only on non-control data, . no control data 3. A model fine-tuned from scratch, i.e. no pretraining at all, . scratch Considering as all these experiments require training a new model from scratch and then also fine-tuning, we present results using the less compute-intensive 364M parameter architecture described in Section Results are shown in Figure 5.1. 9. Fine-tuning performance on both cartpole.swingup and assembly-v2 tasks, both of which do not require image processing, present similar trends. Pretraining on all the datasets yields the best results, followed by pretraining on the same domain only. This difference is smaller for assembly-v2 but consistent for all few shot datasets. For these non-image-based environments, we see either no benefit (cartpole.swingup) or even negative transfer (assembly-v2) when pretraining on datasets, which only contain images and text data. Ei valvontaa Results for DM Lab order_of_apples_forage_simple are slightly different. Pretraining on DM Lab data only is already enough to approach the maximum reward of 19 and hence there is no observable benefit of adding data from different environments. What is different when compared to previously analysed no-vision environments is that pretraining on data helps, which can be possibly explained by the fact that agents in the DM Lab environment are fed images which, despite being simulated, are natural looking. Therefore, transfer from image captioning or visual grounded question answering tasks is possible. Ei valvontaa We were not able to observe any benefit from pretraining on boxing. The randomly initialized model seems to work better than any of the pretrained variants considered. We hypothesise that this is caused by the game’s input images being visually very distinct from the other data, suggesting transfer is difficult. We discuss this Atari challenge further in our related work section. 5.3 Fine-tuning on Robotic Stacking Tasks Section osoittaa, että monipuolisiin tehtäviin kykenevä perusta Gato pystyy toimimaan kilpailukykyisesti RGB Stacking Skill Generalization -vertailuarvon mukaisesti. Tässä osassa haluamme vastata seuraavaan kysymykseen: *Miten agenttimme parantaa robotiikan tehtäviä, kun annamme hienosäädön samalla tavalla kuin me hienosäädämme uusia tehtäviä osassa *We consider different model sizes and analyse the impact of pretraining datasets on the Skill Generalization benchmark, as well as a novel out of distribution task. Further analysis of fine-tuning with dataset ablations is in Appendix 4.2 5.2? I. Skill Generalization First, we would like to show that fine-tuning on object-specific data, similarly to what was done by is beneficial. Therefore, we fine-tuned Gato separately on five subsets of demonstrations from the dataset. Jokainen alaryhmä saatiin satunnaistamalla testitietokokonaisuus, joka koostui sim-to-real-agentin keräämistä demonstraatioista, jotka pinoavat todellisia testausobjekteja. Harkitsemme tätä asetusta, joka on verrattavissa RGB-pinoamistehtävien hienosäätöön perustuviin lähtökohtiin and use the 5k dataset that their behavior cloning 5k results are obtained with. To best match their experiments, we change our return filtering scheme during training: instead of using only successful stacks, we condition on the normalized return of the episode. Lee et al. (2022), test (Lee ja muut) 2022); kuvaa compares the success rate of Gato across different fine-tuning data regimes to the sim-to-real expert and a Critic-Regularized Regression (CRR) agent trained on 35k episodes of all test triplets. Gato, in both reality and simulation (red curves on the left and right figure, respectively), recovers the expert’s performance with only 10 episodes, and peaks at 100 or 1000 episodes of fine-tuning data, where it exceeds the expert. After this point (at 5000), performance degrades slightly but does not drop far below the expert’s performance. 10 (Wang et al., 2020) Fine-tuning and Model Size To better understand the benefit of large models for few-shot adaptation in robotics domains, we conducted an ablation on model parameter size. This section focuses on in-simulation evaluation. Figure compares the full 1.18B parameter Gato with the smaller 364M and 79M parameter variants for varying amounts of fine-tuning data. Although the 364M model overfits on one episode, causing performance to drop, there is a clear trend towards better adaptation with fewer episodes as the number of parameters is scaled up. The 79M model performs clearly worse than its bigger counterparts. The results suggest that the model’s greater capacity allows the model to use representations learned from the diverse training data at test time. 10 Adaptation to Perceptual Variations While the Skill Generalization task is an effective benchmark for motor Skill Generalization to shape varia-tions, it does not test the agent’s ability to adapt to perceptual variations and permutations in the objective specification. To further evaluate Gato’s generalization capabilities, we devised a new task in the RGB stacking benchmark where the goal is to stack the blue object on the green object, for test triplet 1 (see Figure First, we used a 3D mouse to collect 500 demonstrations of this task on the real robot, for a total of 2 hours and 45 minutes of demonstration data, and fine-tuned Gato on these episodes. Notably, all of the simulated and real robotics data in the pretraining set shows the robot successfully stacking the red object on the blue object, and the data does not include the object shapes in the test set. We found that additionally adding simulated demonstrations of the stack blue on green task to the fine-tuning dataset improved performance, and 10% was an ideal sampling ratio for this data. 11). We achieved a final 60% success rate after evaluating fine-tuned Gato on the real robot, while a BC baseline trained from scratch on the blue-on-green data achieved only 0.5% success (1/200 episodes). Qualitatively, the BC baseline would consistently move towards the blue object and occasionally pick it up and place it on top of the green object, but a full, stable stack was almost never achieved. 5.4 Robotiikka: taitojen hallinta Similarly to the Skill Generalization challenge discussed in Section the Skill Mastery challenge consists in training a robotic arm to stack blocks of different shapes. However, the Skill Mastery allows the agent to train on data involving the object shapes used for evaluation, i.e. the set in Skill Generalization becomes a part of the Skill Mastery set. Thus, this challenge serves to measure Gato’s performance on in-distribution tasks (possibly with initial conditions not seen in the training demonstrations). Our Skill Mastery results use an earlier version of the Gato architecture described in Appendix Ei mitään hienovaraista. 4.2, test training H, Table compares the group-wise success percentage and the average success across object groups for Gato and the established BC-IMP baseline. Gato exceeds or closely matches BC-IMP’s performance on all but one training triplet. 3 5.5 Specialist single-domain multi-task agents In this section we show results obtained with two specialist (rather than generalist) agents. Both of them were trained on data from a single domain only and rolled out 500 times for each training task without any per-task fine-tuning. Meta-World The first agent uses the smallest architecture introduced in Section eli 79M parametrit, ja on koulutettu kaikkiin 50 Meta-World tehtäviä. Vaikka Gato on pääsy tilan MuJoCo fysiikan moottori ja rajoittamaton tehtävät siemenet, agentti esitetään täällä ei ole pääsyä mitään ylimääräisiä ominaisuuksia tai tehtäviä ja käyttää kanoninen API kuten (Y) This experiment is to show that the architecture proposed in our paper can be used to obtain state-of-the-art agents also at small scale. The training procedure was to train single-task MPO experts on each of the MT-50 tasks individually, recording the trajectories produced while training. This experience is then combined, or distilled, into a single agent, which achieves 96.6% success rate averaged over all 50 tasks. To the best of our knowledge this agent is the first one to accomplish nearly 100% average success rate simultaneously (multi-task) for this benchmark. See Table Lisäaineistossa (osassa for the full list of tasks and corresponding success rates of our agent. 5.1, u et al., Vuonna 2020). (Paholainen ja muut) Vuonna 2018 7 K) ALE Atari Koska Atari-verkkotunnus on paljon haastavampi kuin Meta-World, käytimme Gato-arkkitehtuuria, jossa on 1.18B-parametrit. The resulting agent performs better than the average human for 44 games (see Section for details on our evaluation and scoring). We want to note that the performance of online experts used to generate training data for the other 7 games were also below the average human. Hence, the specialist Atari agent achieved better than human performance for all games where data contained super-human episodes. 4.1 Erikoisagentti Atari ylittää yleisagenttimme Gato:n, joka saavutti yliluonnollisen suorituskyvyn 23 pelissä. Se viittaa siihen, että Gato:n skaalaaminen voi johtaa vielä parempaan suorituskykyyn. 5.6 Attention Analysis We rendered the transformer attention weights over the image observations for various tasks, to gain a qualitative sense of how Gato attends to different regions of the image across tasks (see Figure Further details and visualizations for more tasks can be found in Appendix These visualizations clearly show that attention tracks the task-relevant objects and regions. 12). J. 5.7 Embedding Visualization To understand how Gato encodes differently information per task, we visualized per-task embeddings. We analysed 11 tasks. For each task, we randomly sample 100 episodes and tokenize each of them. Then, from each episode we take a subsequence of 128 tokens, compute their embeddings (at layer 12, which is half the total depth of the transformer layers) and average them over the sequence. The averaged embeddings for all tasks are used as input to PCA, which reduces their dimensionality to 50. Then, T-SNE is used to get the final 2D embeddings. Figure shows the final T-SNE embeddings plotted in 2D, colorized by task. Embeddings from the same tasks are clearly clustered together, and task clusters from the same domain and modality are also located close to each other. Even held-out task (cartpole.swingup) is clustered correctly and lays next to another task from DM Control Suite Pixels. 13 6 Related Work The most closely related architectures to that of Gato are Decision Transformers , and Trajectory Transformer which showed the usefulness of highly generic LM-like architectures for a variety of control problems. Gato also uses an LM-like architecture for control, but with design differences chosen to support multi-modality, multi-embodiment, large scale and general purpose deployment. Pix2Seq also uses an LM-based architecture for object detection. Perceiver IO ., uses a transformer-derived architecture specialized for very long sequences, to model any modality as a sequence of bytes. This and similar architectures could be used to expand the range of modalities supported by future generalist models. (Hän et al , 2021b; Reid et al., 2022; Zheng et al., 2022; Furuta et al. 2021) (Janner et al., 2021), (Chen et al., Vuonna 2022) (Jaegle et al 2021) Gato was inspired by works such as GPT-3 and Gopher pushing the limits of generalist language models; and more recently the Flamingo Visuaalisen kielen yleinen malli. developed the 540B parameter Pathways Language Model (PalM) explicitly as a generalist few-shot learner for hundreds of text tasks. (Brown et al., 2020) (Hän et al. 2021), (Alayrac et al., Vuonna 2022) Chowdhery et al. (2022) Tulevassa työssä olisi harkittava, miten nämä tekstin kyvyt voidaan yhdistää yhdeksi täysin yleiseksi toimijaksi, joka voi toimia myös reaaliajassa todellisessa maailmassa, erilaisissa ympäristöissä ja toteutusmuodoissa. Gato on myös saanut inspiraatiota viimeaikaisista työskentelyistä monimuotoisuuden jatkuvassa ohjauksessa. used message passing graph networks to build a single locomotor controller for many simulated 2D walker variants. showed that transformers can outperform graph based approaches for incom-patible (i.e. varying embodiment) control, despite not encoding any morphological inductive biases. learn a modular policy for multi-task and multi-robot transfer in simulated 2D manipulation environments. kouluttaa yleismaailmallista politiikkaa, joka perustuu robotin laitteiston vektorikuvaukseen, mikä osoittaa onnistuneen siirtymisen sekä simuloituihin robottiaseisiin että todelliseen sawyer-robottiaseeseen. Huang et al. Vuoden 2020 Kurin et al. (2020) Arvaa ja al (2017) Chen et al. (2018) A variety of earlier generalist models have been developed that, like Gato, operate across highly distinct domains and modalities. NPI trained a single LSTM to execute diverse programs such as sorting an array and adding two numbers, such that the network is able to generalize to larger problem instances than those seen during training. developed the MultiModel that trains jointly on 8 distinct speech, image and text processing tasks including classifica-tion, image captioning and translation. Modality-specific encoders were used to process text, images, audio and categorical data, while the rest of the network parameters are shared across tasks. proposed “ ”, joka kuvaa menetelmää yhä yleisemmän ongelmanratkaisijain lisäkoulutukselle. proposed controllable multi-task language models that can be directed according to language domain, subdomain, entities, relationships between entities, dates, and task-specific behavior. (Reed & De Freitas, 2016) (Hochreiter & Schmidhuber, 1997) Kaiser et al. (2017) Schmidhuber (2018) one big net for everything Keskar et al. (2019) Tässä keskustelussa on tärkeää erottaa yksi yksittäinen monitehtäväverkkoarkkitehtuuri yhdestä yksittäisestä hermoverkosta, jolla on samat painot kaikille tehtäville. However, it is much more common to use the same policy architecture and hyper-parameters across tasks, but the policy parameters are different in each task Tämä koskee myös lautapeleihin sovellettavia uusimpia RL-menetelmiä. Moreover, this choice has been adopted by off-line RL benchmarks and recent works on large sequence neural networks for control, including decision transformers and the Trajectory Transformer of In contrast, in this work we learn a single network with the same weights across a diverse set of tasks. (Espeholt et al., 2018; Laulu ja al. 2020; Hessel et al., 2019). (Mnih et al., 2015; Tassa et al., 2018). (Schrittwieser et al., 2020). (Gulcehre et al., 2020; Jussi ja al. vuonna 2020) (Chen et al., 2021b; Reid et al., 2022; Zheng et al., 2022) Janner et al. 2021 mukaan. Recent position papers advocate for highly generalist models, notably proposing one big net for everything, and on foundation models. However, to our knowledge there has not yet been reported a single generalist trained on hundreds of vision, language and control tasks using modern transformer networks at scale. Schmidhuber (2018) Bommasani et al. (2021) “Single-brain”-style models have interesting connections to neuroscience. famously stated that “ ”. Mountcastle found that columns of neurons in the cortex behave similarly whether associated with vision, hearing or motor control. This has motivated arguments that we may only need one algorithm or model to build intelligence Mountcastle (1978) the processing function of neocortical modules is qualitatively similar in all neocortical regions. Put shortly, there is nothing intrinsically motor about the motor cortex, nor sensory about the sensory cortex (Hawkins & Blakeslee, 2004). Sensory substitution provides another argument for a single model Esimerkiksi on mahdollista rakentaa kosketusnäyttöä avustavia apuvälineitä sokeille seuraavasti. Kameran kaappaama signaali voidaan lähettää kielen elektrodisarjan kautta aivoihin. Visuaalinen kuori oppii käsittelemään ja tulkitsemaan näitä kosketussignaaleja, antamalla henkilölle jonkinlainen "näkemys". Se viittaa siihen, että riippumatta syöttösignaalin tyypistä, sama verkko voi käsitellä sitä hyödylliseen vaikutukseen. (Bach-y Rita & Kercel, 2003). Our work is based on deep autoregressive models, which have a long history and can be found in generative models of text, images, video and audio. Combining autoregressive generation with transformers (V has been of enormous impact in language modelling protein folding vision-language models (T code generation dialogue systems with retrieval capabilities speech recognition Neural Machine käännös and more , Viime aikoina tutkijat ovat tutkineet tehtävien hajoamista ja maadoitusta kielimalleilla. aswani et al., Vuonna 2017; Devlin ja al., 2018) (Brown et al., 2020; Rae et al., 2021), (Jumper et al., 2021), Syyrialainen et al., 2021; Wang et al., 2021; Alayrac et al., 2022), (Chen et al., 2021c; Li et al., 2022b), (Nakano et al., 2021; Thoppilan et al., 2022), (Pratap et al., 2020), (Johnson et al., 2019) (Bommasani et al. 2021). (Huang et al., Vuonna 2022 Ahn et al., 2022). construct a control architecture, consisting of a sequence tokenizer, a pretrained language model and a task-specific feed-forward network. They apply it to VirtualHome and BabyAI tasks, and find that the inclusion of the pretrained language model improves generalisation to novel tasks. Similarly, osoittavat, että visio-mallit on koulutettu itseohjautuvalla oppimisella, erityisesti viljelykasvien segmentoinnilla ja momentin kontrastilla can be effectively incorporated into control policies. Li et al. (2022a) Parisi et al. (2022) (He et al., vuonna 2020), As mentioned earlier, transfer in Atari is challenging. researched transfer between ran-domly selected Atari games. They found that Atari is a difficult domain for transfer because of pronounced differences in the visuals, controls and strategy among the different games. Further difficulties that arise when applying behaviour cloning to video games like Atari are discussed by Rusu et al. Vuoden 2016 Kanervisto et al. (2020). There has been great recent interest in data-driven robotics However, note that in robotics “ ”. Moreover, every time we update the hardware in a robotics lab, we need to collect new data and retrain. We argue that this is precisely why we need a generalist agent that can adapt to new embodiments and learn new tasks with few data. (Cabi et al., 2019; Chen et al., 2021a). Bommasani et al. Päätös (2021) the key stumbling block is collecting the right data. Unlike language and vision data, robotics data is neither plentiful nor representative of a sufficiently diverse array of embodiments, tasks, and environments Generating actions using an autoregressive model can lead to causal “self-delusion” biases when there are confounding variables For example, sampling actions can condition the model to solve the wrong task when multiple tasks share similar observation and actions specifications. As explained in Section we use prompt engineering in ambiguous tasks, conditioning our model on a successful demon-stration. This screens off confounding variables, reducing self-delusions. Another solution which we did not explore in this work is to use counterfactual teaching, where we train a model online using instantaneous expert feedback. We leave this for future investigation. (Ortega et al., 2021). 2, 7 Laajempi vaikutus Vaikka generalistiset aineet ovat edelleen vain kehittyvä tutkimusalue, niiden mahdollinen vaikutus yhteiskuntaan edellyttää perusteellista monitieteistä analyysiä niiden riskeistä ja hyödyistä. However, the tools for mitigating harms of generalist agents are relatively underdeveloped, and require further research before these agents are deployed. A. Koska yleinen agenttimme voi toimia visio-kielen mallina, se perii samankaltaisia huolenaiheita, joita käsitellään In addition, generalist agents can take actions in the the physical world; posing new challenges that may require novel mitigation strategies. For example, physical embodiment could lead to users anthropomorphizing the agent, leading to misplaced trust in the case of a malfunctioning system, or be exploitable by bad actors. Additionally, while cross-domain knowledge transfer is often a goal in ML research, it could create unexpected and undesired outcomes if certain behaviors (e.g. arcade game fighting) are transferred to the wrong context. The ethics and safety considerations of knowledge transfer may require substantial new research as generalist systems advance. (Wei-dinger et al., 2021; Bommasani et al., 2021; Rae et al., Vuonna 2021 Alayrac et al., Vuonna 2022 Tekninen turvallisuus may also become more challenging when considering generalist agents that operate in many embodiments. For this reason, preference learning, uncertainty modeling and value alignment (R are especially important for the design of human-compatible generalist agents. It may be possible to extend some of the value alignment approaches for language to generalist agents. However, even as technical solutions are developed for value alignment, generalist systems could still have negative societal impacts even with the intervention of well-intentioned designers, due to unforeseen circumstances or limited oversight Tämä rajoitus korostaa tarvetta huolelliseen suunnitteluun ja käyttöönottoon, joka sisältää useita tieteenaloja ja näkökulmia. (Bostrom, Vuonna 2017 Käytännössä 2019) (Ouyang et al., 2022; Kenton et al., 2021) (Amodei et al., 2016). Ymmärtäminen siitä, miten mallit käsittelevät tietoa ja mahdollisia kehittyviä kykyjä, vaatii merkittävää ex-perimentointia. has been shown to improve both interpretability and performance, and hence should be consid-ered in future designs of generalist agents. (Borgeaud et al., 2021; Menick et al., 2022; Nakano et al., 2021; Thoppilan et al., 2022) Although still at the proof-of-concept stage, the recent progress in generalist models suggests that safety researchers, ethicists, and most importantly, the general public, should consider their risks and benefits. We are not currently deploying Gato to any users, and so anticipate no immediate societal impact. However, given their potential impact, generalist models should be developed thoughtfully and deployed in a way that promotes the health and vitality of humanity. 8 Limitations and Future work 8.1 RL data collection Gato is a data-driven approach, as it is derived from imitation learning. While natural language or image datasets are relatively easy to obtain from the web, a web-scale dataset for control tasks is not currently available. This may seem at first to be problematic, especially when scaling Gato to a higher number of parameters. That being said, there has already been extensive investigation into this issue. Offline RL aims at leveraging existing control datasets, and its increasing popularity has already resulted in the availability of more diverse and larger datasets. Richer environments and simulations are being built (e.g. Metaverse), and increasing numbers of users already interact with them among thousands of already deployed online games (e.g. there exists a large dataset of Starcraft 2 games). Real-life data has also been already stored for ML research purposes; for example, data for training self-driving cars is acquired from recording human driver data. Finally, while Gato uses data consisting of both observations and corresponding actions, the possibility of using large scale observation-only data to enhance agents has been already studied (Baker et al., Vuonna 2022 Online-videonjako- ja suoratoistopalveluiden, kuten Youtube ja Twitch, ansiosta havainnointi-ainoat tietokokonaisuudet eivät ole huomattavasti vaikeampia kerätä kuin luonnollisen kielen tietokokonaisuudet, mikä motivoi tulevaa tutkimussuuntausta laajentamaan Gatoa oppimaan web-tiedoista. Vaikka edellisessä kappaleessa keskitytään vähentämään RL-agenttien tietojen keräämisen haittoja, on tärkeää huomata, että tämä lähestymistapa esittää erilaisen kompromissin verrattuna web-tietojen kaappaamiseen ja voi itse asiassa olla käytännöllisempi joissakin tilanteissa. Kun simulaatio on asetettu ja lähellä SOTA-agenttia koulutettu, sitä voidaan käyttää tuottamaan massiivisia määriä korkealaatuisia tietoja. In short, we believe that acquiring suitable data is another research question on its own, and this is an active area of research with growing momentum and importance. 8.2 Prompt and short context Gato is prompted with an expert demonstration, which aids the agent to output actions corresponding to the given task. This is particularly useful since there is otherwise no task identifier available to the agent (that is in contrast to many multi-task RL settings). Gato infers the relevant task from the observations and actions in the prompt. However, the context length of our agent is limited to 1024 tokens which translates to the agent sometimes attending to only a few environment timesteps in total. This is especially the case for environments with image observations, where depending on the resolution each observation can result in more than one hundred tokens each. Hence for certain environments only a short chunk of a demonstration episode fits in the transformer memory. Due to this limited prompt context, preliminary experiments with different prompt structures resulted in very similar performance. Similarly, early evaluations of the model using prompt-based in-context learning on new environments did not show a significant performance improvement compared to prompt-less evaluation in the same setting. Monet äskettäin ehdotetut arkkitehtuurit mahdollistavat pidemmän kontekstin suuremmalla tehokkuudella ja nämä innovaatiot voisivat mahdollisesti parantaa agenttimme suorituskykyä. 9 Conclusions Transformer sequence models are effective as multi-task multi-embodiment policies, including for real-world text, vision and robotics tasks. They show promise as well in few-shot out-of-distribution task learning. In the future, such models could be used as a default starting point via prompting or fine-tuning to learn new behaviors, rather than training from scratch. Given scaling law trends, the performance across all tasks including dialogue will increase with scale in parameters, data and compute. Better hardware and network architectures will allow training bigger models while maintaining real-time robot control capability. By scaling up and iterating on this same basic approach, we can build a useful general-purpose agent. Acknowledgments Haluaisimme kiittää Dan Horgania, Manuel Kroissia, Mantas Pajarskasia ja Thibault Sottiauxia heidän avustaan tietojen tallennusinfrastruktuurissa; Jean-Baptiste Lespiaua ja Fan Yangia avustamisesta samanaikaisessa arvioinnissa; Joel Venessia mallisuunnittelun neuvonnasta; Koray Kavukcuoglua projektin inspiroinnista ja palautteiden helpottamisesta; Tom Erezia agenttien suunnittelusta ja tehtävien valinnasta jatkuvaa valvontaa varten; Igor Babuschkinia alkuperäisen prototyypin koodaamisen auttamisesta; Jack Raeä muuntajan kielen koodipohjan neuvonnasta; Thomas Lampeä robottiinfrastruktuurin rakentamisesta ja todellisten robotiikkakokeiden neuvonnasta; Boxi Wuxiä eettis Author Contributions developed the project concept, wrote the initial prototype, and led the project overall. led architecture development for vision and text, built infrastructure for tokenization and prompting, and contributed heavily to overall agent development and evaluation. Scott Reed Konrad Żołna led work on optimizing the transformer architecture, ran the largest number of experi-ments, and analyzed scaling law properties and in-distribution agent performance. Emilio Parisotto was the technical lead, responsible for creating a scalable data loader and evaluator supporting hundreds of tasks at once, and for the initial robot integration with Gato. Sergio Gómez Colmenarejo developed the model including the sampler for the initial prototype, carried out ex-periments focusing on robotics, and created visualizations. Alexander Novikov built scalable storage infrastructure to provide Gato with SoTA-level agent expe-rience in Atari and other domains. Gabriel Barth-Maron suoritti laajan agenttitietojen keräämisen, rakensi huomattavan datan latausinfrastruktuurin ja integroi suuren mittakaavan visuaalisen kielen datasettien Gato-koulutukseen. Mai Giménez contributed broadly to the Gato codebase including a bespoke distributed training sequence loader, and led the development of benchmarks for out-of-distribution generalization, and the training of competitive baseline agents. Yury Sulsky tukivat fyysistä robotiikkainfrastruktuuria, suorittivat lukuisia arviointeja ja kokeita Gaton yleistymisominaisuuksien analysoimiseksi ja pohtivat laajempaa eettistä vaikutusta. Jackie Kay guided Gato’s deployment to the physical robot, provided strong existing base-lines for block stacking, and advised on model development and experimental design. Jost Tobias Springenberg developed the Gato dialogue and image captioning demonstrations, allowing users to easily probe the vision and language capacities of agents in development. Tom Eccles auttoi agenttien suunnittelussa sekä ohjaustietokokonaisuuksissa ja ympäristöissä, joissa on satunnaistettuja fysiikan ja morfologian variaatioita. Jake Bruce helped in exploring vision architectures. Ali Razavi contributed to the first prototype of Gato that worked on Atari, in addition to exploring alternative network architectures and training objectives. Ashley Edwards neuvoo agenttien suunnittelussa, kokeellisessa suunnittelussa ja tehtävien valinnassa, erityisesti jatkuvan valvonnan sovelluksissa. Nicolas Heess neuvoo mallisuunnittelua ja kokeita sekä antaa palautetta säännöllisissä kokouksissa. Yutian Chen advised on the design and planning of robotics efforts. Raia Hadsell advised on all aspects of the project, especially model architecture, training strategies and benchmark design. Oriol Vinyals was the primary project manager; eliciting key goals, tracking progress, facilitating pre-sentations and feedback, and coordinating resource planning. Mahyar Bordbar oversaw the project from its inception. Nando de Freitas References Abbas Abdolmaleki, Jost Tobias Springenberg, Yuval Tassa, Remi Munos, Nicolas Heess, and Martin Ried-miller. Maximum a posteriori policy optimisation. , 2018. Preprint arXiv:1806.06920 Samira Abnar and Willem Zuidema. Quantifying attention flow in transformers. , 2020. Preprint arXiv:2005.00928 Michael Ahn, Anthony Brohan, Noah Brown, Yevgen Chebotar, Omar Cortes, Byron David, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, et al. Do as i can, not as i say: Grounding language in robotic affordances. Vuonna 2022. Preprint arXiv:2204.01691 Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andy Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, and Karen Simonyan. Flamingo: a visual language model for few-shot learning. Vuonna 2022. Preprint arXiv:2204.14198 Dario Amodei, Chris Olah, Jacob Steinhardt, Paul F. Christiano, John Schulman ja Dan Mané. , 2016. Preprint arXiv:1606.06565 Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick ja Devi Parikh. , pp. 2425–2433, 2015. Kansainvälinen tietokonekonferenssi Jimmy Lei Ba, Jamie Ryan Kiros ja Geoffrey E Hinton. Vuonna 2016 Preprint arXiv:1607.06450 Paul Bach-y Rita and Stephen W Kercel. Sensory substitution and the human-machine interface. , 7(12):541–546, 2003. Trends in cognitive sciences Bowen Baker, Ilge Akkaya, Peter Zhokhov, Joost Huizinga, Jie Tang, Adrien Ecoffet, Brandon Houghton, Raul Sampedro, and Jeff Clune. Video pretraining (vpt): Learning to act by watching unlabeled online videos. , 2022. Preprint arXiv::2206.11795 Gabriel Barth-Maron, Matthew W Hoffman, David Budden, Will Dabney, Dan Horgan, Dhruva Tb, Alistair Muldal, Nicolas Heess, and Timothy Lillicrap. Distributed distributional deterministic policy gradients. , 2018. Preprint arXiv:1804.08617 Charles Beattie, Joel Z Leibo, Denis Teplyashin, Tom Ward, Marcus Wainwright, Heinrich Küttler, Andrew Lefrancq, Simon Green, Víctor Valdés, Amir Sadik, et al. DeepMind lab. , 2016. Preprint arXiv:1612.03801 Marc G Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling. The arcade learning environment: An evaluation platform for general agents. , 47:253–279, 2013 Journal of Artificial Intelligence Research Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill ja muut. , 2021. Preprint arXiv:2108.07258 Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, et al. Improving language models by retrieving from trillions of tokens. , 2021. Preprint arXiv:2112.04426 Nick Bostrom. Dunot, vuonna 2017 Superintelligence Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman, Jie Tang ja Wojciech Zaremba. Vuonna 2016 Preprint arXiv:1606.01540 TB Brown, B Mann, N Ryder, M Subbiah, J Kaplan, P Dhariwal, A Neelakantan, P Shyam, G Sastry, A Askell, et al. Language models are few-shot learners. In , sivut 1877–1901, 2020 Advances in Neural Information Processing Systems Serkan Cabi, Sergio Gómez Colmenarejo, Alexander Novikov, Ksenia Konyushkova, Scott Reed, Rae Jeong, Konrad Zolna, Yusuf Aytar, David Budden, Mel Vecerik, et al. Scaling data-driven robotics with reward sketching and batch reinforcement learning. , 2019. Preprint arXiv:1909.12200 Annie S Chen, Suraj Nair ja Chelsea Finn. Opiskele yleistettävissä olevia robottien palkitsemistoimintoja "villi" ihmisen videoista. Vuonna 2021 a. Preprint arXiv:2103.16817 Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Misha Laskin, Pieter Abbeel, Ar-avind Srinivas ja Igor Mordatch. , 34, 2021b. Neural Information Processing -järjestelmien kehittäminen Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. Evaluating large language models trained on code. , 2021c. Preprint arXiv:2107.03374 Tao Chen, Adithyavairavan Murali, and Abhinav Gupta. Hardware conditioned policies for multi-robot transfer learning. , 31, 2018. Advances in Neural Information Processing Systems Ting Chen, Saurabh Saxena, Lala Li, David J Fleet ja Geoffrey Hinton. Pix2seq: Kielen mallinnuskehys esineiden havaitsemiseksi. , 2022. ICLR Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco captions: Data collection and evaluation server. Vuonna 2015 Preprint arXiv:1504.00325 Maxime Chevalier-Boisvert, Dzmitry Bahdanau, Salem Lahlou, Lucas Willems, Chitwan Saharia, Thien Huu Nguyen ja Yoshua Bengio. , 2018. Preprint arXiv:1810.08272 Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. PaLM: Scaling language modeling with pathways. , 2022. Alkuperäinen arXiv:2204.02311 Karl Cobbe, Chris Hesse, Jacob Hilton, and John Schulman. Leveraging procedural generation to benchmark reinforcement learning. In , s. sivut 2048–2056, 2020 Kansainvälinen konferenssi koneoppimisesta Zihang Dai, Zhilin Yang, Yiming Yang, Jaime G Carbonell, Quoc Le, and Ruslan Salakhutdinov. Transformer-xl: Attentive language models beyond a fixed-length context. In , pp. 2978–2988, 2019. Annual Meeting of the Association for Computational Linguistics Coline Devin, Abhishek Gupta, Trevor Darrell, Pieter Abbeel, and Sergey Levine. Learning modular neural network policies for multi-task and multi-robot transfer. In , pp. 2169–2176, 2017. IEEE International Conference on Robotics & Automation Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirec-tional transformers for language understanding. , 2018. Preprint arXiv:1810.04805 Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Un-terthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. , 2020. Preprint arXiv:2010.11929 Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Vlad Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning ja muut. Impala: skaalautuva jaettu syvä-RL painotettu näyttelijä-opiskelija arkkitehtuurit. , pp. 1407–1416, 2018. Kansainvälinen konferenssi koneoppimisesta Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker ja Sergey Levine. D4RL: Tietokokonaisuudet syvän datan johtamaan vahvistusoppimiseen. , 2020. Preprint arXiv:2004.07219 Hiroki Furuta, Yutaka Matsuo, and Shixiang Shane Gu. Generalized decision transformer for offline hindsight information matching. Vuonna 2021. Preprint arXiv:2111.10364 Caglar Gulcehre, Ziyu Wang, Alexander Novikov, Thomas Paine, Sergio Gómez, Konrad Zolna, Rishabh Agarwal, Josh S Merel, Daniel J Mankowitz, Cosmin Paduraru, et al. RL unplugged: A suite of benchmarks for offline reinforcement learning. , 33:7248–7259, 2020. Neural Information Processing -järjestelmien kehittäminen Jeff Hawkins and Sandra Blakeslee. . Macmillan, 2004. On intelligence Kaiming He, Xiangyu Zhang, Shaoqing Ren ja Jian Sun. Syvä jäljellä oleva oppiminen kuvan tunnistamiseen. , pp. 770–778, 2016a. IEEE Computer Vision and Pattern Recognition Kaiming He, Xiangyu Zhang, Shaoqing Ren ja Jian Sun. Identiteettikartat syvissä jäljellä olevissa verkostoissa. , pp. 630–645, 2016b. European Conference on Computer Vision Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. In , pp. 9729–9738, 2020. IEEE Computer Vision ja kuvioiden tunnistaminen Dan Hendrycks and Kevin Gimpel. Gaussian error linear units (GELUs). , 2016. Matteo Hessel, Hubert Soyer, Lasse Espeholt, Wojciech Czarnecki, Simon Schmitt, and Hado van Hasselt. Preprint arXiv:1606.08415 Multi-task deep reinforcement learning with popart. In vuonna 2019. AAAI Matteo Hessel, Ivo Danihelka, Fabio Viola, Arthur Guez, Simon Schmitt, Laurent Sifre, Theophane Weber, David Silver, and Hado van Hasselt. Muesli: Combining improvements in policy optimization. , 2021. Preprint arXiv:2104.06159 Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. , 9(8): 1735–1780, 1997 Neurologinen laskenta Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. Training compute-optimal large language models. , 2022. Preprint arXiv:2203.15556 Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, and Kilian Weinberger. Deep networks with stochastic depth. Vuonna 2016 Preprint arXiv:1603.09382 Wenlong Huang, Igor Mordatch ja Deepak Pathak. Yksi politiikka hallita niitä kaikkia: Yhteiset modulaariset politiikat agnostic-valvontaan. , pp. 4455–4464, 2020. International Conference on Machine Learning Wenlong Huang, Pieter Abbeel, Deepak Pathak, and Igor Mordatch. Language models as zero-shot planners: Extracting actionable knowledge for embodied agents. , 2022. Preprint arXiv:2201.07207 David Yu-Tung Hui, Maxime Chevalier-Boisvert, Dzmitry Bahdanau ja Yoshua Bengio. Vuonna 2020 Preprint arXiv:2007.12770 Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, et al. Perceiver IO: A general architecture for structured inputs & outputs. , 2021. Preprint arXiv:2107.14795 Michael Janner, Qiyang Li, and Sergey Levine. Offline reinforcement learning as one big sequence modeling problem. , 34, 2021. Neural Information Processing -järjestelmien kehittäminen Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc Le, Yun-Hsuan Sung, Zhen Li ja Tom Duerig. Visuaalisen ja visuaalisen kielen edustuksen oppiminen meluisalla tekstin valvonnalla. , sivut 4904–4916, 2021. International Conference on Machine Learning Melvin Johnson, Orhan Firat, and Roee Aharoni. Massively multilingual neural machine translation. In , sivut 3874–3884, 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, et al. Highly accurate protein structure prediction with AlphaFold. , 596(7873):583–589, 2021. Nature Lukasz Kaiser, Aidan N Gomez, Noam Shazeer, Ashish Vaswani, Niki Parmar, Llion Jones, and Jakob Uszkoreit. One model to learn them all. , 2017. Preprint arXiv:1706.05137 Anssi Kanervisto, Joonas Pussinen, and Ville Hautamäki. Benchmarking end-to-end behavioural cloning on video games. In , pp. 558–565, 2020. IEEE conference on games (CoG) Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu ja Dario Amodei. , 2020. Preprint arXiv:2001.08361 Steven Kapturowski, Georg Ostrovski, John Quan, Remi Munos ja Will Dabney. Toistuva kokemus toistetaan hajautetussa vahvistusoppimisessa. , 2018. International Conference on Learning Representations Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik, and Geoffrey Irving. Alignment of language agents. , 2021. Preprint arXiv:2103.14659 Nitish Shirish Keskar, Bryan McCann, Lav R Varshney, Caiming Xiong, and Richard Socher. CTRL: A conditional transformer language model for controllable generation. , 2019. Alkuperäinen arXiv:1909.05858 Diederik P. Kingma and Jimmy Ba. Adam: A method for stochastic optimization. , 2014. Preprint arXiv:1412.6980 Taku Kudo and John Richardson. SentencePiece: A simple and language independent subword tokenizer and detokenizer for neural text processing. In , Annual Meeting of the Association for Computational Linguistics pp. 66–71, 2018. Vitaly Kurin, Maximilian Igl, Tim Rocktäschel, Wendelin Boehmer, and Shimon Whiteson. My body is a cage: the role of morphology in graph-based incompatible control. , 2020. Preprint arXiv:2010.01856 Alex X Lee, Coline Manon Devin, Yuxiang Zhou, Thomas Lampe, Konstantinos Bousmalis, Jost Tobias Springenberg, Arunkumar Byravan, Abbas Abdolmaleki, Nimrod Gileadi, David Khosid, et al. Beyond pick-and-place: Tackling robotic stacking of diverse shapes. In Vuonna 2021. Conference on Robot Learning Alex X Lee, Coline Manon Devin, Jost Tobias Springenberg, Yuxiang Zhou, Thomas Lampe, Abbas Abdol-maleki, and Konstantinos Bousmalis. How to spend your robot time: Bridging kickstarting and offline reinforcement learning for vision-based robotic manipulation. Vuonna 2022. Preprint arXiv:2205.03353 Shuang Li, Xavier Puig, Chris Paxton, Yilun Du, Clinton Wang, Linxi Fan, Tao Chen, De-An Huang, Ekin Akyürek, Anima Anandkumar, Jacob Andreas, Igor Mordatch, Antonio Torralba ja Yuke Zhu. Pre-koulutettu kielimalleja vuorovaikutteiseen päätöksentekoon. Vuonna 2022 a. Preprint arXiv:2202.01771 Yujia Li, David Choi, Junyoung Chung, Nate Kushman, Julian Schrittwieser, Rémi Leblond, Tom Eccles, James Keeling, Felix Gimeno, Agustin Dal Lago, et al. Competition-level code generation with AlphaCode. , 2022b. Alkuperäinen arXiv:2203.07814 Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. , 2017. Preprint arXiv:1711.05101 Kenneth Marino, Mohammad Rastegari, Ali Farhadi, and Roozbeh Mottaghi. Ok-VQA: A visual question answering benchmark requiring external knowledge. In ,pp. 3195–3204, 2019. IEEE Computer Vision and Pattern Recognition Jacob Menick, Maja Trebacz, Vladimir Mikulik, John Aslanides, Francis Song, Martin Chadwick, Mia Glaese, Susannah Young, Lucy Campbell-Gillingham, Geoffrey Irving ym. Opettaa kielimalleja vastausten tukemiseksi todennetuilla lainauksilla. , 2022. Alkuperäinen arXiv:2203.11147 Margaret Mitchell, Simone Wu, Andrew Zaldivar, Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji, and Timnit Gebru. Model cards for model reporting. In , pp. 220–229, 2019. Proceedings of the conference on fairness, accountability, and transparency Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu, Joel Veness, Marc G Bellemare, Alex Graves, Martin Riedmiller, Andreas K Fidjeland, Georg Ostrovski ja muut. , 518(7540):529–533, 2015. Nature Vernon Mountcastle. An organizing principle for cerebral function: the unit module and the distributed system. , 1978. The mindful brain Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, et al. WebGPT: selaimella avustettu kysymykseen vastaaminen ihmisen palautteella. , 2021. Alkuperäinen arXiv:2112.09332 Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu. WaveNet: A generative model for raw audio. Vuonna 2016 Preprint arXiv:1609.03499 Pedro A Ortega, Markus Kunesch, Grégoire Delétang, Tim Genewein, Jordi Grau-Moya, Joel Veness, Jonas Buchli, Jonas Degrave, Bilal Piot, Julien Perolat, et al. Shaking the foundations: delusions in sequence models for interaction and control. Vuonna 2021. Preprint arXiv:2110.10819 Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. , 2022. Preprint arXiv:2203.02155 Simone Parisi, Aravind Rajeswaran, Senthil Purushwalkam, and Abhinav Gupta. The unsurprising effec-tiveness of pre-trained vision models for control. Vuonna 2022. Preprint arXiv:2203.03580 Vineel Pratap, Anuroop Sriram, Paden Tomasello, Awni Hannun, Vitaliy Liptchinsky, Gabriel Synnaeve, and Ronan Collobert. Massively multilingual ASR: 50 languages, 1 model, 1 billion parameters. Vuonna 2020 Preprint arXiv:2007.03001 Sébastien Racanière, Théophane Weber, David Reichert, Lars Buesing, Arthur Guez, Danilo Jimenez Rezende, Adrià Puigdomènech Badia, Oriol Vinyals, Nicolas Heess, Yujia Li, et al. Mielikuvituksen lisäävät agentit syvän vahvistamisen oppimiseen. , 30, 2017. Advances in Neural Information Processing Systems Jack W Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, et al. Scaling language models: Methods, analysis & insights from training gopher. , 2021. Preprint arXiv:2112.11446 Scott Reed and Nando De Freitas. Neural programmer-interpreters. In , 2016. Kansainvälinen konferenssi oppimisen edustuksista Machel Reid, Yutaro Yamada, and Shixiang Shane Gu. Can Wikipedia help offline reinforcement learning? Vuonna 2022. Preprint arXiv:2201.12122 Kirjoittanut Stuart Russell. . Penguin, 2019. Andrei A Rusu, Neil C Rabinowitz, Guillaume Desjardins, Hubert Soyer, James Kirkpatrick, Koray Ihmisen yhteensopiva: keinotekoinen älykkyys ja hallinnan ongelma Kavukcuoglu, Razvan Pascanu, and Raia Hadsell. Progressive neural networks. , 2016. Preprint arXiv:1606.04671 Victor Sanh, Albert Webson, Colin Raffel, Stephen Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Arun Raja, Manan Dey, M Saiful Bari, Canwen Xu, Urmish Thakker, Shanya Sharma Sharma, Eliza Szczechla, Taewoon Kim, Gunjan Chhablani, Nihal Nayak, Debajyoti Datta, Jonathan Chang, Mike Tian-Jian Jiang, Han Wang, Matteo Manica, Sheng Shen, Zheng Xin Yong, Harshit Pandey, Rachel Bawden, Thomas Wang, Trishala Neeraj, Jos Rozen, Abheesht Sharma, Andrea Santilli, Thibault Fevry, Jason Alan Fries, Ryan Teehan, Teven Le Scao, Stella Biderman, Leo Gao, Thomas Wolf, and Alexander M Rush. Multitask prompted training enables zero-shot task generalization. In , 2022. International Conference on Learning Representations Jürgen Schmidhuber. One big net for everything. , 2018. Preprint arXiv:1802.08864 Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, et al. Mastering atari, go, chess and shogi by planning with a learned model. , 588(7839):604–609, 2020. Nature Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut. Conceptual captions: A cleaned, hyper-nymed, image alt-text dataset for automatic image captioning. In , sivut 2556–2565, 2018 Annual Meeting of the Association for Computational Linguistics Noam Shazeer. Glu variants improve transformer. , 2020. Ennakkotiedosto arXiv::2002.05202 H Francis Song, Abbas Abdolmaleki, Jost Tobias Springenberg, Aidan Clark, Hubert Soyer, Jack W Rae, Seb Noury, Arun Ahuja, Siqi Liu, Dhruva Tirumala, et al. V-mpo: On-policy maximum a posteriori policy optimization for discrete and continuous control. In , 2020. ICLR Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: A simple way to prevent neural networks from overfitting. , 15(56): vuosina 1929–1958, 2014 Journal of Machine Learning -tutkimus Richard Sutton. The bitter lesson. , 13:12, 2019. Incomplete Ideas (blog) Yuval Tassa, Yotam Doron, Alistair Muldal, Tom Erez, Yazhe Li, Diego de Las Casas, David Budden, Abbas Abdolmaleki, Josh Merel, Andrew Lefrancq, et al. DeepMind control suite. Vuoden 2018 Preprint arXiv:1801.00690 Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, et al. LaMDA: Language models for dialog applications. , 2022. Alkuperäinen arXiv:2201.08239 Emanuel Todorov, Tom Erez, and Yuval Tassa. Mujoco: A physics engine for model-based control. In , pp. 5026–5033, 2012. International Conference on Intelligent Robots and Systems Maria Tsimpoukelli, Jacob L Menick, Serkan Cabi, SM Eslami, Oriol Vinyals, and Felix Hill. Multimodal few-shot learning with frozen language models. , pp. 200–212, 2021. Advances in Neural Information Processing Systems Saran Tunyasuvunakool, Alistair Muldal, Yotam Doron, Siqi Liu, Steven Bohez, Josh Merel, Tom Erez, Timothy Lillicrap, Nicolas Heess ja Yuval Tassa. dm_control: Ohjelmisto ja tehtävät jatkuvaan hallintaan. , 6:100022, 2020. Software Impacts Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. , 30, 2017. Neural Information Processing -järjestelmien kehittäminen Zirui Wang, Jiahui Yu, Adams Wei Yu, Zihang Dai, Yulia Tsvetkov, and Yuan Cao. Simvlm: Simple visual language model pretraining with weak supervision. , 2021. Preprint arXiv:2108.10904 Ziyu Wang, Alexander Novikov, Konrad Zolna, Josh S Merel, Jost Tobias Springenberg, Scott E Reed, Bobak Shahriari, Noah Siegel, Caglar Gulcehre, Nicolas Heess, et al. Critic regularized regression. , 33:7768–7778, vuonna 2020 Advances in Neural Information Processing Systems Jason Wei, Maarten Bosma, Vincent Y Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M Dai, and Quoc V Le. Finetuned language models are zero-shot learners. , 2021. Preprint arXiv:2109.01652 Laura Weidinger, John Mellor, Maribeth Rauh, Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng, Mia Glaese, Borja Balle, Atoosa Kasirzadeh, et al. Ethical and social risks of harm from language models. , 2021. Preprint arXiv:2112.04359 Yuxin Wu and Kaiming He. Group normalization. In , pp. 3–19, 2018. European Conference on Computer Vision Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julian, Karol Hausman, Chelsea Finn, and Sergey Levine. Meta-World: A benchmark and evaluation for multi-task and meta reinforcement learning. In , pp. 1094–1100, 2020. Robottien oppiminen -konferenssi Qinqing Zheng, Amy Zhang, and Aditya Grover. Online decision transformer. , 2022. Preprint arXiv:2202.05607 Konrad Zolna, Alexander Novikov, Ksenia Konyushkova, Caglar Gulcehre, Ziyu Wang, Yusuf Aytar, Misha Denil, Nando de Freitas, and Scott Reed. Offline learning from demonstrations and unlabeled experience. Vuonna 2020 Preprint arXiv:2011.13885 Konrad Zolna, Scott Reed, Alexander Novikov, Sergio Gómez Colmenarejo, David Budden, Serkan Cabi, Misha Denil, Nando de Freitas, and Ziyu Wang. Task-relevant adversarial imitation learning. In , s. 247–263, vuonna 2021. Conference on Robot Learning Supplementary Material A Model card Esittelemme mallikortin kissalle pöydässä 4. Table 4: We follow the framework proposed in Gato Model Card. (Mitchell et al., 2019). B Agent Data Tokenization Details In this section we provide additional details on our tokenization schemes. Our agent data is sequenced as follows: • are presented to the agent in order of time (timesteps). Episodes • in turn are presented in the following order: Timesteps (Yhdessä 1: 1 :n 1: ]) ovat sanakirjallisessa järjestyksessä avaimen mukaan, jokainen kohta on järjestetty seuraavasti: – Observations y k, x m, z n ∗ Text tokens ( 1: ) are in the same order as the raw input text. y k ∗ Image patch tokens ( 1 :n ) are in raster order. x m ∗ Tensors ( 1: ) (kuten erilliset ja jatkuvat havainnot) ovat rivi-pääjärjestyksessä. z n – (' '); a designated separator token is provided after observations. Separator | – ( 1: ) are tokenized as discrete or continuous values and in row-major order. Actions a A Täydellinen sekvenssi tokeneista annetaan siten T-aikavaiheista peräisin olevien tietojen yhdistäminen: where L = T(k + m + n + 1 + A) is the total number of tokens. Each floating point element of tensors in the observation sequence is mu-law companded as in WaveNet (säädös et al., 2016): parametreilla μ = 100 ja M = 256. (Jos kelluva-pisteen tensori on toimintasarjassa, meidän ei tarvitse vertailla elementtejä sekvenssissä, koska toimet on määritelty vain alueella \[1, 1\] kaikille ympäristöillemme.) Kaikki elementit leikataan myöhemmin niin, että ne kuuluvat joukkoon \[1, 1\]. Lopuksi ne diskretisoidaan käyttämällä yhtenäisen leveyden palkkioita alueella \[1, 1\]. Käytämme 1024 palkkiota ja siirrytään tuloksena olevia kokonaislukuja niin, että ne eivät päällekkäistä niitä, joita käytetään tekstitokeneissä. See Figure and Figure for visualizations of tokenizing and sequencing values (both discrete and con-tinuous) and images. See Section yksityiskohtaiset tiedot luvuissa mainituista paikallisista sijaintikoodeista. 14 15 C C Model Architecture C.1 Transformer Hyperparameters The transformer hyperparameters of Gato are presented in Table We also list the hyperparameters of smaller architecture variants used in Section 5. 5. C.2 Embedding Function ResNet-lohko käyttää v2-arkkitehtuuria Sisältää GroupNorm with 32 groups instead of LayerNorm ja geeliä aktivointitoiminnot RELU:n sijaan. lohko on kaavioitu kuvassa (He et al., 2016b), (Wu & He, 2018) (Ba et al., 2016), (Hendrycks & Gimpel, 2016) 16. C.3 Paikannuskoodit Kun tokenit on kartoitettu tokenipohjaisiin upotuksiin, tokenipohjaisiin upotuksiin lisätään kaksi sijaintitunnistusta (jos sovellettavissa), jotta mallille voidaan antaa ajallisia ja avaruudellisia tietoja. Patch Position Encodings Nämä paikannuskoodit välittävät tietoa laastarin maailmanlaajuisesta sijainnista kuvan sisällä, josta laastari on otettu. Ensinnäkin laastarin suhteelliset rivin ja sarakkeen välimatkat lasketaan normalisoimalla laastarin pikselin välimatkat kuvan resoluutiolla. Rivi- ja sarakkeen normalisoidut välimatkat määritetään sitten sanaston kokoon (käytämme 128) ja niitä käytetään indeksoimaan rivin ja sarakkeen taulukko opittavissa olevista sijaintien koodauksista. Menetelmä, jolla kvantisoidut rivin ja sarakkeen välimatkat muunnetaan indekseiksi, riippuu siitä, koulutammeko vai arvioimmeko mallia: koulutuksen aikana satunnainen indeksi näytetään yhtenäisesti kvantisoidusta välimatkasta, kun taas arvioinnin To more concretely demonstrate this process, we provide an example in Figure [17.](#_bookmark144) We will follow the process with the patch highlighted in red on the left of the subfigure. The image is of resolution 80 64 and each patch is 16 16, meaning there are 5 4 = 20 patches total. The highlighted patch starts at pixel row interval \[16*,* 32\] and pixel column interval \[32*,* 64\]. Normalized, the row interval is therefore \[0*.*25*,* 0*.*5\] and the column interval is \[0*.*4*,* 0*.*6\]. We then separately quantize the intervals into 128 uniformly spaced bins, with the resulting quantized row interval being \[32*,* 64\] and the quantized column interval being \[51*,* 77\]. During training, we uniformly sample integers between the quantized row intervals, whereas during testing we would use the means, which are index 48 for row position and index 64 for column position. The row and column positions are finally used to index separate row and column position encoding tables to produce learnable embeddings which are added onto the corresponding patch token embedding. Paikalliset tarkkailupaikan koodit The local observation position encoding adds positional information about where observation tokens are positioned within the local time-step they were an element of. First, we reiterate that, during tokenization, for each time-step all elements of the observation set are tokenized into sequences and concatenated into an observation sequence. Each token in this observation sequence is given an index which corresponds to the sequence order, i.e. the first token is 0 and the last is the length of the observation sequence minus one. After embedding, for any tokens that were a part of an observation set, the corresponding observation token index is used to index an embedding table of learnable position encodings, with one embedding for every possible observation token index (in practice we simply set the table size to a large value like 512). / The position encoding is then added onto the observation token embedding to produce the final token embedding. Note that all action tokens are given the same position encoding regardless of their position in the time-step sequence. We illustrate an example of this process in Figure 18. D Ennakkoharjoittelu For all models we use the AdamW optimizer with a linear warm-up and cosine schedule decay. The linear warmup lasts for 15*,* 000 steps, starting from a learning rate of 1e-7 and ending at a different maximum learning rate depending on the model (see Table Tämä oppimisnopeus hajoaa sitten 10 kertaa yli 1 000 000 askeleen verran. 1 = 0 2 = 0.*95 and = 1e-8. We use a batch size of 512 and a sequence length of 1024 tokens for all models. Optimizer: Loshchilov ja Hutter, 2017) 6). β 9, β ϵ Harjoittelemme AdamW-painon hajoamisparametrilla 0,1. Lisäksi käytämme stokastista syvyyttä esikoulutuksen aikana, jossa jokainen muuntajan alikerroksista (eli jokainen Multi-Head Attention ja Dense Feedforward -kerros) ohitetaan todennäköisyydellä 0,1. Regularization: (Huang et al., 2016) E Fine-tuning Setup For all models we use the Adam optimizer with a constant learning rate of 1e-5. The Adam optimizer has parameters 1 = 0*. 2 = 0.*95 and = 1e-8. We use a batch size of 64 and a sequence length of 1024 tokens for all models. We train for 10,000 gradient steps. Optimizer: (Kingma ja Ba 2014) β 9, β ϵ Käytämme dropshipping Taso on 0,1 pistettä. Regularization: (Srivastava et al., 2014) Arvioimme agenttia jokaista 100 oppimisvaihetta kohden. Jokainen arviointi raportoi tietyn tarkastuspisteen keskimäärin 10 juoksusta. Lasketaan 5 tällaisen pistemäärän liikkuva keskiarvo (kokoamaan 50 juoksua). Lopullinen hienosäätö suorituskyky määritellään näiden sujuvien pistemäärien enimmäismääräksi. Evaluation: We generated data for the fine-tuning tasks the same way we did for the other tasks (see Section 3.1 for details). Instead of using all the data for a fine-tuning task, we discarded all but 2000 best episodes (leading to the highest returns). The fine-tuning datasets were created in the following way. We randomly took 1000 episodes (out of 2000 preselected episodes), then a subset of 100 episodes from the selected episodes, then 10, 5, 3, and finally a single episode. We repeated this procedure 3 times to obtain 3 series of cascading subsets for each task. Each subset is used to conduct one fine-tuning experiment, and each is reported on our plots in Section kuin erillinen kohde. Datasets: 5.2 Emme ole muuttaneet mitään tehtäviä ja käyttäneet niiden kanonisia versioita. Koska 3 neljästä tehtävästä on avoimen lähdekoodin, ne eivät tarvitse lisäselitystä. Neljännen tehtävän, DMLab order_of_apples_forage_simple, tavoitteena on kerätä omenoita oikeassa järjestyksessä, vihreät ensin kultainen. Task settings: F Tietojen keräämisen yksityiskohdat F1 AtariMuokkaa Keräämme kaksi erillistä Atari-ympäristöä. Ensimmäinen (jota kutsumme ALE Atari) koostuu 51 kanonisesta pelistä arcade-oppimisympäristöstä Toinen (jota kutsutaan nimellä ALE Atari Extended) on joukko vaihtoehtoisia pelejä with their game mode and difficulty randomly set at the beginning of each episode. (Häppäri et al. Vuonna 2013). 3 For each environment in these sets we collect data by training a Muesli agent for 200M total environment steps. We record approximately 20,000 random episodes generated by the agent during training. (Hessel et al., vuonna 2021) F2 Sokoban Sokoban on suunnittelun ongelma in which the agent has to push boxes to target locations. Some of the moves are irreversible and consequently mistakes can render the puzzle unsolvable. Planning ahead of time is therefore necessary to succeed at this puzzle. We use a Muesli agent to collect training data. (Häppäri ja muut) 2017), (Häppäri et al. 2021) F3 Vauva BabyAI on gridworld-ympäristö, jonka tasot koostuvat ohjeiden mukaisista tehtävistä, jotka on kuvattu synteettisellä kielellä. Luomme tietoja näille tasoille sisäänrakennetulla BabyAI-botilla. Keräämme 100 000 jaksoa jokaiselle tasolle. (Häppäri ja muut) Vuonna 2018 F.4 DeepMind Control Suite Näytä tarkat tiedot DeepMind Control Suite (T) -järjestelmä ... , on joukko fysiikkaan perustuvia simulointiympäristöjä. Kullakin tehtävällä ohjauspaketissa keräämme kaksi erillistä tietokokonaisuutta, joista toinen käyttää vain tilan ominaisuuksia ja toinen vain pikseleitä. agentti kerätä tietoja tehtävistä, joilla on tilan ominaisuuksia, ja MPO tietojen keräämiseen pixelien avulla. Jääkiekko et al vuonna 2020; Tassa et al. Vuonna 2018 (Barth-Maron ja muut Vuonna 2018 (Paholainen ja muut) Vuonna 2018 Keräämme myös tietoja satunnaistetuista versioista ohjauspaketin tehtävistä D4PG-agentilla. Nämä versiot satunnaistavat aktivointilaitteen, yhteisen alueen, jäykkyyden ja vaimennuksen sekä geomin koon ja tiheyden. satunnaistetuille versioille on kaksi vaikeusasetusta. ” 0 ” [ 1 ] ”Yksi yksi” . ,* 0*. [ 1 ] , * 1 * * 4 . 9 95 05 1]. Suuri asetus skaalaa arvoja satunnaislukuna, joka on otettu intervallien unionista [0 6 8] ∪ 2 F5 DeepMind Lab -ohjelma DeepMind laboratorio ja is a first-person 3D environment designed to teach agents 3D vision from raw pixel inputs with an egocentric viewpoint, navigation, and planning. (Häppäri ja al. Vuonna 2016 We trained an IMPALA agentti yhdessä joukossa 18 vanhempi DM Lab tasot, jotka tuottavat karttoja menettelyllisesti kunkin uuden jakson. Tiedot kerättiin suorittamalla agentti näillä 18 tasoilla, sekä ylimääräinen joukko 237 tasoa käsin testata monipuolinen joukko taitoja. (Häppäri et al., Vuonna 2018 The 18 parent levels are characterized by high diversity of generated maps. The difference between the levels is rooted in hyper-parameters used in a generation process. These hyper-parameters control high-level characteristics such as types of structures spawned, difficulty of language instructions, or presence of specific tools. The parent levels were developed to improve performance of RL agents trained online on them. Toisin kuin vanhempien tasojen, jokainen ylimääräisistä käsintehtyjä 237 tasoa käyttää lähes samaa karttaa, ja tärkeimmät erot saman tason kartan tapausten välillä ovat esteettisiä, kuten seinien värit tai valaistusolosuhteet. procedurally generated and were designed to test a diverse set of skills such as walking up stairs or using specific tools. They are similar to levels presented in Figure 3, Figure 7 and Figure 8 in aforementioned paper by Ei Beattie et al. Vuonna 2016 Lisätietoja 18 vanhempien tasoista (ja niiden suhteesta muihin tasoihin) esitetään yksityiskohtaisesti NeurIPS-työpajassa. Kirjoittanut Daniel Tanis . RL Ympäristötutkimuksen menetelmä 4 Yhteensä keräsimme tietoja 255 tasosta DeepMind Labista (18 vanhempien tasoa ja 237 käsintehtyä tasoa), joista 254 käytettiin Gato-koulutuksen aikana. F.6 Procgen Benchmark Procgen on 16 menettelyllisesti luodun Atari-tyyppisen ympäristön sarja, joka ehdotettiin vertailemaan näytteiden tehokkuutta ja yleistymistä vahvistusoppimisessa. agent on each of the environments. We used the hard difficulty setting for all environments except for maze and heist, which we set to easy. (Häppäri ja muut) 2020) (Kapturowski et al., 2018) F.7 Modular RL Modulaarinen RL is a collection of MuJoCo (T Perustuu jatkuvaan ohjausympäristöön, joka koostuu kolmesta OpenAI Gym -muunnelmasta Walker2d-v2, Humanoid-v2 ja Hopper-v2. Jokainen variantti on alkuperäisen ruumiin morfologinen muutos: morfologioiden joukko syntyy luettelemalla kaikki mahdolliset raajojen alaryhmät ja säilyttämällä vain ne sarjat, jotka a) sisältävät rungon ja b) muodostavat edelleen yhdistetyn kaavion. Tämä johtaa erilaisten syöttö- ja ulostukokoisten varianttien joukkoon sekä erilaiseen dynamiikkaan kuin alkuperäiset morfologiat. Keräsimme tietoja kouluttamalla yhtä morfologian erityistä D4PG-agenttia kussakin variantissa yhteensä 140M: n näyttelijävaiheille, tämä tehtiin 30 satunnaiselle siemenelle variantille. (Hän et al. 2020) Oksanen et al. Vuonna 2012) (Häppäri et al., Vuonna 2016 F.8 DeepMind Manipulatiivinen leikkipaikka The DeepMind Manipulation Playground Keräämme tietoja neljälle Jaco-tehtävälle (box, stack banana, insertion, and slide) käyttämällä Critic-Regularized Regression (CRR) -agenttia trained from images on human demonstrations. The collected data includes the MuJoCo physics state, which is we use for training and evaluating Gato. (Hämeinen ja al. vuonna 2021) (Wang et al., vuonna 2020) F.9 Meta-maailma Meta-World (Y Se on joukko ympäristöjä vertailuun meta-vahvistusoppimiseen ja monitehtävien oppimiseen. Keräämme tietoja kaikista koulutus- ja testaustehtävistä MT50-tilassa kouluttamalla MPO-agenttia Rajoittamattomat ympäristösiemenet ja pääsy MuJoCo-fysiikan moottorin tilaan. Kerätyt tiedot sisältävät myös MuJoCo-fysiikan moottorin tilan. Sinä ja Al. vuonna 2020) 5 (Paholainen ja muut) Vuonna 2018 G Real robotiikan arviointi yksityiskohdat Todellisessa maailmassa ohjaus on epäsynkroninen; fysiikka ei odota laskelmien loppuun saattamista. Näin ollen johtopäätöksen latenssi on huolenaihe suurten mallien arvioinnissa reaalimaailman tehtäviä varten. Robotiikassa nopean ohjausnopeuden uskotaan olevan kriittinen reagoimalla dynaamisille ilmiöille. RGB-pinoamisen robottiasetuksella on 20 Hz: n ohjausnopeus (0,05 sekunnin aikaväli) suunnittelun mukaan. Jotta saavutettaisiin hyväksyttävä latenssin marginaali, muutimme johtopäätöstä arviointiajassa lyhentämällä kontekstipituutta 1: een. Olemme myös toteuttaneet rinnakkaisen näytteenotto-järjestelmän, jossa kaikki toimenpide-token Käytämme harvinaisen palkitsemisen toimintoa, joka on kuvattu tietojen suodattamiseen. Valitse vain polkuja, joissa on tehtävän onnistuminen; eli vähäinen palkinto 1 lopullisessa aikavälissä. Li ja al. (2021) final H Skill Mastery arkkitehtuuri Skill Mastery -vertailuarvon raportoidut luvut kerättiin suorittamalla mallin nollahälytys, jossa käytettiin Gato-arkkitehtuurin aiempaa versiota. ResNet-laastin upottamisen sijasta samankaltaista arkkitehtuuria, jossa käytettiin paikallista muuntajaa, käytettiin kuvan laastin tunnisteiden upottamiseen. Paikallisia aseman upottuksia ja laastin aseman upottuksia ei käytetty. Nämä muutokset toteutettiin ja havaittiin parantavan Gato-suorituskykyä esikoulutustietojen muuttamisen jälkeen (kuten päätimme keskittyä taitojen yleistämiseen taitojen hallinnan haasteen sijaan), minkä vuoksi ne esitetään täydellisen mallimme lopullisena arkkitehtuurina. Lisärobottien ablaatiot Teimme sarjan ablaatioita simulaatiossa ymmärtääksemme paremmin erilaisten esikoulutustietojen vaikutusta robotiikan alalla (katso kuva). We included the same baselines as in Section Valitsemalla 364M-parametrin koon variantti sekä lisäperuslinja, joka on koulutettu vain ohjauspakettien tietojen kanssa. DM Control-yksin agentti on parempi kuin perusagentti Gato nollatallennuksessa ja runsaasti hienosäätötietoja, mikä viittaa siihen, että Gato ei välttämättä käytä tekstipohjaisista tietokokonaisuuksista opittuja esityksiä sopeutuessaan robottitehtäviin. 19 §) 5.2, J Tarkkaavaisuuden visualisointi Jotta muuntaja kiinnittäisi huomiota painoihin, keräämme ristiin huomiota logit, jännite, jolla on ulottuvuus ( Missä on päämäärä ja on merkki siitä, kuinka monta merkkiä sekvenssissä on. ( Tämän matriisin merkintää voidaan tulkita määräksi, joka attends to token Tokenistä Gaton kuvan tokenisointijärjestelmän ansiosta aikaväliä kohden on useita tokeneja.Joten kiinnittääksemme huomiota tiettyyn aikaväliin otimme tämän aikaväliä vastaavan alimatriisin.Sitten käytimme softmaxia tämän matriisin rivien yli normalisoidaksemme asiaankuuluvat arvot.Koska olemme kiinnostuneita kiinnittämään huomiota vain aiempiin tokeneihin, suljemme diagonaalin pois asettamalla sen negatiiviseen infiniittiin ennen softmaxia. H, T ja T H T H, I ja J h j i Kunkin laastin merkityksen mittaamiseksi keskimäärin kiinnitämme huomiota vastaavaan sarakkeeseen.Koska Kato käyttää syy-muuntajaa, huomion matriisi on alempi kolmio, joten keskiarvoa pidettiin vain matriisin diagonaalin alapuolella olevassa ala-sarakkeessa. Käyttämällä tätä menetelmää havaitsimme, että ensimmäisessä kerroksessa olevat huomiota kuvaavat kartat ovat eniten tulkittavissa, mikä sopii Tietyt otsikot seuraavat selkeästi kuvan tehtäväkohtaisia yksiköitä ja alueita. Näyttää manuaalisesti valittujen päiden huomiota koskevat kartat ensimmäisessä kerroksessa useita tehtäviä varten. Lähde: Abnar & Zuidema Jäsenet (2020) 20 K Detailed results for specialist Meta-World agent The specialist Meta-World agent described in Section saavuttaa 96,6 prosentin keskimääräisen menestysasteen kaikissa 50 Meta-World -tehtävässä. We evaluated agent 500 times for each task. 5.5 7. L Per-domainin tulokset kohteessa Kato We describe performance of Gato for simulated control tasks in Section Pöydässä esittelemme normalisoidut per-verkkotunnuksen tulokset. Arvioimme agenttia 50 kertaa kullekin tehtävälle. 4.1 Yksi 8 , Tämä artikkeli on saatavilla arkivissä CC by 4.0 Deed (Attribution 4.0 International) -lisenssillä. Tämä paperi on Käyttöoikeus on CC by 4.0 Deed (Attribution 4.0 International). available on arxiv