लेखक : Scott Reed Konrad Żołna Emilio Parisotto Sergio Gómez Colmenarejo Alexander Novikov Gabriel Barth-Maron Mai Giménez Yury Sulsky Jackie Kay Jost Tobias Springenberg Tom Eccles Jake Bruce Ali Razavi Ashley Edwards Nicolas Heess Yutian Chen Raia Hadsell Oriol Vinyals Mahyar Bordbar Nando de Freitas लेखक : स्कॉट रीड संजय की पत्नी एमिलीओ पेरिसोटो सर्जियो गोमेज़ कोल्मेनेरेजो अलेक्जेंडर नोविकोव ग्रेजुअल बर्ट-मारेन कभी जिम यूरी सल्की जैकी के जॉस्ट टोबीस स्प्रिंगनबर्ग टॉम इक्लस जैक ब्रूस एलईडी के लिए एशले एडवर्ड्स निकोलस हेस जूता चैन रिया हडसेल ऑरियल्स Vinyals महारानी बर्डबार् फ्रीड्स के बारे में अवलोकन बड़े पैमाने पर भाषा मॉडलिंग में प्रगति से प्रेरित, हम पाठ आउटपुट के क्षेत्र से परे एक एकल generalist एजेंट का निर्माण करने के लिए एक समान दृष्टिकोण लागू करते हैं एजेंट, जिसे हम Gato के रूप में संदर्भित करते हैं, एक multi-modal, multi-task, multi-embodiment generalist नीति के रूप में कार्य करते हैं। एक ही नेटवर्क एक ही वजन के साथ Atari खेल सकता है, उपनाम छवियों, चैट, एक वास्तविक रोबोट हाथ के साथ स्टैक ब्लॉक और बहुत कुछ, अपने संदर्भ के आधार पर निर्णय लेते हैं कि क्या पाठ, संयुक्त टोकन, बटन दबाएं, या अन्य टोकन आउटपुट करना है। 1 परिचय सभी कार्यों में एक एकल न्यूरोर अनुक्रम मॉडल का उपयोग करने से महत्वपूर्ण लाभ होते हैं. यह प्रत्येक डोमेन के लिए उपयुक्त उत्प्रेरक पूर्वाग्रहों के साथ हाथ से निर्मित नीति मॉडल की आवश्यकता को कम करता है. यह प्रशिक्षण डेटा की मात्रा और विविधता को बढ़ाता है क्योंकि अनुक्रम मॉडल किसी भी डेटा को अवशोषित कर सकता है जो एक फ्लैट अनुक्रम में श्रृंखलाकृत किया जा सकता है. इसके अलावा, इसके प्रदर्शन डेटा, गणना और मॉडल पैमाने की सीमा पर भी सुधार जारी रखता है ऐतिहासिक रूप से, सामान्य मॉडल जो कंप्यूटिंग का लाभ उठाने में बेहतर हैं, वे अधिक विशेष क्षेत्र विशिष्ट दृष्टिकोणों को पार करने की प्रवृत्ति भी रखते हैं आखिरकार (कंपनी और एल। 2020 में; हॉफमैन और एल। 2022 में। सॉटसन, 2019 में, इस लेख में, हम एक सामान्य उद्देश्य एजेंट के वर्तमान पुनरावृत्ति का वर्णन करते हैं जिसे हम गेटो कहते हैं, एक एकल, बड़े, ट्रांसफॉर्मर अनुक्रम मॉडल के रूप में स्थानांतरित। जबकि किसी भी एजेंट को सभी कल्पना योग्य नियंत्रण कार्यों में उत्कृष्ट होने की उम्मीद नहीं की जा सकती है, विशेष रूप से उनके प्रशिक्षण वितरण से दूर, हम यहां इस सिद्धांत का परीक्षण करते हैं कि एक एजेंट को प्रशिक्षित करना जो आम तौर पर प्रशिक्षण में सक्षम है। हम अनुमान लगाते हैं कि ऐसा एजेंट डेटा, गणना और मॉडल पैरामीटरों को स्केलिंग के माध्यम से प्राप्त किया जा सकता है, लगातार प्रशिक्षण वितरण को बढ़ाते हुए, प्रदर्शन को बनाए रखते हुए, किसी भी कार्य, व्यवहार और रुचि के परिप्रेक्ष्य को कवर करने के लिए। बड़ी संख्या हम मॉडल स्केल के ऑपरेटिंग बिंदु पर अपना प्रशिक्षण केंद्रित करते हैं जो वास्तविक दुनिया के रोबोटों को वास्तविक समय में नियंत्रित करने की अनुमति देता है, वर्तमान में गेटो के मामले में 1.2B मापदंडों के आसपास। हार्डवेयर और मॉडल आर्किटेक्चर में सुधार के रूप में, यह ऑपरेटिंग बिंदु स्वाभाविक रूप से संभव मॉडल आकार को बढ़ाएगा, सामान्य मॉडल को स्केलिंग नियम कोर से ऊपर बढ़ाएगा। सरलता के लिए गेटो को शुद्ध रूप से पर्यवेक्षित तरीके से ऑफ़लाइन में प्रशिक्षित किया गया था; हालांकि, सिद्धांत रूप में, कोई कारण नहीं है कि इसे ऑफ़लाइन या ऑनलाइन मजबूत सीखने (आरएल) के साथ भी प्रशिक्षित नहीं किया जा सकता है। 2 मॉडल गेटो का मार्गदर्शक डिजाइन सिद्धांत छवियों, पाठ, proprioception, संयुक्त ट्रॉक, बटन दबाने, और अन्य विशिष्ट और निरंतर निगरानी और कार्रवाई जैसे विविध तरीकों सहित संभव के रूप में प्रासंगिक डेटा की सबसे विस्तृत विविधता पर प्रशिक्षण करना है। इस मल्टी-मॉडल डेटा को संसाधित करने के लिए, हम सभी डेटा को टोकन की एक फ्लैट अनुक्रम में श्रृंखलाबद्ध करते हैं। इस प्रतिनिधित्व में, गेटो को एक मानक बड़े पैमाने पर भाषा मॉडल के समान से प्रशिक्षित और नमूना किया जा सकता है। तैनाती के दौरान, नमूना टोकन संवाद प्रतिक्रियाओं, बटन दबाने, या संदर्भ के आधार पर अन्य कार्रवाईओं में इकट्ठा किए जाते हैं। निम् 2.1 टोक्योलिंग डेटा को टोकन में परिवर्तित करने के अनंत संभव तरीके हैं, जिसमें सीधे मूल बाइट प्रवाह का उपयोग करना शामिल है. नीचे हम आधुनिक हार्डवेयर और मॉडल आर्किटेक्चर का उपयोग करके वर्तमान पैमाने पर गेटो के लिए सर्वोत्तम परिणामों का उत्पादन करने के लिए पाया गया टोकनकरण योजना की रिपोर्ट करते हैं। पाठ को SentencePiece (Kudo & Richardson, 2018) के माध्यम से एन्कोड किया जाता है, जिसमें कुल सीमा में 32000 उप-वचन हैं [0, 32000]। छवियों को सबसे पहले रैस्टर क्रम में 16 16 पैचों के अनुक्रमों में परिवर्तित किया जाता है, जैसा कि ViT (Dosovitskiy et al., 2020) में किया गया है। छवि __p__atches में प्रत्येक पिक्सेल तब [−1*,* 1] के बीच सामान्य किया जाता है और पैच आकार के वर्ग-रूट (यानी √16 = 4) द्वारा विभाजित किया जाता है। विशिष्ट मूल्यों, उदाहरण के लिए, Atari बटन दबाते हैं, एक पंक्ति-मैंजर क्रम में कुल संख्याओं के अनुक्रमों में फ्लैट किए जाते हैं. Tokenized result is a sequence of integers within the range of [0*,* 1024). निरंतर मूल्यों, उदाहरण के लिए proprioceptive इनपुट या joint torques, को सबसे पहले पंक्ति-मैंजर क्रम में फ्लोटिंग बिंदु मूल्यों की अनुक्रमों में फ्लैट किया जाता है. मूल्यों को सीमा [ 1*,* 1] के लिए अनुकूलित किया जाता है, यदि पहले से ही वहां नहीं है (दिल 14 के लिए विवरण देखें), तो 1024 समान बिनों के लिए डिस्क्रेट किया जाता है. डिस्क्रेट समानों को फिर सीमा [32000*,* 33024] के लिए स्थानांतरित किया जाता है. डेटा को टोकन में परिवर्तित करने के बाद, हम निम्नलिखित कैनॉनिक अनुक्रम क्रमबद्ध का उपयोग करते हैं। पाठ टोकन कच्चे इनपुट पाठ के समान क्रम में होते हैं। छवि पैच टोकन raster क्रम में। बड़े पैमाने पर टेंशन। कुंजी से लेक्सिोग्राफिक क्रम में निहित संरचनाएं। एजेंट टाइमस्टेप्स को निरीक्षण टोकन के रूप में, एक विभाजक के बाद, फिर कार्रवाई टोकन के रूप में देखा जाता है। एजेंट एपिसोड्स टाइमस्टेप्स के रूप में समय के क्रम में। Tokenizing एजेंट डेटा के बारे में अधिक जानकारी पूरक सामग्री में प्रस्तुत की जाती है (सेक्शन) बी) 2.2 इनपुट टोकन में शामिल करना और आउटपुट लक्ष्यों को सेट करना Tokenization और sequencing के बाद, हम प्रत्येक टोकन (यानी यह दोनों निरीक्षणों और कार्यों के लिए लागू होता है) के लिए एक पैरामीटरीकृत इनपुट फ़ंक्शन *f* ( ; *θe*) लागू करते हैं अंतिम मॉडल इनपुट का उत्पादन करने के लिए. हमारे मल्टी-मॉडल इनपुट सिग्नल *s*1:*L* से कुशल सीखने की अनुमति देने के लिए, इनपुट फ़ंक्शन टोकन के आधार पर विभिन्न ऑपरेशन करता है: • किसी भी समय चरण के लिए पाठ, विशिष्ट या निरंतर मूल्यांकन किए गए निरीक्षणों या कार्यों से संबंधित टोकन एक सीखने वाले वेक्टर में एक खोज तालिका के माध्यम से एकीकृत किए जाते हैं. सीखने योग्य स्थिति कोडिंग उनके संबंधित समय चरण के भीतर उनके स्थानीय टोकन की स्थिति के आधार पर सभी टोकनों के लिए जोड़े जाते हैं. • किसी भी समय-चरण के लिए छवि पैचों से संबंधित टोकन एकल ResNet का उपयोग करके सम्मिलित होते हैं प्रति पैच के लिए एक वेक्टर प्राप्त करने के लिए ब्लॉक। छवि पैच टोकन embeddings के लिए, हम एक सीखने योग्य छवि के भीतर स्थिति कोडिंग वेक्टर जोड़ते हैं। वह और एल। 2016 ए) हम एप्लिकेशन सेक्शन का उल्लेख करते हैं संचालन कार्य के बारे में पूरी जानकारी के लिए। सी 3 जैसा कि हम आधिकारिक रूप से डेटा मॉडलिंग करते हैं, प्रत्येक टोकन संभावित रूप से पिछले टोकनों के आधार पर एक लक्ष्य लेबल भी है. टेक्स्ट टोकन, विशिष्ट और निरंतर मूल्यों, और कार्रवाई को टोकनेशन के बाद सीधे लक्ष्य के रूप में सेट किया जा सकता है. छवि टोकन और एजेंट गैर-टेक्स्टिक अवलोकन वर्तमान में गेटो में भविष्यवाणी नहीं किए जाते हैं, हालांकि यह भविष्य के काम के लिए एक दिलचस्प दिशा हो सकती है. इन अप्रत्याशित टोकनों के लिए लक्ष्यों को एक अप्रयुक्त मूल्य के रूप में सेट किया जाता है और नुकसान में उनके योगदान को छिपाया जाता है. 2.3 प्रशिक्षण टोकन की एक श्रृंखला के अनुसार 1 : और पैरामीटर , हम चेन संभावना नियम का उपयोग करके डेटा को मॉडल करते हैं: s L θ लेट हम एक मास्क फ़ंक्शन *m* को ऐसे परिभाषित करते हैं कि *m*(*b, l*) = 1 यदि सूचकांक *l* पर टोकन या तो पाठ से या एजेंट के लॉग किए गए कार्रवाई से है, और 0 अन्यथा। b जैसा कि ऊपर वर्णित किया गया है, गेटो के नेटवर्क आर्किटेक्चर में दो मुख्य घटक हैं: पैरामीटरीकृत इनपुट फ़ंक्शन जो टोकन इनपुट में टोकन परिवर्तित करता है, और अनुक्रम मॉडल जो अगले विशिष्ट टोकन पर वितरण का उत्पादन करता है। सरलता और स्केलेबलता के लिए. गेटो एक 1.2B पैरामीटर डिकोडर-केवल ट्रांसफार्मर का उपयोग करता है जिसमें 24 परतें हैं, एक एम्बेडिंग आकार 2048 है, और एक पोस्ट-परीक्षा feedforward छिपा आकार 8196 है (अधिक विवरण अनुभाग में देखें) अब्दुल्ला और एल। 2017 में सी 1 ) चूंकि एक डोमेन के भीतर अलग-अलग कार्य समान निष्पादन, अवलोकन प्रारूप और कार्रवाई विनिर्देशों को साझा कर सकते हैं, इसलिए मॉडल को कभी-कभी कार्यों को स्पष्ट करने के लिए और अधिक संदर्भ की आवश्यकता होती है। और त्वरित कंडीशनर का उपयोग करें। प्रशिक्षण के दौरान, प्रत्येक बैच में अनुक्रमों के 25% के लिए, एक त्वरित अनुक्रम प्रीपेड किया जाता है, जो एक ही कार्य पर एक ही स्रोत एजेंट द्वारा उत्पन्न एक एपिसोड से आता है। त्वरित अनुक्रमों का आधा एपिसोड के अंत से आता है, जो कई डोमेनों के लिए लक्ष्य अनुबंध के रूप में कार्य करता है; और दूसरा आधा एपिसोड से समान रूप से नमूना किया जाता है. मूल्यांकन के दौरान, एजेंट को वांछित कार्य की एक सफल प्रदर्शन का उपयोग करके प्रोत्साहित किया जा सकता है, जो हम सभी नियंत्रण परिणामों में डिफ़ॉल्ट करते हैं जो हम यहां प्रस्तुत करते हैं। (सैन और एल। 2022 में वाई और एल। 2021 में ब्राउन और एल। 2020 में मॉडल का प्रशिक्षण 16x16 TPU v3 स्लिट पर किया जाता है 1M चरणों के लिए बैच आकार 512 और टोकन अनुक्रम लंबाई के साथ = 1024, जो लगभग 4 दिन लेता है. आर्किटेक्चर विवरण सेक्शन में पाया जा सकता है चूंकि एजेंट एपिसोड और दस्तावेज़ आसानी से संदर्भ में फिट होने की तुलना में बहुत अधिक टोकन शामिल कर सकते हैं, हम यादृच्छिक रूप से अनुक्रमों को नमूना करते हैं उपलब्ध एपिसोडों से टोकन. प्रत्येक बैच डोमेन (उदाहरण के लिए, Atari, MassiveWeb, आदि) पर लगभग समान रूप से अनुक्रमों को मिश्रित करता है, जिसमें बड़े और उच्च गुणवत्ता वाले डेटा सेट का कुछ मैन्युअल वजन बढ़ाया जाता है (टेबल देखें) अनुभाग में विवरण के लिए) L c। L 1 3 2.4 तैनाती एक नीति के रूप में बिल्ली को तैनात करना चित्र में दर्शाया गया है सबसे पहले, एक प्रॉम्प्ट, जैसे कि एक प्रदर्शन, टोकनेस किया जाता है, प्रारंभिक अनुक्रम को बनाने के लिए। डिफ़ॉल्ट रूप से, हम प्रदर्शन के पहले 1024 टोकनेस लेते हैं। उसके बाद, पर्यावरण पहली निगरानी का उत्पादन करता है जो टोकनेस किया जाता है और अनुक्रम के साथ जोड़ा जाता है। गेटो एक बार में कार्रवाई वेक्टर को एक टोकन के रूप में स्वचालित रूप से नमूना करता है। एक बार कार्रवाई वेक्टर को शामिल करने वाले सभी टोकनों को नमूना किया गया है (सामान्य रूप से पर्यावरण के कार्रवाई विनिर्देश द्वारा निर्धारित), कार्रवाई को टोकनेस की प्रक्रिया को विपरीत करके डिकोड किया जाता है। यह कार्य पर्यावरण को भेजा जाता है जो कदम उठाता है और एक नया निरीक्षण देता है। प्रक्रिया दोहराई जाती है. मॉडल हमेशा अपने संदर्भ विंडो में 1024 टोकन में सभी पिछले निरीक्षणों और कार्यों को देखता है. हमने तैनाती के दौरान ट्रांसफार्मर एक्सएल मेमोरी का उपयोग करना फायदेमंद पाया, हालांकि प्रशिक्षण के दौरान इसका उपयोग नहीं किया गया था 3. 2.1 केस (डैडी और एल। 2019 में। 3 डेटा गेटो को कई डेटा सेटों पर प्रशिक्षित किया गया है जिसमें एजेंट अनुभव दोनों सिमुलेटेड और वास्तविक दुनिया के माहौल में शामिल है, साथ ही साथ विभिन्न प्राकृतिक भाषा और छवि डेटा सेट। नियंत्रण डेटासेट प्रति लगभग टोकन की संख्या को अनुमान लगाकर गणना की जाती है कि अनुभाग में वर्णित टोकनकरण तंत्र है 1. 2.1 केस 3.1 सिमुलेशन नियंत्रण कार्य हमारे नियंत्रण कार्यों में विशेषज्ञ SoTA या लगभग SoTA मजबूत सीखने एजेंटों द्वारा उत्पन्न डेटा सेट होते हैं जो विभिन्न वातावरणों में प्रशिक्षित होते हैं. प्रत्येक वातावरण के लिए हम प्रशिक्षण के दौरान एजेंट द्वारा उत्पन्न अनुभव (स्थिति, कार्रवाई और इनाम) का एक उपसेट रिकॉर्ड करते हैं। सिमुलेटेड वातावरण में Meta-World (Y) शामिल है। benchmark मेटा-बढ़ाई सीखने और मल्टीटास्क सीखने, Sokoban एक योजना के रूप में प्रस्तावित, BabyAI ग्रिड-वर्ल्ड्स में निम्नलिखित भाषा निर्देशों के लिए, डीएम नियंत्रण Suite (T निरंतर नियंत्रण के लिए, साथ ही साथ डीएम लैब एक स्वार्थी दृष्टिकोण के साथ कच्चे पिक्सेल से एजेंटों नेविगेशन और 3 डी दृष्टि सिखाने के लिए डिज़ाइन किया गया है। क्लासिक Atari खेलों के साथ (हम दो सेट खेलों का उपयोग करते हैं जिन्हें हम ALE Atari और ALE Atari Extended कहते हैं, देखें अनुभाग विवरण के लिए) आप और एल। 2020 में (शरीर और एल। 2017 में (शब्दों के रूप में, 2018 में इमाम अब्दुल्ला और अब्दुल्ला, 2020 में (Beattie और एल, 2016 में (बेटी और एल। 2013) एफ 1 हम Procgen Benchmark भी शामिल करते हैं मॉड्यूलर RL हम DM Manipulation Playground से एक सिमुलेटेड Kinova Jaco हाथ का उपयोग करके चार कार्यों को भी शामिल करते हैं, जैसा कि में पेश किया गया है अनुभाग इन नियंत्रण कार्यों का एक अधिक गहरा वर्णन शामिल है, साथ ही डेटा उत्पन्न करने के लिए किस आरएल एजेंट का उपयोग किया गया था। (Cobbe और एल, 2020 में (उत्पत्ति और एल। 2020 में) जॉब और एल। (2020 में) F हमने कार्य के लिए विशेषज्ञ रिटर्न के कम से कम 80% के साथ एक फ़िल्टर किए गए एपिसोड सेट पर प्रशिक्षण करना प्रभावी पाया। विशेषज्ञ रिटर्न विशेषज्ञ एजेंट द्वारा प्राप्त किए जाने वाले अधिकतम स्थायी प्रदर्शन को मापता है। कहां यह कार्य के लिए एकत्र किए गए एपिसोड की कुल संख्या है, खिड़की का आकार है, और एपिसोड के लिए कुल वापसी है सटीक अनुमान प्राप्त करने के लिए, अभ्यास में, हम कुल डेटा की मात्रा का 10% या न्यूनतम 1000 एपिसोड (यानी = मिनट(1000*,* 0*.*1 ) ) N W री i W W × N 3.2 दृष्टि और भाषा गेटो को MassiveText पर प्रशिक्षित किया जाता है कई स्रोतों से बड़े अंग्रेजी भाषा पाठ डेटासेट का एक संग्रह: वेब पेज, किताबें, समाचार लेख, और कोड। (Rae et al. के बारे में) 2021 में, हमने गेटो के प्रशिक्षण में कई दृष्टि भाषा डेटा सेट भी शामिल किए। 1.8 बी छवियों और उनके वैकल्पिक पाठ (अल्ट-टेक्स्ट) निशानों से बना है. लिटिप (लंबे पाठ और छवियों के जोड़े), 312 मिलियन छवियों से बना है। , अवधारणात्मक कैप्सूल कोको कैप्सूल , 3.3M और 120k छवि-टेक्स्ट जोड़ों के साथ डेटा सेट। . , इसमें 43M वेबपेज शामिल हैं जहां दोनों पाठ और छवियों को निकाला गया था. हमने दृश्य प्रश्न जवाब डेटा सेट भी शामिल किया. विशेष रूप से OKVQA VQAv2 के बारे में 9K और 443K छवियों, प्रश्नों और उत्तरों के तीनों के साथ इनमें से एक प्रशिक्षण एपिसोड बनाने के लिए, हम पांच (चित्र, पाठ) जोड़े का नमूना लेते हैं, उन्हें टोकन करते हैं, कनेक्टेनेट करते हैं, और फिर पैड या यादृच्छिक रूप से आवश्यक प्रशिक्षण अनुक्रम लंबाई तक कटाते हैं। (जिया और एल। 2021 में (अनुच्छेद और एल. 2022 में। (शार्मा और एल। 2018 में (शैम और एल। 2015 में) (अमेरिका और अल) 2022 में नौसेना और एल। 2019 में) (एंटोल और एल। 2015 में) 3.3 रोबोटिक्स - आरजीबी स्टैकिंग बेंचमार्क (वास्तविक और सिम) वास्तविक दुनिया में शारीरिक कार्रवाई करने के लिए डेटा के परीक्षण सेट के रूप में, हम [Lee et al.] द्वारा पेश किए गए रोबोटिक ब्लॉक स्टैकिंग पर्यावरण का चयन करते हैं(#_bookmark89) [(2021).](#_bookmark89) पर्यावरण में 3-DoF कार्डिसियन गति नियंत्रण के साथ एक सॉययर रोबोट 팔, गति के लिए एक अतिरिक्त DoF, और एक विशिष्ट gripper कार्रवाई का चयन किया गया है। रोबोट के कार्यक्षेत्र में विभिन्न आकारों के साथ लाल, हरे और नीले रंग के तीन प्लास्टिक ब्लॉक होते हैं। उपलब्ध निरीक्षणों में दो 128 कैमरा छवियों, रोबोट हाथ और gripper संयुक्त कोण, साथ ही साथ रोबोट के अंत प्रभाव पोजीशन शामिल हैं। उल्लेखनीय रूप हमने इन कार्यों के लिए प्रशिक्षण डेटा के कई स्रोतों का उपयोग किया. Skill Generalization में, सिमुलेशन और वास्तविक दोनों के लिए, हम सर्वश्रेष्ठ generalist sim2real एजेंट द्वारा एकत्र किए गए डेटा का उपयोग करते हैं हम केवल निर्दिष्ट आरजीबी-स्टैकिंग के साथ बातचीत करते समय डेटा एकत्र करते हैं (this amounts to a total of 387k successful trajectories in simulation and 15k trajectories in real). For Skill Mastery we used data from the best per group experts from सिमुलेशन में और वास्तविक रोबोट पर सर्वश्रेष्ठ sim2real नीति से (कम से कम 219k मार्गों तक)। Lee et al. (2021). प्रशिक्षण वस्तुओं ली और एल। (2021) 5.4. 4 Generalist एजेंट की क्षमताएं In this section, we summarize the performance of Gato when trained on the above described data. That is, all results across all tasks are derived from a single pretrained model with a single set of weights. Results with fine-tuning will be presented in Section 5. 4.1 Simulated control tasks Figure shows the number of distinct control tasks for which Gato performs above a given score threshold, relative to expert performance demonstrated in Gato’s training data. 5 हम एक प्रतिशत के रूप में प्रदर्शन की रिपोर्ट करते हैं, जहां 100% प्रति कार्य विशेषज्ञ के अनुरूप है और 0% एक यादृच्छिक नीति के लिए। प्रत्येक सिमुलेटेड नियंत्रण कार्य के लिए हमने हमारे मॉडल को प्रशिक्षित किया, हम अनुरूप वातावरण पर गेटो नीति को 50 गुना और परिभाषित स्कोर का औसत प्रदर्शन करते हैं। Gato performs over 450 out of 604 tasks at over a 50% expert score threshold. 5, एटारी में गेटो 23 अटारी खेलों के लिए औसत मानव (या बेहतर) स्कोर प्राप्त करता है जबकि डेटा उत्पन्न करने वाले एकल-टाइम ऑनलाइन आरएल एजेंट अभी भी गेटो से बेहतर प्रदर्शन करते हैं, यह क्षमता जोड़कर या ऑफ़लाइन आरएल प्रशिक्षण का उपयोग करने के बजाय पूरी तरह से पर्यवेक्षण किया जा सकता है (देखें अनुभाग)। where we present a specialist single domain ALE Atari agent achieving better than human scores for 44 games). (Bellemare et al., 2013) 1 5.5 On BabyAI गेटो लगभग सभी स्तरों पर 80% से अधिक विशेषज्ञ स्कोर प्राप्त करता है . For the most difficult task, called BossLevel, Gato scores 75%. The two other published baselines we could find, BabyAI 1.0 and BabyAI 1.1 , scored 77% and 90%, respectively, having trained on this single task alone using a million demonstrations. (Chevalier-Boisvert et al., 2018 में 2 (अमेरिका और एल. 2020), On Meta-World (Y Gato achieves more than 50% for all 44 out of 45 tasks that we trained on, over 80% for 35 tasks, and over 90% for 3 tasks. On canonical DM Control Suite (T गेटो राज्य से 30 कार्यों में से 21 पर विशेषज्ञ स्कोर का 50% से बेहतर और 18 कार्यों में 80% से अधिक प्राप्त करता है। आप और एल। 2020) assa et al., 2018 में, 4.2 रोबोटिक First person teleoperation enables the collection of expert demonstrations. However, such demonstrations are slow and costly to collect. Data-efficient behavior cloning methods are therefore desirable for training a generalist robot manipulator and offline pretraining is thus a well-motivated area of research. To that end, we evaluated Gato on the established RGB Stacking benchmark for robotics. Skill Generalization Performance आरजीबी स्टैकिंग रोबोटिक्स बेंचमार्क से कौशल जनरेटिंग चुनौती एजेंट के पहले अज्ञात आकृतियों के वस्तुओं को स्टैक करने की क्षमता का परीक्षण करती है एजेंट को एक डेटासेट पर प्रशिक्षित किया जाता है जिसमें रोबोट विभिन्न आकृतियों के विभिन्न प्रकार के वस्तुओं को स्टैक करने के एपिसोड होते हैं. हालांकि, प्रशिक्षण डेटा में वस्तु आकृतियों के पांच ट्रिपलेट शामिल नहीं हैं और परीक्षण ट्रिपलेट के रूप में कार्य करते हैं. हमने वास्तविक रोबोट पर प्रत्येक परीक्षण ट्रिपलेट पर 200 एपिसोड के लिए प्रशिक्षित जनरेटर का मूल्यांकन किया। यह दिखाता है कि प्रत्येक परीक्षण ट्रिपलेट पर हमारे जनरलिक एजेंट की सफलता दर एकल कार्य BC-IMP (प्रिंट किए गए BC) आधार लाइन के समान है। 2 Lee et al. (2021) के लिए 4.3 Text samples मॉडल rudimentary dialogue और image captioning क्षमताओं को प्रदर्शित करता है। Gato's image captioning performance का एक rep-resentative नमूना शामिल है। shows some hand-picked examples of plain text dialogue exchange. 6 7 5 Analysis 5.1 Scaling Laws Analysis In Figure we analyze the aggregate in-distribution performance of the pretrained model as a function of the number of parameters in order to get insight into how performance could improve with increased model capacity. We evaluated 3 different model sizes (measured in parameter count): a 79M model, a 364M model, and a 1.18B model (Gato). We refer to Section तीन मॉडल आर्किटेक्चर के बारे में विवरण। 8, C Here, for all three model sizes we plot the normalized return as training progresses. To get this single value, for each task we calculate the performance of the model as a percentage of expert score (the same as done in Section 1). फिर तालिका में सूचीबद्ध प्रत्येक डोमेन के लिए we average the percentage scores across all tasks for that domain. Finally, we mean-aggregate the percentage scores across all domains. We can see that for an equivalent token count, there is a significant performance improvement with increased scale. 4. 1 5.2 वितरण कार्यों से बाहर इस खंड में हम निम्नलिखित सवाल का जवाब देना चाहते हैं: For this reason, we held-out all data for four tasks from our pre-training set: cartpole.swingup (DM Control Suite domain), assembly-v2 (Meta-World domain), order_of_apples_forage_simple (DM Lab domain), and boxing (ALE Atari domain). These four tasks will serve as testbeds for evaluating the out-of-distribution capabilities of Gato. Can our agent be used to solve a completely new task efficiently? Ideally, the agent could potentially learn to adapt to a new task via conditioning on a prompt including demonstrations of desired behaviour. However, due to accelerator memory constraints and the extremely long sequence lengths of tokenized demonstrations, the maximum context length possible does not allow the agent to attend over an informative-enough context. Therefore, to adapt the agent to new tasks or behaviours, we choose to fine-tune the agent’s parameters on a limited number of demonstrations of a single task, and then evaluate the fine-tuned model’s performance in the environment. Fine-tuning is very similar to pretraining with minor changes, such as different learning rate schedule; see Section for details. E हम यह मापना चाहते हैं कि पूर्व प्रशिक्षण के दौरान उपयोग की जाने वाली डेटा का चयन पूर्व-फाइन ट्यूनिंग प्रदर्शन को कैसे प्रभावित करता है। ) to variants trained on ablated datasets: सभी डेटा 1. A model pretrained only on data from the same domain as the task to be fine-tuned on, . एक ही डोमेन केवल डेटा 2. A model pretrained only on non-control data, . no control data 3. A model fine-tuned from scratch, i.e. no pretraining at all, . स्क्रैच Considering as all these experiments require training a new model from scratch and then also fine-tuning, we present results using the less compute-intensive 364M parameter architecture described in Section Results are shown in Figure 5.1. 9. Fine-tuning performance on both cartpole.swingup and assembly-v2 tasks, both of which do not require image processing, present similar trends. Pretraining on all the datasets yields the best results, followed by pretraining on the same domain only. This difference is smaller for assembly-v2 but consistent for all few shot datasets. For these non-image-based environments, we see either no benefit (cartpole.swingup) or even negative transfer (assembly-v2) when pretraining on डेटा सेट, जिसमें केवल छवियों और पाठ डेटा होते हैं। कोई नियंत्रण DM Lab order_of_apples_forage_simple के लिए परिणाम थोड़ा अलग हैं. DM Lab डेटा पर केवल प्रीट्रेंसिंग पहले से ही 19 की अधिकतम इनाम तक पहुंचने के लिए पर्याप्त है और इसलिए विभिन्न वातावरणों से डेटा जोड़ने का कोई उल्लेखनीय लाभ नहीं है। डेटा मदद करता है, जो संभवतः इस तथ्य से समझा जा सकता है कि डीएम लैब वातावरण में एजेंटों को छवियों को खिलाया जाता है जो, सिमुलेशन होने के बावजूद, प्राकृतिक दिखते हैं। no control We were not able to observe any benefit from pretraining on boxing. The randomly initialized model seems to work better than any of the pretrained variants considered. We hypothesise that this is caused by the game’s input images being visually very distinct from the other data, suggesting transfer is difficult. We discuss this Atari challenge further in our related work section. 5.3 Fine-tuning on Robotic Stacking Tasks Section demonstrates that the base Gato capable of a diverse array of tasks can perform competitively on the RGB Stacking Skill Generalization benchmark. In this section, we would like to answer the following question: *How does our agent improve on robotics tasks when allowed to fine-tune similarly to how we fine-tune on new tasks in Section *We consider different model sizes and analyse the impact of pretraining datasets on the Skill Generalization benchmark, as well as a novel out of distribution task. Further analysis of fine-tuning with dataset ablations is in Appendix 4.2 5.2 ? I. Skill Generalization First, we would like to show that fine-tuning on object-specific data, similarly to what was done by is beneficial. Therefore, we fine-tuned Gato separately on five subsets of demonstrations from the dataset. Each subset was obtained by random partitioning of a test dataset consisting of demonstrations gathered by a generalist sim-to-real agent stacking real test objects. We consider this setting, which is comparable to the fine-tuning baselines on RGB stacking tasks from and use the 5k dataset that their behavior cloning 5k results are obtained with. To best match their experiments, we change our return filtering scheme during training: instead of using only successful stacks, we condition on the normalized return of the episode. Lee et al. (2022), परीक्षण (Lee et al., 2022); Figure विभिन्न अच्छी तरह से समायोजित डेटा प्रणालियों के बीच गेटो की सफलता दर को सिम-टू-रेल विशेषज्ञ और एक महत्वपूर्ण-नियंत्रित पुनरावृत्ति (सीआरआर) के साथ तुलना करता है agent trained on 35k episodes of all test triplets. Gato, in both reality and simulation (red curves on the left and right figure, respectively), recovers the expert’s performance with only 10 episodes, and peaks at 100 or 1000 episodes of fine-tuning data, where it exceeds the expert. After this point (at 5000), performance degrades slightly but does not drop far below the expert’s performance. 10 (Wang et al., 2020) Fine-tuning and Model Size To better understand the benefit of large models for few-shot adaptation in robotics domains, we conducted an ablation on model parameter size. This section focuses on in-simulation evaluation. Figure compares the full 1.18B parameter Gato with the smaller 364M and 79M parameter variants for varying amounts of fine-tuning data. Although the 364M model overfits on one episode, causing performance to drop, there is a clear trend towards better adaptation with fewer episodes as the number of parameters is scaled up. The 79M model performs clearly worse than its bigger counterparts. The results suggest that the model’s greater capacity allows the model to use representations learned from the diverse training data at test time. 10 संवेदनात्मक परिवर्तनों के लिए अनुकूलन While the Skill Generalization task is an effective benchmark for motor Skill Generalization to shape varia-tions, it does not test the agent’s ability to adapt to perceptual variations and permutations in the objective specification. To further evaluate Gato’s generalization capabilities, we devised a new task in the RGB stacking benchmark where the goal is to stack the blue object on the green object, for test triplet 1 (see Figure First, we used a 3D mouse to collect 500 demonstrations of this task on the real robot, for a total of 2 hours and 45 minutes of demonstration data, and fine-tuned Gato on these episodes. Notably, all of the simulated and real robotics data in the pretraining set shows the robot successfully stacking the red object on the blue object, and the data does not include the object shapes in the test set. We found that additionally adding simulated demonstrations of the stack blue on green task to the fine-tuning dataset improved performance, and 10% was an ideal sampling ratio for this data. 11). हमने वास्तविक रोबोट पर अच्छी तरह से समायोजित गेटो का मूल्यांकन करने के बाद अंतिम 60% सफलता दर हासिल की, जबकि ब्लू-ऑन-ग्रीन डेटा पर शून्य से प्रशिक्षित बीसी बेसलाइन ने केवल 0.5% सफलता प्राप्त की (1/200 एपिसोड)। 5.4 Robotics: Skill Mastery अनुच्छेद में चर्चा की गई कौशल जनरेटिंग चुनौती के समान the Skill Mastery challenge consists in training a robotic arm to stack blocks of different shapes. However, the Skill Mastery allows the agent to train on data involving the object shapes used for evaluation, i.e. the set in Skill Generalization becomes a part of the Skill Mastery इस प्रकार, यह चुनौती वितरित कार्यों पर गेटो के प्रदर्शन को मापने के लिए काम करती है (संभवतः प्रशिक्षण प्रदर्शनों में नहीं दिखने वाले प्रारंभिक स्थितियों के साथ)। with no fine-tuning. 4.2, test प्रशिक्षण H, Table compares the group-wise success percentage and the average success across object groups for Gato and the established BC-IMP baseline. Gato exceeds or closely matches BC-IMP’s performance on all but one training triplet. 3 5.5 Specialist single-domain multi-task agents इस अनुभाग में हम दो विशेषज्ञ (विशेषज्ञ के बजाय) एजेंटों के साथ प्राप्त परिणामों को दिखाते हैं. दोनों को केवल एक ही डोमेन से डेटा पर प्रशिक्षित किया गया था और प्रत्येक प्रशिक्षण कार्य के लिए 500 बार जारी किया गया था, बिना किसी भी प्रति कार्य फिनिंग के। Meta-World पहला एजेंट अनुभाग में पेश किए गए सबसे छोटे वास्तुकला का उपयोग करता है i.e. 79M parameters, and is trained on all 50 Meta-World tasks. While Gato has access to the state of the MuJoCo physics engine and unlimited task seeds, the agent presented here has no access to any extra features or tasks and uses the canonical API as in (Y This experiment is to show that the architecture proposed in our paper can be used to obtain state-of-the-art agents also at small scale. The training procedure was to train single-task MPO experts on each of the MT-50 tasks individually, recording the trajectories produced while training. This experience is then combined, or distilled, into a single agent, which achieves 96.6% success rate averaged over all 50 tasks. To the best of our knowledge this agent is the first one to accomplish nearly 100% average success rate simultaneously (multi-task) for this benchmark. See Table in the supplementary material (Section for the full list of tasks and corresponding success rates of our agent. 5.1, u et al., 2020). (Abdolmaleki et al., 2018) 7 K) ALE Atari We also trained a specialist agent on all 51 ALE Atari tasks. As the Atari domain is much more challenging than Meta-World, we used the Gato architecture with 1.18B parameters. The resulting agent performs better than the average human for 44 games (see Section for details on our evaluation and scoring). We want to note that the performance of online experts used to generate training data for the other 7 games were also below the average human. Hence, the specialist Atari agent achieved better than human performance for all games where data contained super-human episodes. 4.1 विशेषज्ञ अटारी एजेंट हमारे जनरल एजेंट गेटो को आगे बढ़ाता है, जिसने 23 गेम में सुपर-मानव प्रदर्शन हासिल किया है. यह सुझाव देता है कि गेटो का स्केलिंग बेहतर प्रदर्शन का परिणाम हो सकता है. हालांकि, हमने गेटो के आकार को उद्देश्य से सीमित किया ताकि इसे वास्तविक समय में वास्तविक रोबोट पर चलाया जा सके. 5.6 Attention Analysis We rendered the transformer attention weights over the image observations for various tasks, to gain a qualitative sense of how Gato attends to different regions of the image across tasks (see Figure Further details and visualizations for more tasks can be found in Appendix These visualizations clearly show that attention tracks the task-relevant objects and regions. 12) J. 5.7 Embedding Visualization To understand how Gato encodes differently information per task, we visualized per-task embeddings. हमने 11 कार्यों का विश्लेषण किया। प्रत्येक कार्य के लिए, हम यादृच्छिक रूप से 100 एपिसोड नमूना करते हैं और उनमें से प्रत्येक को टोकनेस करते हैं। फिर, प्रत्येक एपिसोड से हम 128 टोकनों का एक अनुक्रम लेते हैं, उनके एम्बेडमेंट्स को गणना करते हैं (12 परत पर, जो ट्रांसफॉर्मर परतों की कुल गहराई का आधा है) और उन्हें अनुक्रम पर औसत करते हैं। सभी कार्यों के लिए औसत एम्बेडमेंट्स को पीसीए में इनपुट के रूप में उपयोग किया जाता है, जिससे उनकी आयामशीलता 50 तक कम होती है। फिर, अंतिम 2 डी एम्बेडमेंट्स प्राप्त करने के लिए T-SNE का उपयोग किया जाता है। Figure अंतिम T-SNE एम्बेडमेंट्स को 2D में चित्रित किया गया है, कार्य के अनुसार रंगित किया गया है. एक ही कार्यों से एम्बेडमेंट्स स्पष्ट रूप से एक साथ क्लस्टर किए जाते हैं, और एक ही डोमेन और मॉड्यूल से कार्य क्लस्टर भी एक दूसरे के करीब स्थित होते हैं. यहां तक कि बाहर रखी गई कार्य (cartpole.swingup) भी सही ढंग से क्लस्टर किया जाता है और DM Control Suite पिक्सेल से एक और कार्य के बगल में रखता है. 13 6 Related Work The most closely related architectures to that of Gato are Decision Transformers , and Trajectory Transformer which showed the usefulness of highly generic LM-like architectures for a variety of control problems. Gato also uses an LM-like architecture for control, but with design differences chosen to support multi-modality, multi-embodiment, large scale and general purpose deployment. Pix2Seq also uses an LM-based architecture for object detection. Perceiver IO ., uses a transformer-derived architecture specialized for very long sequences, to model any modality as a sequence of bytes. This and similar architectures could be used to expand the range of modalities supported by future generalist models. (Chen et al., 2021 बी। Reid et al., 2022; Zheng et al., 2022; Furuta et al. 2021) (Janner et al., 2021), (शैम और एल। 2022 में (Jaegle et al 2021) Gato was inspired by works such as GPT-3 and Gopher pushing the limits of generalist language models; and more recently the Flamingo generalist visual language model. developed the 540B parameter Pathways Language Model (PalM) explicitly as a generalist few-shot learner for hundreds of text tasks. (Brown et al., 2020) (Rae et al., 2021), (जैसे एलर्जी और एलर्जी) 2022) Chowdhery et al. (2022) Future work should consider how to unify these text capabilities into one fully generalist agent that can also act in real time in the real world, in diverse environments and embodiments. गेटो भी बहुआयामी निरंतर नियंत्रण पर हाल के कामों से प्रेरणा लेता है। used message passing graph networks to build a single locomotor controller for many simulated 2D walker variants. showed that transformers can outperform graph based approaches for incom-patible (i.e. varying embodiment) control, despite not encoding any morphological inductive biases. learn a modular policy for multi-task and multi-robot transfer in simulated 2D manipulation environments. train a universal policy conditioned on a vector representation of robot hardware, showing successful transfer both to simulated held out robot arms, and to a real world sawyer robot arm. Huang et al. (2020) Kurin et al. (2020) Devin और अल। (2017) Chen et al. (2018) A variety of earlier generalist models have been developed that, like Gato, operate across highly distinct domains and modalities. NPI trained a single LSTM to execute diverse programs such as sorting an array and adding two numbers, such that the network is able to generalize to larger problem instances than those seen during training. developed the MultiModel that trains jointly on 8 distinct speech, image and text processing tasks including classifica-tion, image captioning and translation. Modality-specific encoders were used to process text, images, audio and categorical data, while the rest of the network parameters are shared across tasks. proposed “ ”, describing a method for the incremental training of an increasingly general problem solver. proposed controllable multi-task language models that can be directed according to language domain, subdomain, entities, relationships between entities, dates, and task-specific behavior. (Reed & De Freitas, 2016) (Hochreiter & Schmidhuber, 1997) Kaiser et al. (2017) Schmidhuber (2018) one big net for everything Keskar et al. (2019) In this discussion, it is important to distinguish between one single multi-task network architecture versus one single neural network with the same weights for all tasks. Several poplar RL agents achieve good multi-task RL results within single domains such as Atari57 and DMLab However, it is much more common to use the same policy architecture and hyper-parameters across tasks, but the policy parameters are different in each task यह बोर्ड गेम पर लागू होने वाले हालिया आरएल तरीकों के लिए भी सच है Moreover, this choice has been adopted by off-line RL benchmarks and recent works on large sequence neural networks for control, including decision transformers and the Trajectory Transformer of In contrast, in this work we learn a single network with the same weights across a diverse set of tasks. (Espeholt et al., 2018; Song et al., 2020; Hessel और एल। 2019). (Mnih et al., 2015; Tassa et al., 2018). (Schrittwieser et al., 2020). (Gulcehre et al., 2020; फू और एल। 2020) (Chen et al., 2021b; Reid et al., 2022; Zheng et al., 2022) Janner et al. (2021). Recent position papers advocate for highly generalist models, notably proposing one big net for everything, and हालांकि, हमारे ज्ञान के अनुसार, अभी तक सैकड़ों दृष्टि, भाषा और नियंत्रण कार्यों पर प्रशिक्षित एक भी जनरल रिपोर्ट नहीं की गई है, जिसमें आधुनिक ट्रांसफार्मर नेटवर्क का उपयोग किया गया है। Schmidhuber (2018) Bommasani et al. (2021) “Single-brain”-style models have interesting connections to neuroscience. famously stated that “ ”. Mountcastle found that columns of neurons in the cortex behave similarly whether associated with vision, hearing or motor control. This has motivated arguments that we may only need one algorithm or model to build intelligence माउंटकास्ट (1978) the processing function of neocortical modules is qualitatively similar in all neocortical regions. Put shortly, there is nothing intrinsically motor about the motor cortex, nor sensory about the sensory cortex (Hawkins & Blakeslee, 2004). Sensory substitution provides another argument for a single model उदाहरण के लिए, यह निम्नलिखित तरीके से अंधे लोगों के लिए स्पर्श दृश्य सहायक बनाने के लिए संभव है. कैमरा द्वारा कैप्चर किए गए सिग्नल को मस्तिष्क के लिए भाषा पर एक इलेक्ट्रोड पैराइज के माध्यम से भेजा जा सकता है. दृश्य कोरल इन स्पर्श संकेतों को संसाधित और व्याख्या करना सीखता है, जिससे व्यक्ति को "विजन" का कुछ रूप दिया जाता है. यह सुझाव दे रहा है कि, इनपुट सिग्नल के प्रकार के बावजूद, एक ही नेटवर्क इसे उपयोगी प्रभाव के लिए संसाधित कर सकता है. (Bach-y Rita और Kercel, 2003). Our work is based on deep autoregressive models, which have a long history and can be found in generative models of text, images, video and audio. Combining autoregressive generation with transformers (V has been of enormous impact in language modelling protein folding vision-language models (T code generation पुनर्प्राप्ति क्षमताओं के साथ संवाद प्रणाली speech recognition neural machine translation and more , Recently researchers have explored task decomposition and grounding with language models एसिड और एल। 2017 में; Devlin et al., 2018) (Brown et al., 2020; Rae et al., 2021), (Jumper et al., 2021), सिक्योरिटी और एल। 2021; Wang et al., 2021; Alayrac et al., 2022), (Chen et al., 2021 के लिए ली और एल। 2022b), (उत्पादक और एल। 2021; Thoppilan et al., 2022 में, (Pratap और एल। 2020), (Johnson et al., 2019) (Bommasani et al. 2021). (उत्पत्ति और एल। 2022; Ahn et al., 2022 में। construct a control architecture, consisting of a sequence tokenizer, a pretrained language model and a task-specific feed-forward network. They apply it to VirtualHome and BabyAI tasks, and find that the inclusion of the pretrained language model improves generalisation to novel tasks. Similarly, प्रदर्शित करें कि दृष्टि मॉडल आत्म-निरीक्षण सीखने के साथ पूर्व प्रशिक्षित हैं, विशेष रूप से फसल विभाजन और तापमान विपरीत प्रभावी ढंग से नियंत्रण में शामिल किया जा सकता है। Li et al. (2022a) Parisi et al. (2022) (He et al., 2020), As mentioned earlier, transfer in Atari is challenging. researched transfer between ran-domly selected Atari games. They found that Atari is a difficult domain for transfer because of pronounced differences in the visuals, controls and strategy among the different games. Further difficulties that arise when applying behaviour cloning to video games like Atari are discussed by रूस और अल. 2016 में Kanervisto et al. (2020). There has been great recent interest in data-driven robotics However, note that in robotics “ ”. Moreover, every time we update the hardware in a robotics lab, we need to collect new data and retrain. We argue that this is precisely why we need a generalist agent that can adapt to new embodiments and learn new tasks with few data. (शब्द और एल। 2019; Chen et al., 2021a). Bommasani et al. (2021) the key stumbling block is collecting the right data. Unlike language and vision data, robotics data is neither plentiful nor representative of a sufficiently diverse array of embodiments, tasks, and environments Generating actions using an autoregressive model can lead to causal “self-delusion” biases when there are confounding variables For example, sampling actions can condition the model to solve the wrong task when multiple tasks share similar observation and actions specifications. As explained in Section we use prompt engineering in ambiguous tasks, conditioning our model on a successful demon-stration. This screens off confounding variables, reducing self-delusions. Another solution which we did not explore in this work is to use counterfactual teaching, where we train a model online using instantaneous expert feedback. We leave this for future investigation. (Ortega et al., 2021 में। 2, 7 Broader Impact Although generalist agents are still only an emerging area of research, their potential impact on society calls for a thorough interdisciplinary analysis of their risks and benefits. For the sake of transparency, we document the intended use cases of Gato in the model card in Appendix However, the tools for mitigating harms of generalist agents are relatively underdeveloped, and require further research before these agents are deployed. A. चूंकि हमारा जनरलिक एजेंट एक दृष्टि-भाषा मॉडल के रूप में कार्य कर सकता है, यह समान चिंताओं को विरासत में लेता है जैसा कि चर्चा की गई है। In addition, generalist agents can take actions in the the physical world; posing new challenges that may require novel mitigation strategies. For example, physical embodiment could lead to users anthropomorphizing the agent, leading to misplaced trust in the case of a malfunctioning system, or be exploitable by bad actors. Additionally, while cross-domain knowledge transfer is often a goal in ML research, it could create unexpected and undesired outcomes if certain behaviors (e.g. arcade game fighting) are transferred to the wrong context. The ethics and safety considerations of knowledge transfer may require substantial new research as generalist systems advance. (Wei-dinger et al., 2021; Bommasani et al., 2021; Rae et al., 2021; Alayrac et al., 2022). Technical AGI safety may also become more challenging when considering generalist agents that operate in many embodiments. For this reason, preference learning, uncertainty modeling and value alignment (R are especially important for the design of human-compatible generalist agents. It may be possible to extend some of the value alignment approaches for language to generalist agents. However, even as technical solutions are developed for value alignment, generalist systems could still have negative societal impacts even with the intervention of well-intentioned designers, due to unforeseen circumstances or limited oversight This limitation underscores the need for a careful design and a deployment process that incorporates multiple disciplines and viewpoints. (Bostrom, 2017) उपयोग करें, 2019) (Ouyang et al., 2022; Kenton et al., 2021) (Amodei et al., 2016). Understanding how the models process information, and any emergent capabilities, requires significant ex-perimentation. External retrieval has been shown to improve both interpretability and performance, and hence should be consid-ered in future designs of generalist agents. (Borgeaud et al., 2021; Menick et al., 2022; कोहली और एल। 2021 में Thoppilan et al., 2022 में Although still at the proof-of-concept stage, the recent progress in generalist models suggests that safety researchers, ethicists, and most importantly, the general public, should consider their risks and benefits. We are not currently deploying Gato to any users, and so anticipate no immediate societal impact. However, given their potential impact, generalist models should be developed thoughtfully and deployed in a way that promotes the health and vitality of humanity. 8 Limitations and Future work 8.1 RL data collection Gato एक डेटा-आधारित दृष्टिकोण है, क्योंकि यह नकल सीखने से उत्पन्न होता है. जबकि प्राकृतिक भाषा या छवि डेटासेट वेब से प्राप्त करना अपेक्षाकृत आसान है, नियंत्रण कार्यों के लिए एक वेब-स्केल डेटासेट वर्तमान में उपलब्ध नहीं है। यह कहा जा रहा है, इस मुद्दे पर पहले से ही व्यापक जांच की गई है। ऑफ़लाइन आरएल मौजूदा नियंत्रण डेटासेट का लाभ उठाने का लक्ष्य रखता है, और इसकी बढ़ती लोकप्रियता पहले से ही अधिक विविध और बड़े डेटासेटों की उपलब्धता के परिणामस्वरूप है। अधिक समृद्ध वातावरण और सिमुलेशन बनाए जा रहे हैं (उदाहरण के लिए, मेटावर्स), और उपयोगकर्ताओं की बढ़ती संख्या पहले से ही पहले से ही तैनात ऑनलाइन खेलों के हजारों में उनके साथ बातचीत कर रही है (उदाहरण के लिए, स्टारक्राफ्ट 2 खेलों का एक बड़ा डेटासेट मौजूद है)। वास्तविक डेटा भी पहले से ही एमएल अनुसंधान उद्देश्यों के लिए संग्रहीत किया गया है; उदाहरण के लिए, स्वचालित वाहनों के प्रशिक्षण के लिए डेट (Baker et al., 2022). यूट्यूब और ट्विच जैसे ऑनलाइन वीडियो साझा करने और स्ट्रीमिंग प्लेटफार्मों के लिए धन्यवाद, निरीक्षण-केवल डेटा सेट प्राकृतिक भाषा डेटा सेट की तुलना में इकट्ठा करना काफी मुश्किल नहीं है, जो भविष्य के शोध दिशा को वेब डेटा से सीखने के लिए गेटो को बढ़ाने के लिए प्रेरित करता है। While the previous paragraph focuses on alleviating drawbacks of data collection from RL agents, it is important to note that this approach presents a different set of tradeoffs compared to scraping web data and can be actually more practical in some situations. Once the simulation is set up and near SOTA agent trained, it can be used to generate massive amounts of high quality data. That is in contrast to the quality of web data which is notorious for its low quality. In short, we believe that acquiring suitable data is another research question on its own, and this is an active area of research with growing momentum and importance. 8.2 Prompt and short context Gato is prompted with an expert demonstration, which aids the agent to output actions corresponding to the given task. This is particularly useful since there is otherwise no task identifier available to the agent (that is in contrast to many multi-task RL settings). Gato infers the relevant task from the observations and actions in the prompt. However, the context length of our agent is limited to 1024 tokens which translates to the agent sometimes attending to only a few environment timesteps in total. This is especially the case for environments with image observations, where depending on the resolution each observation can result in more than one hundred tokens each. Hence for certain environments only a short chunk of a demonstration episode fits in the transformer memory. Due to this limited prompt context, preliminary experiments with different prompt structures resulted in very similar performance. Similarly, early evaluations of the model using prompt-based in-context learning on new environments did not show a significant performance improvement compared to prompt-less evaluation in the same setting. Context-length is therefore a current limitation of our architecture, mainly due to the quadratic scaling of self-attention. Many recently proposed architectures enable a longer context at greater efficiency and these innovations could potentially improve our agent performance. We hope to explore these architectures in future work. 9 Conclusions Transformer sequence models are effective as multi-task multi-embodiment policies, including for real-world text, vision and robotics tasks. They show promise as well in few-shot out-of-distribution task learning. In the future, such models could be used as a default starting point via prompting or fine-tuning to learn new behaviors, rather than training from scratch. Given scaling law trends, the performance across all tasks including dialogue will increase with scale in parameters, data and compute. Better hardware and network architectures will allow training bigger models while maintaining real-time robot control capability. By scaling up and iterating on this same basic approach, we can build a useful general-purpose agent. Acknowledgments हम डेटा भंडारण बुनियादी ढांचे के साथ उनकी मदद के लिए Dan Horgan, Manuel Kroiss, Mantas Pajarskas, और Thibault Sottiaux का शुक्रिया अदा करना चाहते हैं; Jean-Baptiste Lespiau और Fan Yang एक साथ मूल्यांकन पर मदद करने के लिए; Joel Veness मॉडल डिजाइन पर सलाह देने के लिए; Koray Kavukcuoglu परियोजना को प्रेरित करने और प्रतिक्रियाओं को सुविधाजनक बनाने में मदद करने के लिए; टॉम Erez एजेंट डिजाइन और निरंतर नियंत्रण के लिए कार्य चयन के बारे में सलाह देने के लिए; Igor Babuschkin प्रारंभिक प्रोटोटाइप को कोड करने में मदद करने के लिए; जैक रे को ट्रांसफॉर्मर भाषा मॉडल कोडबेस पर सलाह देने के लिए; थॉमस लैं Author Contributions developed the project concept, wrote the initial prototype, and led the project overall. दृष्टि और पाठ के लिए आर्किटेक्चर के विकास का नेतृत्व किया, टोकनेशन और प्रमोटिंग के लिए बुनियादी ढांचे का निर्माण किया, और कुल एजेंट विकास और मूल्यांकन में भारी योगदान दिया। Scott Reed Konrad Żołna led work on optimizing the transformer architecture, ran the largest number of experi-ments, and analyzed scaling law properties and in-distribution agent performance. Emilio Parisotto was the technical lead, responsible for creating a scalable data loader and evaluator supporting hundreds of tasks at once, and for the initial robot integration with Gato. Sergio Gómez Colmenarejo developed the model including the sampler for the initial prototype, carried out ex-periments focusing on robotics, and created visualizations. Alexander Novikov built scalable storage infrastructure to provide Gato with SoTA-level agent expe-rience in Atari and other domains. Gabriel Barth-Maron conducted large scale agent data collection, built substantial data loading infrastructure, and integrated large scale visual-language datasets into the training of Gato. Mai Giménez contributed broadly to the Gato codebase including a bespoke distributed training sequence loader, and led the development of benchmarks for out-of-distribution generalization, and the training of competitive baseline agents. Yury Sulsky supported physical robotics infrastructure, conducted numerous evaluations and experiments to analyze the generalization properties of Gato, and contemplated broader ethical impact. Jackie Kay गेटो के भौतिक रोबोट के लिए तैनाती का मार्गदर्शन किया, ब्लॉक स्टैकिंग के लिए मजबूत मौजूदा आधार लाइनों को प्रदान किया, और मॉडल विकास और प्रयोगशाला डिजाइन पर सलाह दी। Jost Tobias Springenberg developed the Gato dialogue and image captioning demonstrations, allowing users to easily probe the vision and language capacities of agents in development. Tom Eccles एजेंट डिजाइन के साथ-साथ randomized भौतिकी और morphology परिवर्तनों के साथ नियंत्रण डेटा सेट और वातावरण में योगदान दिया। Jake Bruce दृष्टि आर्किटेक्चर का पता लगाने में मदद करता है। Ali Razavi contributed to the first prototype of Gato that worked on Atari, in addition to exploring alternative network architectures and training objectives. Ashley Edwards advised on agent design, experiment design and task selection, especially for continuous control applications. Nicolas Heess मॉडल डिजाइन और प्रयोगों पर सलाह दी, और नियमित बैठकों में प्रतिक्रिया दी। Yutian Chen रोबोटिक्स प्रयासों के डिजाइन और योजना के बारे में सलाह दी। Raia Hadsell advised on all aspects of the project, especially model architecture, training strategies and benchmark design. Oriol Vinyals was the primary project manager; eliciting key goals, tracking progress, facilitating pre-sentations and feedback, and coordinating resource planning. Mahyar Bordbar oversaw the project from its inception. Nando de Freitas References Abbas Abdolmaleki, Jost Tobias Springenberg, Yuval Tassa, Remi Munos, Nicolas Heess, and Martin Ried-miller. Maximum a posteriori policy optimisation. , 2018. Preprint arXiv:1806.06920 Samira Abnar and Willem Zuidema. Quantifying attention flow in transformers. , 2020. Preprint arXiv:2005.00928 Michael Ahn, Anthony Brohan, Noah Brown, Yevgen Chebotar, Omar Cortes, Byron David, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, et al. Do as i can, not as i say: Grounding language in robotic affordances. , 2022. प्रीप्रिंट arXiv:2204.01691 Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andy Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, and Karen Simonyan. Flamingo: a visual language model for few-shot learning. , 2022. Preprint arXiv:2204.14198 Dario Amodei, Chris Olah, Jacob Steinhardt, Paul F. Christiano, John Schulman, and Dan Mané. Concrete problems in AI safety. , 2016. प्रिंटिंग arXiv:1606.06565 Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh. VQA: Visual question answering. In , pp. 2425–2433, 2015. कंप्यूटर दृष्टि पर अंतर्राष्ट्रीय सम्मेलन Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. , 2016. Preprint arXiv:1607.06450 Paul Bach-y Rita and Stephen W Kercel. Sensory substitution and the human-machine interface. , 7(12):541–546, 2003. Trends in cognitive sciences Bowen Baker, Ilge Akkaya, Peter Zhokhov, Joost Huizinga, Jie Tang, Adrien Ecoffet, Brandon Houghton, Raul Sampedro, and Jeff Clune. Video pretraining (vpt): Learning to act by watching unlabeled online videos. , 2022. प्रीप्रिंट arXiv::2206.11795 Gabriel Barth-Maron, Matthew W Hoffman, David Budden, Will Dabney, Dan Horgan, Dhruva Tb, Alistair Muldal, Nicolas Heess, and Timothy Lillicrap. Distributed distributional deterministic policy gradients. , 2018. Preprint arXiv:1804.08617 Charles Beattie, Joel Z Leibo, Denis Teplyashin, Tom Ward, Marcus Wainwright, Heinrich Küttler, Andrew Lefrancq, Simon Green, Víctor Valdés, Amir Sadik, et al. DeepMind lab. , 2016. प्रीप्रिंट arXiv:1612.03801 Marc G Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling. The arcade learning environment: An evaluation platform for general agents. , 47:253–279, 2013. आर्टिकल इंटेलिजेंस रिसर्च जर्नल Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, et al. On the opportunities and risks of foundation models. , 2021. Preprint arXiv:2108.07258 Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, et al. Improving language models by retrieving from trillions of tokens. , 2021. Preprint arXiv:2112.04426 निक बोस्ट्रोम डोनाल्ड, 2017 Superintelligence Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman, Jie Tang और Wojciech Zaremba। Openai जिम। , 2016. प्रीप्रिंट arXiv:1606.01540 TB Brown, B Mann, N Ryder, M Subbiah, J Kaplan, P Dhariwal, A Neelakantan, P Shyam, G Sastry, A Askell, et al. Language models are few-shot learners. In , pp. 1877–1901, 2020. Advances in Neural Information Processing Systems Serkan Cabi, Sergio Gómez Colmenarejo, Alexander Novikov, Ksenia Konyushkova, Scott Reed, Rae Jeong, Konrad Zolna, Yusuf Aytar, David Budden, Mel Vecerik, et al. Scaling data-driven robotics with reward sketching and batch reinforcement learning. , 2019. Preprint arXiv:1909.12200 Annie S Chen, Suraj Nair, and Chelsea Finn. Learning generalizable robotic reward functions from “in-the-wild" human videos. , 2021a. Preprint arXiv:2103.16817 Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Misha Laskin, Pieter Abbeel, Ar-avind Srinivas, और Igor Mordatch। , 34 , 2021बी। Advances in Neural Information Processing Systems Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. कोड पर प्रशिक्षित बड़े भाषा मॉडल का मूल्यांकन। , 2021c. Preprint arXiv:2107.03374 Tao Chen, Adithyavairavan Murali, and Abhinav Gupta. Hardware conditioned policies for multi-robot transfer learning. , 31, 2018. Advances in Neural Information Processing Systems Ting Chen, Saurabh Saxena, Lala Li, David J Fleet, and Geoffrey Hinton. Pix2seq: A language modeling framework for object detection. In , 2022. ICLR Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco captions: Data collection and evaluation server. , 2015. Preprint arXiv:1504.00325 Maxime Chevalier-Boisvert, Dzmitry Bahdanau, Salem Lahlou, Lucas Willems, Chitwan Saharia, Thien Huu Nguyen, and Yoshua Bengio. BabyAI: A platform to study the sample efficiency of grounded language learning. , 2018. Preprint arXiv:1810.08272 Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. PaLM: Scaling language modeling with pathways. , 2022. प्रीप्रिंट arXiv:2204.02311 Karl Cobbe, Chris Hesse, Jacob Hilton, and John Schulman. Leveraging procedural generation to benchmark reinforcement learning. In , पृष्ठ 2048–2056, 2020। International Conference on Machine Learning Zihang Dai, Zhilin Yang, Yiming Yang, Jaime G Carbonell, Quoc Le, and Ruslan Salakhutdinov. Transformer-xl: Attentive language models beyond a fixed-length context. In , pp. 2978–2988, 2019। Computational Linguistics Association की वार्षिक बैठक Coline Devin, Abhishek Gupta, Trevor Darrell, Pieter Abbeel, and Sergey Levine. Learning modular neural network policies for multi-task and multi-robot transfer. In , pp. 2169–2176, 2017. IEEE International Conference on Robotics & Automation Jacob Devlin, Ming-Wei Chang, Kenton Lee, और Kristina Toutanova. BERT: भाषा समझ के लिए गहरी दो दिशात्मक ट्रांसफार्मर का पूर्व प्रशिक्षण। , 2018. प्रिंट arXiv:1810.04805 Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Un-terthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. , 2020. Preprint arXiv:2010.11929 Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Vlad Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, et al. Impala: Scalable distributed deep-RL with importance weighted actor-learner architectures. In , pp. 1407–1416, 2018. International Conference on Machine Learning Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, और Sergey Levine। 2020 में। Preprint arXiv:2004.07219 Hiroki Furuta, Yutaka Matsuo, और Shixiang Shane Gu. ऑफ़लाइन बैकसाइट जानकारी मेलिंग के लिए सामान्य निर्णय ट्रांसफार्मर। , 2021. Preprint arXiv:2111.10364 Caglar Gulcehre, Ziyu Wang, Alexander Novikov, Thomas Paine, Sergio Gómez, Konrad Zolna, Rishabh Agarwal, Josh S Merel, Daniel J Mankowitz, Cosmin Paduraru, et al. RL unplugged: A suite of benchmarks for offline reinforcement learning. , 33:7248–7259, 2020 Advances in Neural Information Processing Systems जेफ हॉकिंग्स और सैंड्रा ब्लेक्सली . Macmillan, 2004. On intelligence Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In , pp. 770–778, 2016a. IEEE Computer Vision and Pattern Recognition Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity mappings in deep residual networks. In , pp. 630–645, 2016b. European Conference on Computer Vision Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. In , pp. 9729–9738, 2020. IEEE Computer Vision and Pattern Recognition Dan Hendrycks और Kevin Gimpel. गॉसियन त्रुटि लाइनरी इकाइयों (GELUs). , 2016. Matteo Hessel, Hubert Soyer, Lasse Espeholt, Wojciech Czarnecki, Simon Schmitt, and Hado van Hasselt. Preprint arXiv:1606.08415 Multi-task deep reinforcement learning with popart. In , 2019. AAAI Matteo Hessel, Ivo Danihelka, Fabio Viola, Arthur Guez, Simon Schmitt, Laurent Sifre, Theophane Weber, David Silver, and Hado van Hasselt. Muesli: Combining improvements in policy optimization. , 2021. Preprint arXiv:2104.06159 सेप्ट Hochreiter और Jürgen Schmidhuber. लंबी अवधि की स्मृति। , 9(8):1735–1780, 1997. Neural computation Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. Training compute-optimal large language models. , 2022. Preprint arXiv:2203.15556 Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, और Kilian Weinberger. स्टोचैस्टिक गहराई के साथ गहरे नेटवर्क। , 2016. Preprint arXiv:1603.09382 Wenlong Huang, Igor Mordatch, and Deepak Pathak. One policy to control them all: Shared modular policies for agent-agnostic control. In , pp. 4455–4464, 2020. International Conference on Machine Learning Wenlong Huang, Pieter Abbeel, Deepak Pathak, and Igor Mordatch. Language models as zero-shot planners: Extracting actionable knowledge for embodied agents. , 2022. Preprint arXiv:2201.07207 David Yu-Tung Hui, Maxime Chevalier-Boisvert, Dzmitry Bahdanau, and Yoshua Bengio. Babyai 1.1. , 2020. Preprint arXiv:2007.12770 Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, et al. Perceiver IO: A general architecture for structured inputs & outputs. , 2021. प्रीप्रिंट arXiv:2107.14795 Michael Janner, Qiyang Li, and Sergey Levine. Offline reinforcement learning as one big sequence modeling problem. , 34, 2021. तंत्रिका सूचना प्रसंस्करण प्रणाली में प्रगति Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc Le, Yun-Hsuan Sung, Zhen Li, and Tom Duerig. Scaling up visual and vision-language representation learning with noisy text supervision. In , pp. 4904–4916, 2021. मशीन सीखने के बारे में अंतरराष्ट्रीय सम्मेलन Melvin Johnson, Orhan Firat, and Roee Aharoni. Massively multilingual neural machine translation. In , pp. 3874–3884, 2019. Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, et al. Highly accurate protein structure prediction with AlphaFold. , 596(7873):583–589, 2021. Nature Lukasz Kaiser, Aidan N Gomez, Noam Shazeer, Ashish Vaswani, Niki Parmar, Llion Jones, and Jakob Uszkoreit. One model to learn them all. , 2017. Preprint arXiv:1706.05137 Anssi Kanervisto, Joonas Pussinen, and Ville Hautamäki. Benchmarking end-to-end behavioural cloning on video games. In , pp. 558–565, 2020. IEEE conference on games (CoG) Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, और Dario Amodei। , 2020. Preprint arXiv:2001.08361 Steven Kapturowski, Georg Ostrovski, John Quan, Remi Munos, and Will Dabney. Recurrent experience replay in distributed reinforcement learning. In , 2018. International Conference on Learning Representations Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik, और Geoffrey Irving। , 2021. प्रीप्रिंट arXiv:2103.14659 Nitish Shirish Keskar, Bryan McCann, Lav R Varshney, Caiming Xiong, और Richard Socher। , 2019. Preprint arXiv:1909.05858 Diederik P. Kingma और Jimmy Ba. Adam: स्टोचैस्टिक अनुकूलन के लिए एक विधि। , 2014. Preprint arXiv:1412.6980 Taku Kudo and John Richardson. SentencePiece: A simple and language independent subword tokenizer and detokenizer for neural text processing. In , Annual Meeting of the Association for Computational Linguistics pp. 66–71, 2018. Vitaly Kurin, Maximilian Igl, Tim Rocktäschel, Wendelin Boehmer, and Shimon Whiteson. My body is a cage: the role of morphology in graph-based incompatible control. , 2020. प्रीप्रिंट arXiv:2010.01856 Alex X Lee, Coline Manon Devin, Yuxiang Zhou, Thomas Lampe, Konstantinos Bousmalis, Jost Tobias Springenberg, Arunkumar Byravan, Abbas Abdolmaleki, Nimrod Gileadi, David Khosid, et al. Beyond pick-and-place: Tackling robotic stacking of diverse shapes. In , 2021. Conference on Robot Learning Alex X Lee, Coline Manon Devin, Jost Tobias Springenberg, Yuxiang Zhou, Thomas Lampe, Abbas Abdol-maleki, और Konstantinos Bousmalis. कैसे अपने रोबोट समय बिताने के लिए: दृष्टि-आधारित रोबोटिक प्रबंधन के लिए kickstarting और ऑफ़लाइन मजबूत सीखने के पुल। , 2022. Preprint arXiv:2205.03353 Shuang Li, Xavier Puig, Chris Paxton, Yilun Du, Clinton Wang, Linxi Fan, Tao Chen, De-An Huang, Ekin Akyürek, Anima Anandkumar, Jacob Andreas, Igor Mordatch, Antonio Torralba, and Yuke Zhu. Pre-trained language models for interactive decision-making. , 2022a. Preprint arXiv:2202.01771 Yujia Li, David Choi, Junyoung Chung, Nate Kushman, Julian Schrittwieser, Rémi Leblond, Tom Eccles, James Keeling, Felix Gimeno, Agustin Dal Lago, et al. Competition-level code generation with AlphaCode. , 2022b. प्रीप्रिंट arXiv:2203.07814 Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. , 2017. Preprint arXiv:1711.05101 Kenneth Marino, Mohammad Rastegari, Ali Farhadi, and Roozbeh Mottaghi. Ok-VQA: A visual question answering benchmark requiring external knowledge. In ,pp. 3195–3204, 2019. IEEE Computer Vision and Pattern Recognition Jacob Menick, Maja Trebacz, Vladimir Mikulik, John Aslanides, Francis Song, Martin Chadwick, Mia Glaese, Susannah Young, Lucy Campbell-Gillingham, Geoffrey Irving, et al. Teaching language models to support answers with verified quotes. , 2022. प्रीप्रिंट arXiv:2203.11147 Margaret Mitchell, Simone Wu, Andrew Zaldivar, Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji, and Timnit Gebru. Model cards for model reporting. In , pp. 220–229, 2019. ईमानदारी, रिपोर्टिंग और पारदर्शिता के बारे में सम्मेलन की प्रक्रियाएं Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu, Joel Veness, Marc G Bellemare, Alex Graves, Martin Riedmiller, Andreas K Fidjeland, Georg Ostrovski, et al. Human-level control through deep reinforcement learning. , 518(7540):529–533, 2015. Nature Vernon Mountcastle. An organizing principle for cerebral function: the unit module and the distributed system. , 1978. The mindful brain Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, et al. WebGPT: Browser-assisted question-answering with human feedback. 2021 में। Preprint arXiv:2112.09332 Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu. WaveNet: A generative model for raw audio. , 2016. प्रीप्रिंट arXiv:1609.03499 Pedro A Ortega, Markus Kunesch, Grégoire Delétang, Tim Genewein, Jordi Grau-Moya, Joel Veness, Jonas Buchli, Jonas Degrave, Bilal Piot, Julien Perolat, et al. Shaking the foundations: delusions in sequence models for interaction and control. , 2021. प्रीप्रिंट arXiv:2110.10819 Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. , 2022. Preprint arXiv:2203.02155 Simone Parisi, Aravind Rajeswaran, Senthil Purushwalkam, और Abhinav Gupta. नियंत्रण के लिए पूर्व प्रशिक्षित दृष्टि मॉडल की आश्चर्यजनक प्रभावशीलता। , 2022. Preprint arXiv:2203.03580 Vineel Pratap, Anuroop Sriram, Paden Tomasello, Awni Hannun, Vitaliy Liptchinsky, Gabriel Synnaeve, and Ronan Collobert. Massively multilingual ASR: 50 languages, 1 model, 1 billion parameters. , 2020. Preprint arXiv:2007.03001 Sébastien Racanière, Théophane Weber, David Reichert, Lars Buesing, Arthur Guez, Danilo Jimenez Rezende, Adrià Puigdomènech Badia, Oriol Vinyals, Nicolas Heess, Yujia Li, et al. Imagination-augmented agents for deep reinforcement learning. , 30, 2017. तंत्रिका सूचना प्रसंस्करण प्रणाली में प्रगति Jack W Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, et al. Scaling language models: Methods, analysis & insights from training gopher. 2021 में। Preprint arXiv:2112.11446 Scott Reed and Nando De Freitas. Neural programmer-interpreters. In 2016 में। International Conference on Learning Representations Machel Reid, Yutaro Yamada, and Shixiang Shane Gu. Can Wikipedia help offline reinforcement learning? , 2022. Preprint arXiv:2201.12122 स्टुअर्ट रसेल . Penguin, 2019. Andrei A Rusu, Neil C Rabinowitz, Guillaume Desjardins, Hubert Soyer, James Kirkpatrick, Koray Human compatible: Artificial intelligence and the problem of control Kavukcuoglu, Razvan Pascanu, and Raia Hadsell. Progressive neural networks. , 2016. Preprint arXiv:1606.04671 Victor Sanh, Albert Webson, Colin Raffel, Stephen Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Arun Raja, Manan Dey, M Saiful Bari, Canwen Xu, Urmish Thakker, Shanya Sharma Sharma, Eliza Szczechla, Taewoon Kim, Gunjan Chhablani, Nihal Nayak, Debajyoti Datta, Jonathan Chang, Mike Tian-Jian Jiang, Han Wang, Matteo Manica, Sheng Shen, Zheng Xin Yong, Harshit Pandey, Rachel Bawden, Thomas Wang, Trishala Neeraj, Jos Rozen, Abheesht Sharma, Andrea Santilli, Thibault Fevry, Jason Alan Fries, Ryan Teehan, Teven Le Scao, Stella Biderman, Leo Gao, Thomas Wolf, and Alexander M Rush. Multitask prompted training enables zero-shot task generalization. In , 2022. International Conference on Learning Representations Jürgen Schmidhuber. One big net for everything. , 2018. Preprint arXiv:1802.08864 Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, et al. Mastering atari, go, chess and shogi by planning with a learned model. , 588(7839):604–609, 2020. Nature Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut. Conceptual captions: A cleaned, hyper-nymed, image alt-text dataset for automatic image captioning. In , pp. 2556–2565, 2018. Annual Meeting of the Association for Computational Linguistics Noam Shazeer. Glu variants improve transformer. , 2020. Preprint arXiv::2002.05202 H Francis Song, Abbas Abdolmaleki, Jost Tobias Springenberg, Aidan Clark, Hubert Soyer, Jack W Rae, Seb Noury, Arun Ahuja, Siqi Liu, Dhruva Tirumala, et al. V-mpo: On-policy maximum a posteriori policy optimization for discrete and continuous control. In , 2020. ICLR Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, और Ruslan Salakhutdinov। , 15(56): 1929–1958, 2014. Journal of Machine Learning Research रिचर्ड सूटन - गहरी सबक , 13:12, 2019. अविश्वसनीय विचार (blog) Yuval Tassa, Yotam Doron, Alistair Muldal, Tom Erez, Yazhe Li, Diego de Las Casas, David Budden, Abbas Abdolmaleki, Josh Merel, Andrew Lefrancq, et al. DeepMind control suite. , 2018. Preprint arXiv:1801.00690 Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, et al. LaMDA: Language models for dialog applications. , 2022. Preprint arXiv:2201.08239 Emanuel Todorov, Tom Erez, और Yuval Tassa. Mujoco: मॉडल आधारित नियंत्रण के लिए एक भौतिकी इंजन। , pp. 5026–5033, 2012 International Conference on Intelligent Robots and Systems Maria Tsimpoukelli, Jacob L Menick, Serkan Cabi, SM Eslami, Oriol Vinyals, and Felix Hill. Multimodal few-shot learning with frozen language models. , pp. 200-212, 2021। Advances in Neural Information Processing Systems Saran Tunyasuvunakool, Alistair Muldal, Yotam Doron, Siqi Liu, Steven Bohez, Josh Merel, Tom Erez, Timothy Lillicrap, Nicolas Heess, and Yuval Tassa. dm_control: Software and tasks for continuous control. , 6:100022, 2020 Software Impacts Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. , 30, 2017. Advances in Neural Information Processing Systems Zirui Wang, Jiahui Yu, Adams Wei Yu, Zihang Dai, Yulia Tsvetkov, और Yuan Cao. Simvlm: कमजोर पर्यवेक्षण के साथ सरल दृश्य भाषा मॉडल पूर्व प्रशिक्षण। , 2021. Preprint arXiv:2108.10904 Ziyu Wang, Alexander Novikov, Konrad Zolna, Josh S Merel, Jost Tobias Springenberg, Scott E Reed, Bobak Shahriari, Noah Siegel, Caglar Gulcehre, Nicolas Heess, et al. Critic regularized regression. , 33:7768–7778, 2020 तंत्रिका सूचना प्रसंस्करण प्रणाली में प्रगति Jason Wei, Maarten Bosma, Vincent Y Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M Dai, and Quoc V Le. Finetuned language models are zero-shot learners. , 2021. Preprint arXiv:2109.01652 Laura Weidinger, John Mellor, Maribeth Rauh, Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng, Mia Glaese, Borja Balle, Atoosa Kasirzadeh, et al. Ethical and social risks of harm from language models. , 2021. Preprint arXiv:2112.04359 Yuxin Wu and Kaiming He. Group normalization. In , pp. 3–19, 2018. European Conference on Computer Vision Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julian, Karol Hausman, Chelsea Finn, और Sergey Levine. मेटा-वर्ल्ड: मल्टीटास्क और मेटा-बढ़ाव सीखने के लिए एक बेंचमार्क और मूल्यांकन। , pp. 1094–1100, 2020. Conference on Robot Learning Qinqing Zheng, Amy Zhang, and Aditya Grover. Online decision transformer. , 2022. Preprint arXiv:2202.05607 Konrad Zolna, Alexander Novikov, Ksenia Konyushkova, Caglar Gulcehre, Ziyu Wang, Yusuf Aytar, Misha Denil, Nando de Freitas, and Scott Reed. Offline learning from demonstrations and unlabeled experience. 2020 में। Preprint arXiv:2011.13885 Konrad Zolna, Scott Reed, Alexander Novikov, Sergio Gómez Colmenarejo, David Budden, Serkan Cabi, Misha Denil, Nando de Freitas, and Ziyu Wang. Task-relevant adversarial imitation learning. In , pp. 247–263, 2021. Conference on Robot Learning Supplementary Material एक मॉडल कार्ड We present a model card for Gato in Table 4. Table 4: We follow the framework proposed in Gato Model Card. (Mitchell et al., 2019). B Agent Data Tokenization Details In this section we provide additional details on our tokenization schemes. Our agent data is sequenced as follows: • are presented to the agent in order of time (timesteps). Episodes • in turn are presented in the following order: Timesteps (संपादित करें 1 : 1: 1: ]) are ordered lexicographically by key, each item is sequenced as follows: – Observations y k, x जी, जी n ∗ Text tokens ( 1: ) कच्चे इनपुट पाठ के समान क्रम में हैं। y k ∗ चित्र पैच टोकन ( 1 : (Raster Order में हैं। x m ∗ Tensors ( 1: ) (such as discrete and continuous observations) are in row-major order. z n – (' '); a designated separator token is provided after observations. Separator | – ( 1: ) are tokenized as discrete or continuous values and in row-major order. Actions a A A full sequence of tokens is thus given as the concatenation of data from T timesteps: जहां L = T(k + m + n + 1 + A) टोकनों की कुल संख्या है। Each floating point element of tensors in the observation sequence is mu-law companded as in WaveNet (संपादित करें et al., 2016): with parameters µ = 100 and M = 256. (If the floating-point tensor is in the action set, we do not need to compand the elements in the sequence because actions are only defined in the range \[ 1, 1\] for all our environments.) All the elements are subsequently clipped so that they fall in the set \[ 1, 1\]. Finally, they are discretized using bins of uniform width on the domain \[ 1,1\]. We use 1024 bins and shift the resulting integers so they are not overlapping with the ones used for text tokens. The tokenized result is therefore a sequence of integers within the range of \[32000, 33024). See Figure and Figure for visualizations of tokenizing and sequencing values (both discrete and con-tinuous) and images. See Section for details about local position encodings referenced in the figures. 14 15 C C Model Architecture C.1 ट्रांसफर हाइपरपैरामीटर Gato के ट्रांसफर हाइपरपैरामीटर तालिका में प्रस्तुत किए गए हैं हम अनुभाग में उपयोग किए गए छोटे आर्किटेक्चर संस्करणों के हाइपरपैरामीटरों को भी सूचीबद्ध करते हैं 5. 5. C.2 इनपुट फ़ंक्शन ResNet ब्लॉक v2 वास्तुकला का उपयोग करता है contains GroupNorm with 32 groups instead of LayerNorm and GELU activation functions instead of RELU. The block is diagrammed in Figure (He et al., 2016b), (Wu & He, 2018) (Ba et al., 2016 में, (Hendrycks & Gimpel, 2016) 16. C.3 Position Encodings After tokens are mapped into token embeddings, two position encodings are added to the token embeddings (when applicable) to provide temporal and spatial information to the model. These are described below. Patch Position Encodings These position encodings convey information about a patch’s global position within the image from which the patch was extracted. First, the relative row and column intervals of the patch are calculated by normalizing the patch’s pixel intervals by the image resolution. The row and column normalized intervals are then quantized into a vocabulary size (we use 128) and are used to index a row and column table of learnable position encodings. The method in which the quantized row and column intervals are converted into indices depends on whether we are training or evaluating the model: during training a random index is uniformly sampled from the quantized interval, while during evaluation we deterministically take the (rounded) mean of the interval. Once row and column position encoding are retrieved from the embedding table, they are added onto the token embedding produced by the resnet embedding function, as described previously. इस प्रक्रिया को अधिक व्यावहारिक रूप से प्रदर्शित करने के लिए, हम छवि [17.](#_bookmark144) में एक उदाहरण प्रदान करते हैं। हम नीचे दिए गए आंकड़े के बाईं ओर लाल रूप से उजागर किए गए पैच के साथ प्रक्रिया का पालन करेंगे। छवि 80 64 का संकल्प है और प्रत्येक पैच 16 16 है, जिसका अर्थ है कि कुल 5 4 = 20 पैच हैं। उजागर किए गए पैच पिक्सेल पंक्ति अंतराल \[16*,* 32\] और पिक्सेल स्तंभ अंतराल \[32*,* 64\] में शुरू होते हैं। सामान्य रूप से, पंक्ति अंतराल इसलिए \[0*25*,* 0*.*5\] होता है और कॉलम अंतराल \[0*.*4*,* 0*.*6\] होता है। फिर हम अलग से अंतराल को Local Observation Position Encodings The local observation position encoding adds positional information about where observation tokens are positioned within the local time-step they were an element of. First, we reiterate that, during tokenization, for each time-step all elements of the observation set are tokenized into sequences and concatenated into an observation sequence. Each token in this observation sequence is given an index which corresponds to the sequence order, i.e. the first token is 0 and the last is the length of the observation sequence minus one. After embedding, for any tokens that were a part of an observation set, the corresponding observation token index is used to index an embedding table of learnable position encodings, with one embedding for every possible observation token index (in practice we simply set the table size to a large value like 512). / The position encoding is then added onto the observation token embedding to produce the final token embedding. Note that all action tokens are given the same position encoding regardless of their position in the time-step sequence. We illustrate an example of this process in Figure 18. D. प्रारंभिक प्रशिक्षण सभी मॉडल के लिए हम AdamW का उपयोग करते हैं optimizer with a linear warm-up and cosine schedule decay. The linear warmup lasts for 15*,* 000 steps, starting from a learning rate of 1e-7 and ending at a different maximum learning rate depending on the model (see Table This learning rate is then cosine decayed by a factor 10x over 1,000,000 steps. The AdamW optimizer has parameters 1 = 0*. 2 = 0.*95 and = 1e-8. We use a batch size of 512 and a sequence length of 1024 tokens for all models. Optimizer: (Loshchilov & Hutter, 2017) 6 ) β 9, β ϵ हम एक AdamW वजन विघटन पैरामीटर के साथ प्रशिक्षित करते हैं 0.1. इसके अलावा, हम स्टोकैस्टिक गहराई का उपयोग करते हैं during pretraining, where each of the transformer sub-layers (i.e. each Multi-Head Attention and Dense Feedforward layer) is skipped with a probability of 0.1. Regularization: (उत्पत्ति और एल। 2016) Fine-tuning सेटअप सभी मॉडल के लिए हम एडम का उपयोग करते हैं 1e-5 के निरंतर सीखने की दर के साथ अनुकूलक। 1 = 0 2 = 0.*95 and = 1e-8. हम सभी मॉडल के लिए 64 बैच आकार और 1024 टोकन की अनुक्रम लंबाई का उपयोग करते हैं। Optimizer: (Kingma & Ba, 2014) β 9 वी ϵ हम dropout का उपयोग करते हैं with a rate of 0.1. Regularization: (Srivastava et al., 2014) हम हर 100 सीखने के चरणों में एजेंट का मूल्यांकन करते हैं। प्रत्येक मूल्यांकन एक निश्चित नियंत्रण बिंदु के 10 रनों का औसत रिपोर्ट करता है। 5 ऐसे स्कोरों का चलने वाला औसत गणना किया जाता है (एक साथ 50 रनों को इकट्ठा करने के लिए)। Evaluation: हमने अन्य कार्यों के लिए समान तरीके से सटीक ट्यूनिंग कार्यों के लिए डेटा उत्पन्न किया (अधिक जानकारी के लिए अनुभाग 3.1 देखें)। एक सटीक ट्यूनिंग कार्य के लिए सभी डेटा का उपयोग करने के बजाय, हमने 2000 सर्वश्रेष्ठ एपिसोड को छोड़ दिया (जो उच्चतम रिटर्न तक पहुंचाता है)। सटीक ट्यूनिंग डेटा सेटों को निम्नलिखित तरीके से बनाया गया था। हमने यादृच्छिक रूप से 1000 एपिसोड (दो हजार से पहले चयनित एपिसोडों में से) लिया, फिर 100 एपिसोडों का एक उपसेट चयनित एपिसोडों से, फिर 10, 5, 3, और अंत में एक एपिसोड। हमने इस प्रक्रिया को 3 बार दोहराया ताकि प्रत्येक कार्य के लिए 3 श्रृंख एक अलग बिंदु के रूप में Datasets: 5.2 We have not altered any of the tasks and used their canonical versions. As 3 out of 4 tasks are open sourced, they do not need further explanation. For the fourth task, DMLab order_of_apples_forage_simple, the goal is to collect apples in the right order, green ones first followed by the gold one. Task settings: F Data Collection Details F.1 Atari We collect two separate sets of Atari environments. The first (that we refer to as ALE Atari) consists of 51 canonical games from the Arcade Learning Environment The second (that we refer to as ALE Atari Extended) is a set of alternative games उनके गेम मोड और कठिनाई को हर एपिसोड की शुरुआत में यादृच्छिक रूप से सेट किया जाता है। (Bellemare et al., 2013). 3 For each environment in these sets we collect data by training a Muesli agent for 200M total environment steps. We record approximately 20,000 random episodes generated by the agent during training. (शैली और एल। 2021) F2 सोकोबान Sokoban is a planning problem in which the agent has to push boxes to target locations. Some of the moves are irreversible and consequently mistakes can render the puzzle unsolvable. Planning ahead of time is therefore necessary to succeed at this puzzle. We use a Muesli प्रशिक्षण डेटा एकत्र करने के लिए एजेंट। (शरीर और एल। 2017 में, (Hessel et al., 2021) F3 बेबीए BabyAI is a gridworld environment whose levels consist of instruction-following tasks that are described by a synthetic language. We generate data for these levels with the built-in BabyAI bot. The bot has access to extra information which is used to execute optimal solutions, see Section C in the appendix of for more details about the bot. We collect 100,000 episodes for each level. (शब्दों के रूप में, 2018 में F.4 DeepMind नियंत्रण Suite DeepMind नियंत्रण Suite (T) . , यह भौतिकी-आधारित सिमुलेशन वातावरणों का एक सेट है. नियंत्रण सेट में प्रत्येक कार्य के लिए हम डेटा के दो डिजॉयंट सेट एकत्र करते हैं, एक केवल राज्य विशेषताओं का उपयोग करते हैं और दूसरा केवल पिक्सल का उपयोग करते हैं. हम एक D4PG का उपयोग करते हैं राज्य विशेषताओं के साथ कार्यों से डेटा एकत्र करने के लिए एजेंट, और एक एमपीओ पिक्सेल का उपयोग करके डेटा एकत्र करने के लिए आधारित एजेंट। इमाम अलैहिस्सलाम et al 2020 में; टैक्स और एल। 2018 में (Barth-Maron और एल, 2018 में (Abdolmaleki et al., 2018 में हम एक D4PG एजेंट के साथ नियंत्रण श्रृंखला कार्यों के यादृच्छिक संस्करणों के लिए डेटा भी एकत्र करते हैं. इन संस्करणों को यादृच्छिक रूप से एक्ट्यूटर गियर, संयुक्त रेंज, कठोरता, और डंपिंग, और भूम आकार और घनत्व है. यादृच्छिक संस्करणों के लिए दो कठिनाई सेटिंग हैं. छोटे सेटिंग्स अंतरालों के संघ से नमूना किए गए एक यादृच्छिक संख्या द्वारा मानों को स्केल करते हैं [0*। 0 0 0 [१] ,* 1*. . 0 0 0 [१] , * 1 * * 4। 9 95) 05 1]. बड़े सेटिंग्स अंतरालों के गठबंधन से नमूना किए गए एक यादृच्छिक संख्या द्वारा मूल्यों को स्केल करते हैं [0 6 8] ∪ 2 F.5 DeepMind Lab DeepMind प्रयोगशाला , यह एक प्रथम व्यक्ति 3 डी वातावरण है जो एजेंटों को एक स्वार्थी दृष्टिकोण, नेविगेशन और योजना के साथ कच्चे पिक्सेल इनपुट से 3 डी दृष्टि सिखाने के लिए डिज़ाइन किया गया है। (Beattie et al. 2016 में We trained an IMPALA एजेंट संयुक्त रूप से 18 माता-पिता डीएम लैब स्तरों के एक सेट पर काम करते हैं जो प्रत्येक नए एपिसोड के लिए प्रक्रियात्मक रूप से नक्शे उत्पन्न करते हैं. डेटा को इन 18 स्तरों पर एजेंट को निष्पादित करके एकत्र किया गया था, साथ ही एक अतिरिक्त 237 स्तरों का एक सेट हाथ से बनाया गया था ताकि एक विविध कौशल सेट का परीक्षण किया जा सके. (उत्पादक और एल। 2018) The 18 parent levels are characterized by high diversity of generated maps. The difference between the levels is rooted in hyper-parameters used in a generation process. These hyper-parameters control high-level characteristics such as types of structures spawned, difficulty of language instructions, or presence of specific tools. The parent levels were developed to improve performance of RL agents trained online on them. In contrast to the parent levels, each of the additional handcrafted 237 levels uses almost the same map, and the main differences between instances of the same level map are aesthetics such as colors of walls or lighting conditions. The maps are procedurally generated and were designed to test a diverse set of skills such as walking up stairs or using specific tools. They are similar to levels presented in Figure 3, Figure 7 and Figure 8 in aforementioned paper by नहीं बेल्जियम और एल। (2016 में) Additional information on the 18 parent levels (and their relation to the other levels) is presnted in details in the NeurIPS Workshop talk by Daniel Tanis . A Methodology for RL Environment Research 4 In total, we collected data for 255 levels from the DeepMind Lab (18 parent levels and 237 handcrafted levels), 254 of which were used while training Gato. The remaining level was used for out of distribution evaluation. F6 Procgen बेंचमार्क Procgen यह 16 प्रक्रियात्मक रूप से उत्पन्न एटारिया जैसी वातावरणों का एक सेट है, जिसे संवर्धन सीखने में नमूने दक्षता और सामान्यीकरण की तुलना करने के लिए प्रस्तावित किया गया था. डेटा संग्रह R2D2 प्रशिक्षण के दौरान किया गया था agent on each of the environments. We used the hard difficulty setting for all environments except for maze and heist, which we set to easy. (Cobbe और एल, 2020 में (Kapturowski et al., 2018 में F.7 मॉड्यूलर आरएल मॉड्यूलर RL MuJoCo का एक संग्रह है (T आधारित निरंतर नियंत्रण वातावरण, ओपनएआई जिम के तीन सेटों के रूपों से बना Walker2d-v2, Humanoid-v2, and Hopper-v2. Each variant is a morphological modification of the original body: the set of morphologies is generated by enumerating all possible subsets of limbs, and keeping only those sets that a) contain the torso, and b) still form a connected graph. This results in a set of variants with different input and output sizes, as well as different dynamics than the original morphologies. We collected data by training a single morphology-specific D4PG agent on each variant for a total of 140M actor steps, this was done for 30 random seeds per variant. (उत्पत्ति और एल। 2020 में गीता और एल। 2012 में) (बॉकमैन और एल। 2016) F.8 DeepMind Manipulation Playground DeepMind Manipulation खेल का मैदान यह MuJoCo आधारित सिमुलेटेड रोबोट कार्यों की एक श्रृंखला है. हम एक महत्वपूर्ण-नियंत्रित पुनरावृत्ति एजेंट (CRR) का उपयोग करके 4 जैको कार्यों के लिए डेटा एकत्र करते हैं (बॉक्स, स्टैक बैनाना, इंसेक्शन, और स्लाइड) trained from images on human demonstrations. The collected data includes the MuJoCo physics state, which is we use for training and evaluating Gato. (Zolna et al., 2021 में (उत्पादक और एल। 2020) F.9 मेटा-वर्ल्ड Meta-World (Y पर्यावरण का एक समूह है for benchmarking meta-reinforcement learning and multi-task learning. We collect data from all train and test tasks in the MT50 mode by training a MPO agent असीमित पर्यावरण बीज के साथ और MuJoCo भौतिकी इंजन की स्थिति तक पहुंच के साथ. एकत्र डेटा में MuJoCo भौतिकी इंजन की स्थिति भी शामिल है. आप और एल। 2020 में 5 (अब्दुलमलेक और एल। 2018) G वास्तविक रोबोटिक मूल्यांकन विवरण In the real world, control is asynchronous; physics does not wait for computations to finish. Thus, inference latency is a concern for evaluating a large model for real world tasks. In robotics, a fast control rate is thought to be critical for reacting to dynamic phenomena. The robot setup for RGB stacking has a 20Hz control rate (0.05 second timestep) by design. In order to reach an acceptable margin of latency, we modified inference at evaluation time by shortening the context length to 1. We also implemented a parallel sampling scheme where all the action tokens are zeroed out in the input sequences during training so we can sample all tokens corresponding to a robot action in a single model inference step instead of autoregressively as it’s done in other domains. We found that the 1.18B parameter model was able to run on the hardware accelerators in our robots (NVidia GeForce RTX 3090s), but still overran the 20Hz control rate by a small amount (~0.01 seconds). हम निम्नलिखित में वर्णित छोटे पुरस्कार कार्य का उपयोग करते हैं डेटा फ़िल्टरिंग के लिए. हम केवल ट्रैक्चर का चयन करते हैं task success; that is, a sparse reward of 1 on the final timestep. Lee et al. (2021) अंतिम H Skill Mastery आर्किटेक्चर Skill Mastery benchmark के लिए रिपोर्ट किए गए संख्याओं को एक मॉडल शून्य शॉट के संचालन के माध्यम से एकत्र किया गया था जो गेटो आर्किटेक्चर के एक पुराने संस्करण का उपयोग करता था। रिसेनेट पैच एम्बेडिंग के बजाय, एक स्थानीय ट्रांसफार्मर का उपयोग करके एक समान आर्किटेक्चर को छवि पैच टोकन को एम्बेड करने के लिए इस्तेमाल किया गया था। स्थानीय स्थिति एम्बेडिंग और पैच स्थिति एम्बेडिंग का उपयोग नहीं किया गया था. इन परिवर्तनों को लागू किया गया था और प्री-ट्रेनिंग डेटा को बदलने के बाद गेटो के प्रदर्शन को बेहतर बनाने के लिए पाया गया था (जैसा कि हमने Skill Mastery चुनौती के बजाय Skill Generalization पर ध्यान केंद्र I अतिरिक्त रोबोटिक ablations हमने रोबोटिक्स क्षेत्र में विविध पूर्व प्रशिक्षण डेटा के प्रभाव को बेहतर ढंग से समझने के लिए सिमुलेशन में एक श्रृंखला के एब्लाशन का संचालन किया (चित्र देखें) हमने सेक्शन में एक ही आधारलाइन शामिल किया selecting the 364M parameter size variant, as well as an additional baseline trained with control suite data only. The DM Control-only agent is superior to the base Gato at zero-shot transfer and with a lot of fine-tuning data, suggesting that Gato may not be using the representations learned from the text-based datasets when adapting to robotics tasks. The same domain only agent performs the best overall, matching the CRR baseline at 1 fine-tuning episode and outperforming it with more data, suggesting that Gato at current scale can trade its generalization capacity for data-efficient and effective few-shot adaptation. 19) 5.2 में J दृष्टिकोण देखभाल अतः हमने यह भी कहा है कि अल्पसंख्यक के लिए, अल्पसंख्यक के लिए, अल्पसंख्यक के लिए, अल्पसंख्यक के लिए ( ) कहां सिरों की संख्या और एक अनुक्रम में टोकन की संख्या है। ) इस मैट्रिक्स का प्रवेश उस राशि के रूप में व्याख्या किया जा सकता है जो सिर attends to token टोकन से गेटो की छवि Tokenization योजना के कारण, प्रत्येक टाइमस्टेप में कई टोकन होते हैं. इसलिए किसी विशेष टाइमस्टेप के लिए ध्यान आकर्षित करने के लिए, हमने उस टाइमस्टेप के अनुरूप उप-मैट्रिक्स लिया. हमने फिर इस मैट्रिक्स के पंक्तियों पर एक softmax लागू किया ताकि प्रासंगिक मूल्यों को सामान्य किया जा सके. चूंकि हम केवल पिछले टोकनों पर ध्यान देने में रुचि रखते हैं, इसलिए हमने इसे softmax से पहले नकारात्मक अंत तक सेट करके डायग्नल को बाहर कर दिया. ए, टी, टी H T h, i, j h j i प्रत्येक पैच के महत्व को मापने के लिए, हमने संबंधित कॉलम पर ध्यान के वजन को औसत किया. चूंकि गेटो एक कारण परिवर्तनक का उपयोग करता है, इसलिए ध्यान मैट्रिक्स कम त्रिकोण है, इसलिए औसत को केवल मैट्रिक्स के व्यायाम के नीचे उप-कॉलम पर विचार किया गया था. यह पूरे समय के दौरान विशिष्ट पैच के लिए भुगतान की औसत ध्यान के अनुरूप है. इस विधि का उपयोग करते हुए, हमने पहला परत में ध्यान के नक्शे को सबसे अधिक व्याख्या योग्य पाया, जो खोजों के साथ सहमत हैं कुछ हेड्स स्पष्ट रूप से छवि के कार्य विशिष्ट इकाइयों और क्षेत्रों को ट्रैक करते हैं। कई कार्यों के लिए पहला परत में मैन्युअल रूप से चयनित सिरों के लिए ध्यान नक्शे दिखाता है। Abnar और Zuidema (2020 में) 20 K Detailed results for specialist Meta-World agent विशेषज्ञ मेटा-वर्ल्ड एजेंट अनुभाग में वर्णित सभी 50 मेटा-वर्ल्ड कार्यों में 96.6% की सफलता दर हासिल की जाती है। हमने प्रत्येक कार्य के लिए एजेंट को 500 बार मूल्यांकन किया। 5.5 7. Gato के लिए Per-domain परिणाम हम अनुकरण नियंत्रण कार्यों के लिए Gato के प्रदर्शन का वर्णन करते हैं अनुभाग में मेज पर हमने प्रत्येक कार्य के लिए एजेंट 50 बार मूल्यांकन किया। 4.1 8 , यह लेख CC by 4.0 Deed (Attribution 4.0 International) लाइसेंस के तहत archiv पर उपलब्ध है। यह कागज है under CC by 4.0 Deed (Attribution 4.0 International) license. Archive पर उपलब्ध