著者: Scott Reed Konrad Żołna Emilio Parisotto Sergio Gómez Colmenarejo Alexander Novikov Gabriel Barth-Maron Mai Giménez Yury Sulsky Jackie Kay Jost Tobias Springenberg Tom Eccles Jake Bruce Ali Razavi Ashley Edwards Nicolas Heess Yutian Chen Raia Hadsell Oriol Vinyals Mahyar Bordbar Nando de Freitas 著者: スコット・リード コンラッド・ジョルナ Emilio Parisotto セルジオ・ゴメス・コルメネレヨ アレクサンダー・ノヴィコフ ガブリエル・バルト・マロン ジムネス ユリ・スルスキー ジャッキー・ケイ ジョスト・トビアス・スプリンゲンベルク トム・エクルス ジェイク・ブルース アリ・ラザヴィ アシュリー・エドワーズ ニコラス・ヒース ユティアン・チェン ラヤ・ハドセル オリオール・ヴィニア マハヤール・ボードバー Nando de Freitas 抽象 大規模な言語モデリングの進歩からインスピレーションを得た私たちは、テキスト出力の領域を超えて単一の一般的なエージェントを構築するための類似のアプローチを適用します。エージェントは、我々がGatoと呼ぶ、マルチモダル、マルチタスク、マルチエンボディメントの一般的なポリシーとして機能します。同じ重量を持つ同一のネットワークは、Atariをプレイすることができます、タイトル画像、チャット、本物のロボットの腕を使用してブロックを積み重ね、その文脈に基づいてテキスト、関連トルク、ボタンを押すかどうかを決定します。このレポートでは、モデルとデータを説明し、Gatoの現在の能力を文書化します。 1 導入 すべてのタスクで単一のニューラル シーケンス モデルを使用することに大きな利点があります。 それは、各ドメインのための適切な誘導偏見を備えた手作業のポリシー モデルの必要性を減らします。 それは、シーケンス モデルがフラット シーケンスにシリアル化できるあらゆるデータを摂取できるので、トレーニング データの量と多様性を増加させます。 歴史的には、コンピューティングをよりよく活用する一般的なモデルも、より専門的なドメイン特有のアプローチを上回る傾向にあります。 結局 (キャプテン et al. ) 2020年、 Hoffmann et al., 2022年) スートン、 2019年) この論文では、我々がGatoと呼ぶ一般的な目的のエージェントの現在のイテレーションを、単一の大規模なトランスフォーマーシーケンスモデルとしてインスタンス化して説明します。単一の重量セットで、Gatoは対話、タイトル画像、本物のロボットの腕でブロックを積み重ね、Atariのゲームをプレイする上で人間を上回り、シミュレーションされた3D環境でナビゲートし、指示に従うことができます。 どんなエージェントも、特にその訓練分布の範囲をはるかに超えるすべての考えられるコントロールタスクで優れているとは期待できないが、我々はここで、一般的に訓練能力のあるエージェントを訓練するという仮説をテストする。 私たちは、そのようなエージェントは、データ、計算およびモデルパラメータをスケーリングすることによって、継続的にトレーニングの配布を拡大し、パフォーマンスを維持しながら、任意のタスク、行動および興味のある実装をカバーする方向に適応することができると仮定します。 大数 私たちは、現在Gatoの場合、リアルタイムのロボットの制御を可能にするモデルスケールのオペレーティングポイントにトレーニングを集中させます 1.2Bパラメータの範囲内です。ハードウェアとモデルアーキテクチャが向上するにつれて、このオペレーティングポイントは、実行可能なモデルサイズを自然に増加させ、一般的なモデルをスケーリング法則曲線の上に押し上げます。 2 モデル Gatoのガイドデザインの原則は、画像、テキスト、プロピオセプション、関連トークン、ボタンプレッシャー、その他の分離的かつ継続的な観察およびアクションなどの多様な形態を含む、可能な限り多様な関連データをトレーニングすることです。この多様なデータの処理を可能にするために、我々はすべてのデータをトークンの平らなシーケンスにシリアル化します。この表現では、Gatoは標準的な大規模な言語モデルに似たようにトレーニングおよびサンプル化することができます。展開中に、サンプルトークンは対話応答、サンプル、ボタンプレッシャー、またはその他のアクションに組み合わされます。次のサブセクションでは、Gatoのトーク 2.1 トークン化 データをトークンに変換する方法は無限にあり、原始バイトストリームを直接使用することを含む。下に、現代のハードウェアおよびモデルアーキテクチャを使用してGatoのための最高の結果を生み出すために見つけたトークニズムを報告します。 Text is encoded via SentencePiece with 32000 subwords into the integer range [0, 32000). (Kudo & Richardson, 2018) 画像はまず、ViT (Dosovitskiy et al., 2020) で行われたように、ラスター順に 16 16 個のパッチが重複しない順序に変換されます。 画像 __p__atches の各ピクセルは、その後 [−1*,* 1] で正常化され、パッチサイズの平方根によって分けられます(すなわち √16 = 4)。 Discrete values, e.g. Atari button presses, are flattened into sequences of integers in row-major order. The tokenized result is a sequence of integers within the range of [0*,* 1024). Continuous values, e.g. proprioceptive inputs or joint torques, are first flattened into sequences of floating point values in row-major order. The values are mu-law encoded to the range [ 1*,* 1] if not already there (see Figure 14 for details), then discretized to 1024 uniform bins. The discrete integers are then shifted to the range of [32000*,* 33024]. データをトークンに変換した後、私たちは次のカノニカルセクションの順序を用います。 テキストトークンは、原始入力テキストと同じ順序で入力されます。 画像パッチトークンはラスター順に。 Tensors in row-major order. キーによるレクシコグラフィカル順に組み込まれた構造 エージェントのタイムステップは、観察トークンとして、それから分離器、そしてアクショントークンに続きます。 エピソードはタイムステップとして トークン化エージェントデータの詳細は、補足資料(セクション)に記載されています。 B) 2.2 入力トークンの組み込みと出力目標の設定 トークン化とセクエンシングの後、我々は、各トークンにパラメーター化された埋め込み機能 *f* ( ; *θe*) を適用します(すなわち、それは観察とアクションの両方に適用されます)最終モデル入力を生成するために。 • テキスト、ディスクまたは継続的に評価された観察や行動に属するトークンは、検索テーブルを通じて学習ベクター埋め込みスペースに埋め込まれます。 • 任意のタイムステップの画像パッチに属するトークンは、単一の ResNet を使用して埋め込まれます。 image patch token embeddings の場合、 we also add a learable within-image position encoding vector. 画像パッチのトークン埋め込みの場合、私たちはまた、学習可能なイメージ内の位置エンコーディングベクターを追加します。 (彼等は、 2016年(A) Appendix Section を参照 関連機能の詳細を参照。 C3 データを自動回帰的にモデル化すると、それぞれのトークンは、以前のトークンに基づいて潜在的にターゲットラベルでもあります。 テキストトークン、分散的および継続的な値、およびアクションは、トークン化後のターゲットとして直接設定することができます。 画像トークンおよびエージェント非テキスト観測は、現在Gatoでは予測されていませんが、将来の作業のための興味深い方向性かもしれません。 これらの未予測トークンのターゲットは未使用の値に設定され、その損失への貢献は隠蔽されます。 2.3 トレーニング A Sequence of Tokens(トークンの順序) 1 : パラメータ , we model the data using the chain rule of probability: チェーンルールを用いてデータをモデル化します。 s L θ ライト index a training batch of sequences. We define a masking function *m* such that *m*(*b, l*) = 1 if the token at index *l* is either from text or from the logged action of an agent, and 0 otherwise. The training loss for a batch *B* can then be written as b 上記のように、Gatoのネットワークアーキテクチャには2つの主なコンポーネントがあります: トークンをトークン埋め込みに変換するパラメーテリズム化された埋め込み機能と、次の分散トークンの配布を生成するシーケンスモデル。 シンプルさとスケーラビリティのために、Gato は 24 レイヤーの 1.2B パラメータデコードのみ変換器、2048 の埋め込みサイズ、8196 の注意の後のフィードフォアの隠れたサイズを使用します(詳細はセクションにあります。 アスワン et al. 2017年(日) C1 ) Because distinct tasks within a domain can share identical embodiments, observation formats and action specifications, the model sometimes needs further context to disambiguate tasks. Rather than providing e.g. one-hot task identifiers, we instead take inspiration from トレーニング中に、各バッチの25%のシーケンスのために、同じタスクで同じソースエージェントによって生成されたエピソードから来るスンプトシーケンスがプレペンドされます。スンプトシーケンスの半分はエピソードの終わりから来て、多くのドメインのゴールの条件として機能し、他の半分はエピソードから均一にサンプルされます。評価中に、エージェントは、我々がここで提示するすべての制御結果でデフォルトで行う望ましいタスクの成功のデモを使用して誘導することができます。 (サンフランク et al. ) 2022年、 ワイとアル。 2021年、 ブラウン et al. 2020年) モデルのトレーニングは、バッチサイズ512とトークンシーケンス長の1Mステップの16x16 TPU v3スライスで行われる。 = 1024,約4日かかります. 建築の詳細はセクションでご覧いただけます。 エージェントエピソードやドキュメントには、文脈に適合するよりも多くのトークンが簡単に含まれるため、我々はランダムに次元のサンプルを採取します。 利用可能なエピソードからのトークン. Each batch mixes subsequences approximately uniformly over domains (e.g. Atari, MassiveWeb, etc.), with some manual upweighting of larger and higher quality datasets (see Table) セクション 詳細については)。 L Cです。 L 1 3 2.4 展開 ポリシーとしての猫の展開は、図で示されています。 最初に、デモのようなプロンプトはトークン化され、初期のセクションを形成します。デフォルトでは、デモの最初の1024トークンを取ります。次に、環境は、トークン化され、セクションに付属する最初の観察を生成します。Gatoは、アクションベクターを一度に1つのトークンを自動回帰的にサンプル化します。アクションベクターを含むすべてのトークンをサンプル化した後(環境のアクション仕様によって決定されます)、アクションはセクションで説明されたトークン化手順を逆転して解読されます。 このアクションは、段階を踏み出して新しい観察を生み出す環境に送信されます。手順は繰り返されます。 モデルは、1024トークンの文脈ウィンドウで常に以前の観察とアクションをすべて見ます。 3. 2.1位 (デイ et al. ) 2019年) 3 データ Gato は、シミュレートおよび現実世界の両方の環境におけるエージェントの経験を含む多数のデータセットについてトレーニングを受け、さまざまな自然言語および画像のデータセットについてもトレーニングを受けています。 コントロールデータセットあたりの約トークンの数は、セクションで説明されたトークニケーションメカニズムを仮定して計算されます。 1. 2.1位 3.1 シミュレートコントロールタスク 私たちのコントロールタスクは、さまざまな環境で訓練された専門のSoTAまたは近くのSoTA強化学習エージェントによって生成されたデータセットで構成されています。 シミュレート環境にはMeta-World(Y)が含まれます。 ベンチマークメタ強化学習とマルチタスク学習、Sokoban 計画の問題として提案されたBabyAI グリッドワールドでの言語指導のためのDM Control Suite(T) for continuous control, as well as DM Lab エージェントのナビゲーションと3Dビジョンをエゴ中心的な視点を持つ原始ピクセルから教えるように設計されています。 古典的なアタリゲーム(ALE Atari と ALE Atari Extended と呼ばれる2つのゲームセットを使用します。 詳細については)。 あなたとアル、 2020年) (カラオケ et al. ) 2017年(日) (シェヴァリエ・ボイスヴェルツ et al. ) (2018年) まさか、おまけに、 2020) (Beattie et al. ) 2016年(日) (バレンタインとその他) 2013年) F1 また、Procgen Benchmarkも含まれています。 モジュールRL また、DM Manipulation PlaygroundからシミュレートされたKinova Jaco腕を使用した4つのタスクも含まれています。 セクション これらのコントロールタスクの詳細な説明と、どの RL エージェントがデータを生成するために使用されたかを含む。 (COBBE et al. ) 2020年) (ハンガー et al. ) 2020年) ジョンナ et al. (2020年) F エピソードをフィルターしたセットでトレーニングすることにより、タスクのエキスパートのレターンの少なくとも80%を返すことが効果的であることが判明しました。エキスパートのレターンは、エキスパートのエージェントが達成できる最大の継続的なパフォーマンスを測定します。 どこ それは、タスクのために収集されたエピソードの合計数、 窓の大きさ、そして、 is the total return for エピソード 正確な評価を得るために、実際には、私たちは データの総量の10%または最低1000エピソード(すなわち = ミン(1000*,* 0*.*1 )です。 N W リ i W W × N 3.2 ビジョンと言語 Gato は MassiveText でトレーニングされています。 複数のソースからの大規模な英語のテキストデータセットのコレクション:ウェブページ、本、ニュース記事、コード。 (Rae et al. ) 2021年) また、Gatoのトレーニングにいくつかのビジョン言語データセットも含めました。 LTIP(Long Text & Image Pairs)は、3億1200万枚の画像で構成されています。 で、 Conceptual captions 「COCO CAPTIONS」 で、 3.3Mおよび120kの画像テキストカップルを含むデータセットをタイトル化しています。 ・・・、、 テキストと画像の両方を抽出した43Mのウェブページを含み、視覚的な質問回答データセットも含みました。 「VQAV2」 9Kと443Kの画像、質問、答えのトリプルでこれらからトレーニングエピソードを作成するには、5つの(画像、テキスト)カップルをサンプル、トークニズム、コンカテネート、そしてパッドまたはランダムに必要なトレーニングセクションの長さに収穫します。 (JIA et al. ) 2021) (アレクサンダー et al. 2022年) (Sharma et al. ) 2018) (チャン・エル) 2015年) (アレクサンダー et al 2022年) (海洋) アルは、 2019年) (Antol et al., 2015年) 3.3 Robotics - RGB Stacking Benchmark (real and sim) 実際の世界で物理的な行動を起こすためのデータベッドとして、私たちは [Lee et al.](#_bookmark89) [(2021)。](#_bookmark89) によって導入されたロボットブロックの積み重ね環境を選択しました。(#_bookmark89) 環境は、3 DoF カルテシアン速度制御、速度のための追加のDoF、および差別的なグリッパーアクションのためのソーヤーロボットの腕で構成されています。ロボットの作業スペースには、異なる形状の赤、緑、青の色の3つのプラスチックブロックが含まれています。利用可能な観測には、128128カメラ画像、ロボットの腕とグリッパーの関連角度、およびロボットのエンド Skill Generalization では、シミュレーションとリアル両方のために、私たちは最高の generalist sim2real エージェントによって収集されたデータを使用します。 当社は、指定されたRGBストッキングと相互作用するときにのみデータを収集しました。 (これはシミュレーションにおける合計387kの成功軌道と現実における15kの軌道に相当します)。 シミュレーションおよび現実のロボット上で最高の sim2real ポリシーから(合計で 219k 軌道まで)。 Lee et al. (2021年) training objects リー et al. (2021) 5.4位 4 エージェントの能力 このセクションでは、上記のデータに基づいてトレーニングされたGatoのパフォーマンスを概要します。すなわち、すべてのタスクのすべての結果は、単一の重量セットを持つ単一のプレトレーニングモデルから得られています。 5. 4.1 Simulated control tasks 図形 Gatoが特定のスコア値を上回る異なるコントロールタスクの数を示し、Gatoのトレーニングデータで示された専門家のパフォーマンスに比べて表示します。 5 私たちはパフォーマンスをパーセントとして報告し、100%はタスク専門家と0%はランダムポリシーです。私たちがモデルを訓練したシミュレートコントロールタスクごとに、Gatoポリシーを適切な環境で50倍、定義されたスコアを平均します。 Gato performs over 450 out of 604 tasks at over a 50% expert score threshold. 5、 In ALE Atari Gato achieves the average human (or better) scores for 23 Atari games , achieving over twice human score for 11 games. While the single-task online RL agents which generated the data still outperform Gato, this may be overcome by adding capacity or using offline RL training rather than purely supervised (see Section ここでは、専門の単一ドメインALEアタリエージェントを紹介し、44試合で人間のスコアを上回ります)。 (Bellemare et al., 2013) 1 5.5 On BabyAI Gato achieves over 80% of expert score for nearly all levels . For the most difficult task, called BossLevel, Gato scores 75%. The two other published baselines we could find, BabyAI 1.0 and BabyAI 1.1 で、 scored 77% and 90%, respectively, having trained on this single task alone using a million demonstrations. (シェヴァリエ・ボイスヴェルツ et al. ) 2018) 2 (Hui et al. 2020), On Meta-World (Y Gato achieves more than 50% for all 44 out of 45 tasks that we trained on, over 80% for 35 tasks, and over 90% for 3 tasks. On canonical DM Control Suite (T Gato achieves better than 50% of the expert score on 21 out of 30 tasks from state, and more than 80% for 18 tasks. u et al., 2020) エース et al. 2018), 4.2 Robotics ファースト・パーソン・テレオペレーションは、専門家のデモを収集することを可能にします。しかし、そのようなデモは収集するのに遅く、費用がかかります。データ効率的な行動クローン化方法は、一般的なロボット操作者を訓練するために望ましいので、オフラインプレトレーニングは研究の動機づけられた領域です。 Skill Generalization Performance RGB スタッキングロボット基準のスキル一般化課題は、エージェントがこれまで見たことのない形状のオブジェクトをスタッキングする能力をテストします。エージェントは、さまざまな形状のオブジェクトをスタッキングするロボットのエピソードからなるデータセットで訓練されています。しかし、オブジェクトの形状の5つのトリプルはトレーニングデータには含まれず、テストトリプルとして機能します。 shows that our generalist agent’s success rate on each test triplet is comparable to the single task BC-IMP (filtered BC) baseline in 2 Lee et al. (2021). 4.3 テキストサンプル The model demonstrates rudimentary dialogue and image captioning capabilities. Figure contains a rep-resentative sample of Gato’s image captioning performance. Figure 簡単なテキスト対話の例をいくつか示します。 6 7 5 分析 5.1 Scaling Laws Analysis In Figure we analyze the aggregate in-distribution performance of the pretrained model as a function of the number of parameters in order to get insight into how performance could improve with increased model capacity. We evaluated 3 different model sizes (measured in parameter count): a 79M model, a 364M model, and a 1.18B model (Gato). We refer to Section 3つのモデルアーキテクチャの詳細 8、 C Here, for all three model sizes we plot the normalized return as training progresses. To get this single value, for each task we calculate the performance of the model as a percentage of expert score (the same as done in Section 1) その後、テーブルに記載されている各ドメインに対して 最後に、我々はすべてのドメインで平均割合の割合を合計する。我々は、同等なトークン数の場合、規模の増加とともにパフォーマンスの大幅な改善があることを見ることができます。 4. 1 5.2 Out of distribution tasks In this section we want to answer the following question: For this reason, we held-out all data for four tasks from our pre-training set: cartpole.swingup (DM Control Suite domain), assembly-v2 (Meta-World domain), order_of_apples_forage_simple (DM Lab domain), and boxing (ALE Atari domain). These four tasks will serve as testbeds for evaluating the out-of-distribution capabilities of Gato. Can our agent be used to solve a completely new task efficiently? Ideally, the agent could potentially learn to adapt to a new task via conditioning on a prompt including demonstrations of desired behaviour. However, due to accelerator memory constraints and the extremely long sequence lengths of tokenized demonstrations, the maximum context length possible does not allow the agent to attend over an informative-enough context. Therefore, to adapt the agent to new tasks or behaviours, we choose to fine-tune the agent’s parameters on a limited number of demonstrations of a single task, and then evaluate the fine-tuned model’s performance in the environment. Fine-tuning is very similar to pretraining with minor changes, such as different learning rate schedule; see Section for details. E We want to measure how choice of data used during pretraining influences post-fine-tuning performance. To this end, we compare Gato (trained on ) to variants trained on ablated datasets: all data 1. A model pretrained only on data from the same domain as the task to be fine-tuned on, . same domain only data 2. A model pretrained only on non-control data, . データコントロールなし 3. A model fine-tuned from scratch, i.e. no pretraining at all, . scratch これらのすべての実験は、ゼロからの新しいモデルのトレーニングを必要とし、それからさらに細かい調節を必要としていることを考慮すると、私たちはセクションで説明された364Mパラメータアーキテクチャを使用して、より少ないコンピュータ強度の結果を提示します。 Results are shown in Figure 5.1. 9. cartpole.swingup および assembly-v2 の両方のタスクでは、画像処理を必要としませんが、類似の傾向があります。すべてのデータセットでのプレトレーニングは、同じドメインでのプレトレーニングのみに続いて、最高の結果を生み出します。この違いは assembly-v2 では小さいが、すべてのショットデータセットでは一貫しています。これらの非画像ベースの環境では、プレトレーニングでは、利益(cartpole.swingup)やネガティブな転送(assembly-v2)は見られません。 datasets, which only contain images and text data. no control Results for DM Lab order_of_apples_forage_simple are slightly different. Pretraining on DM Lab data only is already enough to approach the maximum reward of 19 and hence there is no observable benefit of adding data from different environments. What is different when compared to previously analysed no-vision environments is that pretraining on データは、DM Lab環境のエージェントがシミュレーションされているにもかかわらず、自然に見える画像を供給しているという事実によって説明される可能性があります。 no control We were not able to observe any benefit from pretraining on boxing. The randomly initialized model seems to work better than any of the pretrained variants considered. We hypothesise that this is caused by the game’s input images being visually very distinct from the other data, suggesting transfer is difficult. We discuss this Atari challenge further in our related work section. 5.3 Fine-tuning on Robotic Stacking Tasks Section demonstrates that the base Gato capable of a diverse array of tasks can perform competitively on the RGB Stacking Skill Generalization benchmark. In this section, we would like to answer the following question: *How does our agent improve on robotics tasks when allowed to fine-tune similarly to how we fine-tune on new tasks in Section *We consider different model sizes and analyse the impact of pretraining datasets on the Skill Generalization benchmark, as well as a novel out of distribution task. Further analysis of fine-tuning with dataset ablations is in Appendix 4.2 5.2? I. Skill Generalization First, we would like to show that fine-tuning on object-specific data, similarly to what was done by is beneficial. Therefore, we fine-tuned Gato separately on five subsets of demonstrations from the データセット. 各サブセットは、一般的な sim-to-real エージェントが実際のテストオブジェクトを積み重ねて集めたデモからなるテストデータセットのランダム分割によって得られた。 and use the 5k dataset that their behavior cloning 5k results are obtained with. To best match their experiments, we change our return filtering scheme during training: instead of using only successful stacks, we condition on the normalized return of the episode. Lee et al. (2022年) test (Lee et al. ) 2022); Figure compares the success rate of Gato across different fine-tuning data regimes to the sim-to-real expert and a Critic-Regularized Regression (CRR) agent trained on 35k episodes of all test triplets. Gato, in both reality and simulation (red curves on the left and right figure, respectively), recovers the expert’s performance with only 10 episodes, and peaks at 100 or 1000 episodes of fine-tuning data, where it exceeds the expert. After this point (at 5000), performance degrades slightly but does not drop far below the expert’s performance. 10 (Wang et al., 2020) Fine-tuning and Model Size To better understand the benefit of large models for few-shot adaptation in robotics domains, we conducted an ablation on model parameter size. This section focuses on in-simulation evaluation. Figure compares the full 1.18B parameter Gato with the smaller 364M and 79M parameter variants for varying amounts of fine-tuning data. Although the 364M model overfits on one episode, causing performance to drop, there is a clear trend towards better adaptation with fewer episodes as the number of parameters is scaled up. The 79M model performs clearly worse than its bigger counterparts. The results suggest that the model’s greater capacity allows the model to use representations learned from the diverse training data at test time. 10 Adaptation to Perceptual Variations While the Skill Generalization task is an effective benchmark for motor Skill Generalization to shape varia-tions, it does not test the agent’s ability to adapt to perceptual variations and permutations in the objective specification. To further evaluate Gato’s generalization capabilities, we devised a new task in the RGB stacking benchmark where the goal is to stack the blue object on the green object, for test triplet 1 (see Figure First, we used a 3D mouse to collect 500 demonstrations of this task on the real robot, for a total of 2 hours and 45 minutes of demonstration data, and fine-tuned Gato on these episodes. Notably, all of the simulated and real robotics data in the pretraining set shows the robot successfully stacking the red object on the blue object, and the data does not include the object shapes in the test set. We found that additionally adding simulated demonstrations of the stack blue on green task to the fine-tuning dataset improved performance, and 10% was an ideal sampling ratio for this data. 11). We achieved a final 60% success rate after evaluating fine-tuned Gato on the real robot, while a BC baseline trained from scratch on the blue-on-green data achieved only 0.5% success (1/200 episodes). Qualitatively, the BC baseline would consistently move towards the blue object and occasionally pick it up and place it on top of the green object, but a full, stable stack was almost never achieved. 5.4 Robotics: Skill Mastery Similarly to the Skill Generalization challenge discussed in Section the Skill Mastery challenge consists in training a robotic arm to stack blocks of different shapes. However, the Skill Mastery allows the agent to train on data involving the object shapes used for evaluation, i.e. the set in Skill Generalization becomes a part of the Skill Mastery set. Thus, this challenge serves to measure Gato’s performance on in-distribution tasks (possibly with initial conditions not seen in the training demonstrations). Our Skill Mastery results use an earlier version of the Gato architecture described in Appendix Fine Tuning なし 4.2, テスト training H, Table compares the group-wise success percentage and the average success across object groups for Gato and the established BC-IMP baseline. Gato exceeds or closely matches BC-IMP’s performance on all but one training triplet. 3 5.5 Specialist single-domain multi-task agents このセクションでは、2つの専門(一般論ではなく)エージェントで得られた結果を示します. どちらも単一のドメインからのデータのみでトレーニングされ、タスクごとの細かい調整なしに、各トレーニングタスクで500回リリースされました。 Meta-World The first agent uses the smallest architecture introduced in Section i.e. 79M parameters, and is trained on all 50 Meta-World tasks. While Gato has access to the state of the MuJoCo physics engine and unlimited task seeds, the agent presented here has no access to any extra features or tasks and uses the canonical API as in (Y This experiment is to show that the architecture proposed in our paper can be used to obtain state-of-the-art agents also at small scale. The training procedure was to train single-task MPO experts on each of the MT-50 tasks individually, recording the trajectories produced while training. This experience is then combined, or distilled, into a single agent, which achieves 96.6% success rate averaged over all 50 tasks. To the best of our knowledge this agent is the first one to accomplish nearly 100% average success rate simultaneously (multi-task) for this benchmark. See Table in the supplementary material (Section for the full list of tasks and corresponding success rates of our agent. 5.1, u et al., 2020). (Abdolmaleki et al., (2018年) 7 K) ALE Atari We also trained a specialist agent on all 51 ALE Atari tasks. As the Atari domain is much more challenging than Meta-World, we used the Gato architecture with 1.18B parameters. The resulting agent performs better than the average human for 44 games (see Section for details on our evaluation and scoring). We want to note that the performance of online experts used to generate training data for the other 7 games were also below the average human. Hence, the specialist Atari agent achieved better than human performance for all games where data contained super-human episodes. 4.1 The specialist Atari agent outperforms our generalist agent Gato, which achieved super-human performance on 23 games. It suggests that scaling Gato may result in even better performance. We, however, purposely restricted Gato’s size such that it can be run in real-time on the real robot. 5.6 Attention Analysis We rendered the transformer attention weights over the image observations for various tasks, to gain a qualitative sense of how Gato attends to different regions of the image across tasks (see Figure Further details and visualizations for more tasks can be found in Appendix These visualizations clearly show that attention tracks the task-relevant objects and regions. 12). J. 5.7 Embedding Visualization To understand how Gato encodes differently information per task, we visualized per-task embeddings. We analysed 11 tasks. For each task, we randomly sample 100 episodes and tokenize each of them. Then, from each episode we take a subsequence of 128 tokens, compute their embeddings (at layer 12, which is half the total depth of the transformer layers) and average them over the sequence. The averaged embeddings for all tasks are used as input to PCA, which reduces their dimensionality to 50. Then, T-SNE is used to get the final 2D embeddings. Figure shows the final T-SNE embeddings plotted in 2D, colorized by task. Embeddings from the same tasks are clearly clustered together, and task clusters from the same domain and modality are also located close to each other. Even held-out task (cartpole.swingup) is clustered correctly and lays next to another task from DM Control Suite Pixels. 13 6 Related Work The most closely related architectures to that of Gato are Decision Transformers , and Trajectory Transformer which showed the usefulness of highly generic LM-like architectures for a variety of control problems. Gato also uses an LM-like architecture for control, but with design differences chosen to support multi-modality, multi-embodiment, large scale and general purpose deployment. Pix2Seq also uses an LM-based architecture for object detection. Perceiver IO ., uses a transformer-derived architecture specialized for very long sequences, to model any modality as a sequence of bytes. This and similar architectures could be used to expand the range of modalities supported by future generalist models. (Chen et al., 2021b; Reid et al., 2022; Zheng et al., 2022; Furuta et al. 2021) (Janner et al., 2021年) (Chen et al., 2022年) (ジョージ et al) 2021) Gato was inspired by works such as GPT-3 and Gopher pushing the limits of generalist language models; and more recently the Flamingo generalist visual language model. 540Bパラメーター Pathways Language Model (PalM) は、数百のテキストタスクのための一般的な学習者として明示的に開発されました。 (Brown et al., 2020) (Rae et al., 2021), (アレクサンダー et al. 2022) Chowdhery et al. (2022) Future work should consider how to unify these text capabilities into one fully generalist agent that can also act in real time in the real world, in diverse environments and embodiments. Gato also takes inspiration from recent works on multi-embodiment continuous control. メッセージを送信するグラフネットワークを使用して、多くのシミュレートされた2Dウォーカーバージョンのための単一のロコモーターコントローラーを構築しました。 showed that transformers can outperform graph based approaches for incom-patible (i.e. varying embodiment) control, despite not encoding any morphological inductive biases. シミュレーションされた2D操作環境におけるマルチタスクおよびマルチロボット転送のためのモジュラーポリシーを学ぶ。 ロボットハードウェアのベクトル表示に基づく普遍的なポリシーを訓練し、シミュレーションされた持つロボットの武器と現実世界のセーヤーロボットの腕の両方に成功した移転を示す。 Huang et al. (2020年) Kurin et al. (2020年) Devin et al. (2017) Chen et al. (2018) A variety of earlier generalist models have been developed that, like Gato, operate across highly distinct domains and modalities. NPI trained a single LSTM to execute diverse programs such as sorting an array and adding two numbers, such that the network is able to generalize to larger problem instances than those seen during training. developed the MultiModel that trains jointly on 8 distinct speech, image and text processing tasks including classifica-tion, image captioning and translation. Modality-specific encoders were used to process text, images, audio and categorical data, while the rest of the network parameters are shared across tasks. proposed “ ”, describing a method for the incremental training of an increasingly general problem solver. proposed controllable multi-task language models that can be directed according to language domain, subdomain, entities, relationships between entities, dates, and task-specific behavior. (Reed & De Freitas, 2016) (Hochreiter & Schmidhuber, 1997) Kaiser et al. 2017年(日) シュミドバー (2018) one big net for everything Keskar et al. (2019) In this discussion, it is important to distinguish between one single multi-task network architecture versus one single neural network with the same weights for all tasks. Several poplar RL agents achieve good multi-task RL results within single domains such as Atari57 and DMLab However, it is much more common to use the same policy architecture and hyper-parameters across tasks, but the policy parameters are different in each task This is also true of state-of-the-art RL methods applied to board games さらに、この選択はオフラインRLベンチマークによって採用されています。 and recent works on large sequence neural networks for control, including decision transformers and the Trajectory Transformer of In contrast, in this work we learn a single network with the same weights across a diverse set of tasks. (Espeholt et al., 2018; Song et al., 2020; ヘッセル et al., 2019). (Mnih et al., 2015; Tassa et al., 2018). (Schrittwieser et al., 2020). (Gulcehre et al., 2020; Fu et al., 2020) (Chen et al., 2021b; Reid et al., 2022; Zheng et al., 2022) Janner et al. (2021). Recent position papers advocate for highly generalist models, notably proposing one big net for everything, and on foundation models. However, to our knowledge there has not yet been reported a single generalist trained on hundreds of vision, language and control tasks using modern transformer networks at scale. Schmidhuber (2018) Bommasani et al. (2021) 「単一脳」スタイルのモデルは、神経科学との興味深いつながりを持っています。 famously stated that “ ”. Mountcastle found that columns of neurons in the cortex behave similarly whether associated with vision, hearing or motor control. This has motivated arguments that we may only need one algorithm or model to build intelligence Mountcastle (1978) the processing function of neocortical modules is qualitatively similar in all neocortical regions. Put shortly, there is nothing intrinsically motor about the motor cortex, nor sensory about the sensory cortex (Hawkins & Blakeslee, 2004年) Sensory substitution provides another argument for a single model For example, it is possible to build tactile visual aids for blind people as follows. The signal captured by a camera can be sent via an electrode array on the tongue to the brain. The visual cortex learns to process and interpret these tactile signals, endowing the person with some form of “vision”. Suggesting that, no matter the type of input signal, the same network can process it to useful effect. (Bach-y Rita & Kercel, 2003). Our work is based on deep autoregressive models, which have a long history and can be found in generative models of text, images, video and audio. Combining autoregressive generation with transformers (V has been of enormous impact in language modelling protein folding vision-language models (T code generation リサイクル能力を持つ対話システム speech recognition neural machine translation and more , Recently researchers have explored task decomposition and grounding with language models aswani et al., 2017; Devlin et al., 2018) (Brown et al., 2020; Rae et al., 2021年) (Jumper et al., 2021), simpoukelli et al., 2021; Wang et al., 2021; エリザベス et al. 2022), (Chen et al., 2021c; Li et al., 2022年B) (Nakano et al., 2021; Thoppilan et al., 2022), (Pratap et al., 2020), (Johnson et al., 2019) (Bommasani et al. 2021年) (Huang et al., 2022; Ahn et al., 2022). construct a control architecture, consisting of a sequence tokenizer, a pretrained language model and a task-specific feed-forward network. They apply it to VirtualHome and BabyAI tasks, and find that the inclusion of the pretrained language model improves generalisation to novel tasks. Similarly, demonstrate that vision models pretrained with self-supervised learning, especially crop segmentations and momentum contrast can be effectively incorporated into control policies. Li et al. (2022a) Parisi et al. (2022) (He et al., 2020), As mentioned earlier, transfer in Atari is challenging. researched transfer between ran-domly selected Atari games. They found that Atari is a difficult domain for transfer because of pronounced differences in the visuals, controls and strategy among the different games. Further difficulties that arise when applying behaviour cloning to video games like Atari are discussed by ロシア et al. (2016) Kanervisto et al. (2020年) There has been great recent interest in data-driven robotics However, note that in robotics “ ”. Moreover, every time we update the hardware in a robotics lab, we need to collect new data and retrain. We argue that this is precisely why we need a generalist agent that can adapt to new embodiments and learn new tasks with few data. (Cabi et al., 2019; Chen et al., 2021a). Bommasani et al. (2021) the key stumbling block is collecting the right data. Unlike language and vision data, robotics data is neither plentiful nor representative of a sufficiently diverse array of embodiments, tasks, and environments Generating actions using an autoregressive model can lead to causal “self-delusion” biases when there are confounding variables For example, sampling actions can condition the model to solve the wrong task when multiple tasks share similar observation and actions specifications. As explained in Section 私たちは曖昧なタスクで迅速なエンジニアリングを使用し、私たちのモデルを成功したデモに条件づけます。これは混乱する変数をスクリーンアップし、自己誤解を減らします。この仕事で私たちが探求しなかったもう一つのソリューションは、反事実的な教育を使用することです。私たちは即時的な専門家のフィードバックを使用してオンラインでモデルを訓練します。 (オルシュタイン et al. 2021). 2, 7 幅広い影響 一般主義的エージェントはまだ研究の新たな分野にすぎないが、社会への潜在的な影響は、そのリスクと利点の徹底的な学際的な分析を必要とする。 However, the tools for mitigating harms of generalist agents are relatively underdeveloped, and require further research before these agents are deployed. A. Since our generalist agent can act as a vision-language model, it inherits similar concerns as discussed in In addition, generalist agents can take actions in the the physical world; posing new challenges that may require novel mitigation strategies. For example, physical embodiment could lead to users anthropomorphizing the agent, leading to misplaced trust in the case of a malfunctioning system, or be exploitable by bad actors. Additionally, while cross-domain knowledge transfer is often a goal in ML research, it could create unexpected and undesired outcomes if certain behaviors (e.g. arcade game fighting) are transferred to the wrong context. The ethics and safety considerations of knowledge transfer may require substantial new research as generalist systems advance. (Wei-dinger et al., 2021; Bommasani et al., 2021; Rae et al., 2021; Alayrac et al., 2022). Technical AGI safety may also become more challenging when considering generalist agents that operate in many embodiments. For this reason, preference learning, uncertainty modeling and value alignment (R are especially important for the design of human-compatible generalist agents. It may be possible to extend some of the value alignment approaches for language to generalist agents. However, even as technical solutions are developed for value alignment, generalist systems could still have negative societal impacts even with the intervention of well-intentioned designers, due to unforeseen circumstances or limited oversight この制限は、複数の分野と視点を組み込む慎重な設計と展開プロセスの必要性を強調する。 (Bostrom, 2017) ussell, 2019年) (ウォーキング et al. ) 2022; Kenton et al., 2021) (Amodei et al., 2016). Understanding how the models process information, and any emergent capabilities, requires significant ex-perimentation. External retrieval has been shown to improve both interpretability and performance, and hence should be consid-ered in future designs of generalist agents. (Borgeaud et al., 2021; Menick et al., 2022; ニコニコ et al. 2021; Thoppilan アルは、 2022年) まだコンセプトの実証段階にあるにもかかわらず、一般主義モデルの最近の進歩は、安全研究者、倫理学者、そして最も重要なのは一般市民が、そのリスクと利点を考慮すべきであることを示唆している。 8 Limitations and Future work 8.1 RLデータ収集 Gato is a data-driven approach, as it is derived from imitation learning. While natural language or image datasets are relatively easy to obtain from the web, a web-scale dataset for control tasks is not currently available. This may seem at first to be problematic, especially when scaling Gato to a higher number of parameters. That being said, there has already been extensive investigation into this issue. Offline RL aims at leveraging existing control datasets, and its increasing popularity has already resulted in the availability of more diverse and larger datasets. Richer environments and simulations are being built (e.g. Metaverse), and increasing numbers of users already interact with them among thousands of already deployed online games (e.g. there exists a large dataset of Starcraft 2 games). Real-life data has also been already stored for ML research purposes; for example, data for training self-driving cars is acquired from recording human driver data. Finally, while Gato uses data consisting of both observations and corresponding actions, the possibility of using large scale observation-only data to enhance agents has been already studied (Baker et al., 2022). Thanks to online video sharing and streaming platforms such as Youtube and Twitch, observation-only datasets are not significantly more difficult to collect than natural language datasets, motivating a future research direction to extend Gato to learn from web data. While the previous paragraph focuses on alleviating drawbacks of data collection from RL agents, it is important to note that this approach presents a different set of tradeoffs compared to scraping web data and can be actually more practical in some situations. Once the simulation is set up and near SOTA agent trained, it can be used to generate massive amounts of high quality data. That is in contrast to the quality of web data which is notorious for its low quality. 要するに、適切なデータを取得することは、それ自体の別の研究問題であり、これはますます活発で重要な研究分野であると信じています。 8.2 短い文脈 Gato は、エージェントが特定のタスクに対応するアクションを出力するのに役立つエージェントデモを提示されます。これは特に役に立つため、他の場合、エージェントにはタスク識別子がありません(これは多くのマルチタスク RL 設定とは異なります)。 However, the context length of our agent is limited to 1024 tokens which translates to the agent sometimes attending to only a few environment timesteps in total. This is especially the case for environments with image observations, where depending on the resolution each observation can result in more than one hundred tokens each. Hence for certain environments only a short chunk of a demonstration episode fits in the transformer memory. 同様に、新しい環境におけるプロンプトベースのインコンテキスト学習を使用したモデルの初期評価は、同じ環境におけるプロンプトなしの評価と比較して、パフォーマンスの大幅な改善を示さなかった。 Context-length is therefore a current limitation of our architecture, mainly due to the quadratic scaling of self-attention. Many recently proposed architectures enable a longer context at greater efficiency and these innovations could potentially improve our agent performance. We hope to explore these architectures in future work. 9 結論 Transformer sequence models are effective as multi-task multi-embodiment policies, including for real-world text, vision and robotics tasks. They show promise as well in few-shot out-of-distribution task learning. In the future, such models could be used as a default starting point via prompting or fine-tuning to learn new behaviors, rather than training from scratch. Given scaling law trends, the performance across all tasks including dialogue will increase with scale in parameters, data and compute. Better hardware and network architectures will allow training bigger models while maintaining real-time robot control capability. By scaling up and iterating on this same basic approach, we can build a useful general-purpose agent. Acknowledgments We would like to thank Dan Horgan, Manuel Kroiss, Mantas Pajarskas, and Thibault Sottiaux for their help with data storage infrastructure; Jean-Baptiste Lespiau and Fan Yang for help on concurrent evalua-tion; Joel Veness for advising on the model design; Koray Kavukcuoglu for helping inspire the project and facilitating feedback; Tom Erez for advising on the agent design and task selection for continuous control; Igor Babuschkin for helping code the initial prototype; Jack Rae for advising on the transformer language model codebase; Thomas Lampe for building robot infrastructure and advising on real robotics experiments; Boxi Wu for input on ethics and safety considerations; Pedro A. Ortega for advice in regard to causality and self-delusion biases. 著者貢献 developed the project concept, wrote the initial prototype, and led the project overall. led architecture development for vision and text, built infrastructure for tokenization and prompting, and contributed heavily to overall agent development and evaluation. Scott Reed Konrad Żołna トランスフォーマーアーキテクチャの最適化に関する作業を主導し、最大数のエクスペリエンスメントを実行し、スケーリング法の属性と配布エージェントのパフォーマンスを分析した。 Emilio Parisotto 同社は、同時に数百のタスクをサポートするスケーラブルなデータロードと評価器の作成と、Gatoとの初期ロボット統合の責任を負った技術的リーダーでした。 Sergio Gómez Colmenarejo developed the model including the sampler for the initial prototype, carried out ex-periments focusing on robotics, and created visualizations. Alexander Novikov スケーラブルなストレージインフラストラクチャを構築して、Atari やその他のドメインで SoTA レベルのエージェントエクスペリエンスを Gato に提供します。 Gabriel Barth-Maron conducted large scale agent data collection, built substantial data loading infrastructure, and integrated large scale visual-language datasets into the training of Gato. Mai Giménez contributed broadly to the Gato codebase including a bespoke distributed training sequence loader, and led the development of benchmarks for out-of-distribution generalization, and the training of competitive baseline agents. Yury Sulsky 物理的なロボットインフラを支援し、Gatoの一般化特性を分析するための数多くの評価と実験を行い、より広範な倫理的影響を考慮した。 Jackie Kay guided Gato’s deployment to the physical robot, provided strong existing base-lines for block stacking, and advised on model development and experimental design. Jost Tobias Springenberg Gatoの対話と画像タイトリングデモを開発し、ユーザーが開発中のエージェントのビジョンと言語能力を容易に調査できるようになりました。 Tom Eccles contributed to agent design as well as control datasets and environments with randomized physics and morphology variations. Jake Bruce helped in exploring vision architectures. Ali Razavi contributed to the first prototype of Gato that worked on Atari, in addition to exploring alternative network architectures and training objectives. Ashley Edwards エージェント設計、実験設計、タスク選択、特に継続的な制御アプリケーションのためのアドバイス。 Nicolas Heess advised on model design and experiments, and provided feedback in regular meetings. Yutian Chen ロボットの設計と計画に関するアドバイスをいただきました。 Raia Hadsell advised on all aspects of the project, especially model architecture, training strategies and benchmark design. Oriol Vinyals was the primary project manager; eliciting key goals, tracking progress, facilitating pre-sentations and feedback, and coordinating resource planning. Mahyar Bordbar oversaw the project from its inception. Nando de Freitas References Abbas Abdolmaleki, Jost Tobias Springenberg, Yuval Tassa, Remi Munos, Nicolas Heess, and Martin Ried-miller. Maximum a posteriori policy optimisation. , 2018. Preprint arXiv:1806.06920 サミラ・アブナールとウィレム・ジューデマ 変換器における注意の流れの定量化 , 2020. プレプリント arXiv:2005.00928 Michael Ahn, Anthony Brohan, Noah Brown, Yevgen Chebotar, Omar Cortes, Byron David, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, et al. Do as i can, not as i say: Grounding language in robotic affordances. , 2022. プレプリント arXiv:2204.01691 Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andy Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, and Karen Simonyan. Flamingo: a visual language model for few-shot learning. , 2022. プレプリント arXiv:2204.14198 Dario Amodei, Chris Olah, Jacob Steinhardt, Paul F. Christiano, John Schulman, and Dan Mané. Concrete problems in AI safety. , 2016. Preprint arXiv:1606.06565 Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh. VQA: Visual question answering. In , pp. 2425–2433, 2015. コンピュータビジョンに関する国際会議 Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. Layer normalization. , 2016. プレプリント arXiv:1607.06450 Paul Bach-y Rita and Stephen W Kercel. Sensory substitution and the human-machine interface. , 7(12):541–546, 2003. Trends in cognitive sciences Bowen Baker, Ilge Akkaya, Peter Zhokhov, Joost Huizinga, Jie Tang, Adrien Ecoffet, Brandon Houghton, Raul Sampedro, and Jeff Clune. Video pretraining (vpt): Learning to act by watching unlabeled online videos. , 2022. Preprint arXiv::2206.11795 Gabriel Barth-Maron, Matthew W Hoffman, David Budden, Will Dabney, Dan Horgan, Dhruva Tb, Alistair Muldal, Nicolas Heess, and Timothy Lillicrap. Distributed Distributional Deterministic policy gradients. ディストリビューション的決定主義的政策グレディエント。 , 2018. プレプリント arXiv:1804.08617 Charles Beattie, Joel Z Leibo, Denis Teplyashin, Tom Ward, Marcus Wainwright, Heinrich Küttler, Andrew Lefrancq, Simon Green, Víctor Valdés, Amir Sadik, et al. DeepMind lab. 2016年。 Preprint arXiv:1612.03801 Marc G Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling. The arcade learning environment: An evaluation platform for general agents. , 47:253–279, 2013. 『Journal of Artificial Intelligence Research』 Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, et al. On the opportunities and risks of foundation models. , 2021. Preprint arXiv:2108.07258 Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, et al. Improving language models by retrieving from trillions of tokens. , 2021. プレプリント arXiv:2112.04426 Nick Bostrom. . Dunod, 2017. 超知能 Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman, Jie Tang, and Wojciech Zaremba. Openai gym. 2016年。 Preprint arXiv:1606.01540 TB Brown, B Mann, N Ryder, M Subbiah, J Kaplan, P Dhariwal, A Neelakantan, P Shyam, G Sastry, A Askell, et al. Language models are few-shot learners. In , pp. 1877–1901, 2020. Advances in Neural Information Processing Systems Serkan Cabi, Sergio Gómez Colmenarejo, Alexander Novikov, Ksenia Konyushkova, Scott Reed, Rae Jeong, Konrad Zolna, Yusuf Aytar, David Budden, Mel Vecerik, et al. Scaling data-driven robotics with reward sketching and batch reinforcement learning. , 2019. Preprint arXiv:1909.12200 Annie S Chen, Suraj Nair, and Chelsea Finn. Learn generalizable robotic reward functions from “in-the-wild” human videos. アニー・S・チェン、サラジ・ナイア、そしてチェルシー・フィン。 , 2021a. Preprint arXiv:2103.16817 Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Misha Laskin, Pieter Abbeel, Ar-avind Srinivas, and Igor Mordatch. Decision transformer: Reinforcement learning via sequence modeling. , 34, 2021b. Advances in Neural Information Processing Systems Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. Evaluating large language models trained on code. , 2021c. Preprint arXiv:2107.03374 Tao Chen, Adithyavairavan Murali, and Abhinav Gupta. Hardware conditioned policies for multi-robot transfer learning. , 31, 2018. ニューラル情報処理システムの進歩 Ting Chen, Saurabh Saxena, Lala Li, David J Fleet, and Geoffrey Hinton. Pix2seq: A language modeling framework for object detection. In , 2022. ICLR Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollár, and C Lawrence Zitnick. Microsoft coco captions: Data collection and evaluation server. , 2015. プレプリント arXiv:1504.00325 Maxime Chevalier-Boisvert, Dzmitry Bahdanau, Salem Lahlou, Lucas Willems, Chitwan Saharia, Thien Huu Nguyen, and Yoshua Bengio. BabyAI: 基礎言語学習のサンプル効率を研究するプラットフォーム。 , 2018. プリント arXiv:1810.08272 Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. PaLM:スケーリング言語モデリング with pathways. , 2022. プレプリント arXiv:2204.02311 Karl Cobbe、Chris Hesse、Jacob Hilton、John Schulman. プロセス生成を活用して強化学習をベンチマークする。 2048~2056年、2020年。 International Conference on Machine Learning Zihang Dai, Zhilin Yang, Yiming Yang, Jaime G Carbonell, Quoc Le, and Ruslan Salakhutdinov. Transformer-xl: Attentive language models beyond a fixed-length context. In , pp. 2978–2988, 2019. Annual Meeting of the Association for Computational Linguistics Coline Devin, Abhishek Gupta, Trevor Darrell, Pieter Abbeel, and Sergey Levine. Learning modular neural network policies for multi-task and multi-robot transfer. In , pp. 2169–2176, 2017. IEEE International Conference on Robotics & Automation Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of deep bidirec-tional transformers for language understanding. 2018年。 Preprint arXiv:1810.04805 Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Un-terthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. , 2020. Preprint arXiv:2010.11929 Lasse Espeholt, Hubert Soyer, Remi Munos, Karen Simonyan, Vlad Mnih, Tom Ward, Yotam Doron, Vlad Firoiu, Tim Harley, Iain Dunning, et al. Impala: Scalable distributed deep-RL with importance weighted actor-learner architectures. In , pp. 1407–1416, 2018. International Conference on Machine Learning Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey Levine. D4RL: Datasets for deep data-driven reinforcement learning. , 2020. Preprint arXiv:2004.07219 Hiroki Furuta, Yutaka Matsuo, and Shixiang Shane Gu. オフラインバックビジョン情報のマッチングのための一般化された意思決定トランスフォーマー。 , 2021. Preprint arXiv:2111.10364 Caglar Gulcehre, Ziyu Wang, Alexander Novikov, Thomas Paine, Sergio Gómez, Konrad Zolna, Rishabh Agarwal, Josh S Merel, Daniel J Mankowitz, Cosmin Paduraru, et al. RL unplugged: A suite of benchmarks for offline reinforcement learning. , 33:7248–7259, 2020. Advances in Neural Information Processing Systems Jeff Hawkins and Sandra Blakeslee. . Macmillan, 2004. On intelligence Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In , pp. 770–778, 2016a. IEEE コンピュータビジョンとパターン認識 Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity mappings in deep residual networks. In , pp. 630–645, 2016b. European Conference on Computer Vision Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. In , pp. 9729–9738, 2020. IEEE コンピュータビジョンとパターン認識 Dan Hendrycks and Kevin Gimpel. Gaussian error linear units (GELUs). , 2016. Matteo Hessel, Hubert Soyer, Lasse Espeholt, Wojciech Czarnecki, Simon Schmitt, and Hado van Hasselt. Preprint arXiv:1606.08415 Multi-task deep reinforcement learning with popart. In , 2019. AAAI Matteo Hessel, Ivo Danihelka, Fabio Viola, Arthur Guez, Simon Schmitt, Laurent Sifre, Theophane Weber, David Silver, and Hado van Hasselt. Muesli: Combining improvements in policy optimization. , 2021. Preprint arXiv:2104.06159 Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. , 9(8):1735–1780, 1997. Neural computation Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. Training compute-optimal large language models. 2022年です。 プレプリント arXiv:2203.15556 Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, and Kilian Weinberger. Deep networks with stochastic depth. , 2016. Preprint arXiv:1603.09382 Wenlong Huang, Igor Mordatch, and Deepak Pathak. One policy to control them all: Shared modular policies for agent-agnostic control. In , pp. 4455–4464, 2020. International Conference on Machine Learning Wenlong Huang, Pieter Abbeel, Deepak Pathak, and Igor Mordatch. Language models as zero-shot planners: Extracting actionable knowledge for embodied agents. , 2022. プレプリント arXiv:2201.07207 David Yu-Tung Hui, Maxime Chevalier-Boisvert, Dzmitry Bahdanau, and Yoshua Bengio. Babyai 1.1. 2020年です。 Preprint arXiv:2007.12770 Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, et al. Perceiver IO: A general architecture for structured inputs & outputs. , 2021. Preprint arXiv:2107.14795 Michael Janner, Qiyang Li, and Sergey Levine. Offline reinforcement learning as one big sequence modeling problem. マイケル・ヤンナー、Qiyang Li、そしてセルゲイ・レヴィン。 , 34, 2021. Advances in Neural Information Processing Systems Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc Le, Yun-Hsuan Sung, Zhen Li, and Tom Duerig. Scaling up visual and vision-language representation learning with noisy text supervision. In , pp. 4904–4916, 2021. International Conference on Machine Learning Melvin Johnson, Orhan Firat, and Roee Aharoni. Massively multilingual neural machine translation. In トップページ > 2019年8月38日 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, et al. Highly accurate protein structure prediction with AlphaFold. , 596(7873):583–589, 2021. Nature Lukasz Kaiser, Aidan N Gomez, Noam Shazeer, Ashish Vaswani, Niki Parmar, Llion Jones, and Jakob Uszkoreit. One model to learn them all. 2017年。 プレプリント arXiv:1706.05137 Anssi Kanervisto, Joonas Pussinen, and Ville Hautamäki. Benchmarking end-to-end behavioural cloning on video games. In , pp. 558–565, 2020. IEEE conference on games (CoG) Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. 2020年です。 プレプリント arXiv:2001.08361 Steven Kapturowski, Georg Ostrovski, John Quan, Remi Munos, and Will Dabney. Recurrent experience replay in distributed reinforcement learning. In , 2018. International Conference on Learning Representations Zachary Kenton, Tom Everitt, Laura Weidinger, Iason Gabriel, Vladimir Mikulik, and Geoffrey Irving. Alignment of language agents. , 2021. Preprint arXiv:2103.14659 Nitish Shirish Keskar, Bryan McCann, Lav R Varshney, Caiming Xiong, and Richard Socher. CTRL: A conditional transformer language model for controllable generation. , 2019. Preprint arXiv:1909.05858 Diederik P. Kingma and Jimmy Ba. Adam: A method for stochastic optimization. , 2014. Preprint arXiv:1412.6980 Taku Kudo and John Richardson. SentencePiece: A simple and language independent subword tokenizer and detokenizer for neural text processing. In , Annual Meeting of the Association for Computational Linguistics pp. 66–71, 2018. Vitaly Kurin, Maximilian Igl, Tim Rocktäschel, Wendelin Boehmer, and Shimon Whiteson. My body is a cage: the role of morphology in graph-based incompatible control. , 2020. Preprint arXiv:2010.01856 Alex X Lee, Coline Manon Devin, Yuxiang Zhou, Thomas Lampe, Konstantinos Bousmalis, Jost Tobias Springenberg, Arunkumar Byravan, Abbas Abdolmaleki, Nimrod Gileadi, David Khosid, et al. Beyond pick-and-place: Tackling robotic stacking of diverse shapes. In 2021年です。 ロボット学習に関する会議 Alex X Lee, Coline Manon Devin, Jost Tobias Springenberg, Yuxiang Zhou, Thomas Lampe, Abbas Abdol-maleki, and Konstantinos Bousmalis. How to spend your robot time: Bridging kickstarting and offline reinforcement learning for vision-based robotic manipulation. 2022年です。 Preprint arXiv:2205.03353 Shuang Li, Xavier Puig, Chris Paxton, Yilun Du, Clinton Wang, Linxi Fan, Tao Chen, De-An Huang, Ekin Akyürek, Anima Anandkumar, Jacob Andreas, Igor Mordatch, Antonio Torralba, and Yuke Zhu. インタラクティブな意思決定のための事前訓練された言語モデル。 2022年A。 プレプリント arXiv:2202.01771 Yujia Li, David Choi, Junyoung Chung, Nate Kushman, Julian Schrittwieser, Rémi Leblond, Tom Eccles, James Keeling, Felix Gimeno, Agustin Dal Lago, et al. Competition-level code generation with AlphaCode. 2022年Bです。 プレプリント arXiv:2203.07814 イリア・ロシチロフとフランク・ハッター 体重崩壊の規則化 , 2017. Preprint arXiv:1711.05101 Kenneth Marino, Mohammad Rastegari, Ali Farhadi, and Roozbeh Mottaghi. Ok-VQA: 外部の知識を必要とする基準に答える視覚的な質問。 ,pp. 3195–3204, 2019. IEEE コンピュータビジョンとパターン認識 Jacob Menick, Maja Trebacz, Vladimir Mikulik, John Aslanides, Francis Song, Martin Chadwick, Mia Glaese, Susannah Young, Lucy Campbell-Gillingham, Geoffrey Irving, et al. Teaching language models to support answers with verified quotes. , 2022. Preprint arXiv:2203.11147 Margaret Mitchell, Simone Wu, Andrew Zaldivar, Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji, and Timnit Gebru. Model cards for model reporting. In , pp. 220–229, 2019. Proceedings of the conference on fairness, accountability, and transparency Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu, Joel Veness, Marc G Bellemare, Alex Graves, Martin Riedmiller, Andreas K Fidjeland, Georg Ostrovski, et al. 深い強化学習を通じて人間レベルのコントロール。 , 518(7540):529–533, 2015. Nature Vernon Mountcastle. An organizing principle for cerebral function: the unit module and the distributed system. , 1978. The mindful brain Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, et al. WebGPT: Browser-assisted question-answering with human feedback. , 2021. Preprint arXiv:2112.09332 Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu. WaveNet: A generative model for raw audio. , 2016. Preprint arXiv:1609.03499 Pedro A Ortega, Markus Kunesch, Grégoire Delétang, Tim Genewein, Jordi Grau-Moya, Joel Veness, Jonas Buchli, Jonas Degrave, Bilal Piot, Julien Perolat, et al. Shaking the foundations: delusions in sequence models for interaction and control. , 2021. Preprint arXiv:2110.10819 Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, et al. Training language models to follow instructions with human feedback. , 2022. Preprint arXiv:2203.02155 Simone Parisi, Aravind Rajeswaran, Senthil Purushwalkam, and Abhinav Gupta. The unsurprising effec-tiveness of pre-trained vision models for control. , 2022. プレプリント arXiv:2203.03580 Vineel Pratap, Anuroop Sriram, Paden Tomasello, Awni Hannun, Vitaliy Liptchinsky, Gabriel Synnaeve, and Ronan Collobert. Massively Multilingual ASR: 50 言語, 1 モデル, 1 億パラメータ。 2020年です。 Preprint arXiv:2007.03001 Sébastien Racanière, Théophane Weber, David Reichert, Lars Buesing, Arthur Guez, Danilo Jimenez Rezende, Adrià Puigdomènech Badia, Oriol Vinyals, Nicolas Heess, Yujia Li, et al. Imagination-augmented agents for deep reinforcement learning. , 30, 2017. Advances in Neural Information Processing Systems Jack W Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, et al. スケーリング言語モデル: トレーニングゴーファーからの方法、分析と洞察。 2021年です。 Preprint arXiv:2112.11446 Scott Reed and Nando De Freitas. Neural programmer-interpreters. In 2016年。 International Conference on Learning Representations Machel Reid, Yutaro Yamada, and Shixiang Shane Gu. Can Wikipedia help offline reinforcement learning? , 2022. Preprint arXiv:2201.12122 Stuart Russell. . Penguin, 2019. Andrei A Rusu, Neil C Rabinowitz, Guillaume Desjardins, Hubert Soyer, James Kirkpatrick, Koray Human compatible: Artificial intelligence and the problem of control Kavukcuoglu、Razvan Pascanu、Raia Hadsell. 進歩神経ネットワーク。 , 2016. Preprint arXiv:1606.04671 ヴィクトル・サン、アルバート・ウェブソン、コリン・ラッフェル、スティーブン・バッハ、リントン・スータウィカ、ザイド・アリーファイイ、アントワイン・チャフィン、アーナウド・スティーグラー、アーロン・ラヤ、マナン・デイ、M・サイフル・バリ、カンウェン・チュウ、ウルミッシュ・タッカー、シュライア・シャルマ・シャルマ、エリザ・シュチェッチェラ、タイウォン・タイウォン、ジョン・ジョン・ナイク、アンドレア・サンバルト・フリーフリー、アラン・ジェイソン・フリス・ライアン・ティーハン、 , 2022. International Conference on Learning Representations Jürgen Schmidhuber. One big net for everything. , 2018. Preprint arXiv:1802.08864 Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt, Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, et al. Mastering atari, go, chess and shogi by planning with a learned model. , 588(7839):604–609, 2020. 自然 Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut. Conceptual captions: A cleaned, hyper-nymed, image alt-text dataset for automatic image captioning. In , pp. 2556–2565, 2018. Annual Meeting of the Association for Computational Linguistics Noam Shazeer. Gluの変数はトランスフォーマーを改善する。 , 2020. Preprint arXiv::2002.05202 H Francis Song, Abbas Abdolmaleki, Jost Tobias Springenberg, Aidan Clark, Hubert Soyer, Jack W Rae, Seb Noury, Arun Ahuja, Siqi Liu, Dhruva Tirumala, et al. V-mpo: On-policy maximum a posteriori policy optimization for discrete and continuous control. In , 2020. ICLR Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: A simple way to prevent neural networks from overfitting. 神経ネットワークの過剰装備を防ぐ簡単な方法。 , 15(56):1929年から1958年まで。 Journal of Machine Learning Research Richard Sutton. The bitter lesson. 平成13年12月12日 不完全なアイデア(ブログ) Yuval Tassa, Yotam Doron, Alistair Muldal, Tom Erez, Yazhe Li, Diego de Las Casas, David Budden, Abbas Abdolmaleki, Josh Merel, Andrew Lefrancq, et al. DeepMind control suite. , 2018. プリント arXiv:1801.00690 Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, et al. LaMDA: 対話アプリケーションのための言語モデル。 , 2022. Preprint arXiv:2201.08239 Emanuel Todorov, Tom Erez, and Yuval Tassa. Mujoco: A physics engine for model-based control. In , pp. 5026–5033, 2012. インテリジェントロボットとシステムに関する国際会議 Maria Tsimpoukelli, Jacob L Menick, Serkan Cabi, SM Eslami, Oriol Vinyals, and Felix Hill. Multimodal few-shot learning with frozen language models. , pp. 200–212, 2021. Advances in Neural Information Processing Systems Saran Tunyasuvunakool, Alistair Muldal, Yotam Doron, Siqi Liu, Steven Bohez, Josh Merel, Tom Erez, Timothy Lillicrap, Nicolas Heess, and Yuval Tassa. dm_control: Software and tasks for continuous control. , 6:100022, 2020年 Software Impacts Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. , 30, 2017. Advances in Neural Information Processing Systems Zirui Wang, Jiahui Yu, Adams Wei Yu, Zihang Dai, Yulia Tsvetkov, and Yuan Cao. Simvlm: Simple visual language model pretraining with weak supervision. , 2021. Preprint arXiv:2108.10904 Ziyu Wang, Alexander Novikov, Konrad Zolna, Josh S Merel, Jost Tobias Springenberg, Scott E Reed, Bobak Shahriari, Noah Siegel, Caglar Gulcehre, Nicolas Heess, et al. Critic regularized regression. , 33:7768–7778, 2020. ニューラル情報処理システムの進歩 Jason Wei, Maarten Bosma, Vincent Y Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M Dai, and Quoc V Le. Finetuned language models are zero-shot learners. , 2021. Preprint arXiv:2109.01652 Laura Weidinger, John Mellor, Maribeth Rauh, Conor Griffin, Jonathan Uesato, Po-Sen Huang, Myra Cheng, Mia Glaese, Borja Balle, Atoosa Kasirzadeh, et al. Ethical and social risks of harm from language models. 2021年です。 Preprint arXiv:2112.04359 Yuxin Wu and Kaiming He. Group normalization. In , pp. 3–19, 2018. European Conference on Computer Vision Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julian, Karol Hausman, Chelsea Finn, and Sergey Levine. Meta-World: A benchmark and evaluation for multi-task and meta reinforcement learning. In , pp. 1094–1100, 2020. Conference on Robot Learning Qinqing Zheng, Amy Zhang, and Aditya Grover. Online decision transformer. 2022年です。 Preprint arXiv:2202.05607 Konrad Zolna, Alexander Novikov, Ksenia Konyushkova, Caglar Gulcehre, Ziyu Wang, Yusuf Aytar, Misha Denil, Nando de Freitas, and Scott Reed. Offline learning from demonstrations and unlabeled experience. コナラ・ゾルナ、アレクサンダー・ノヴィコフ、ケニア・コニューシュコヴァ、カグラ・グルチェーレ、ジヨウ・ワン、ユスフ・アイタール、ミシャ・デニル、スコット・リード。 , 2020. Preprint arXiv:2011.13885 Konrad Zolna, Scott Reed, Alexander Novikov, Sergio Gómez Colmenarejo, David Budden, Serkan Cabi, Misha Denil, Nando de Freitas, and Ziyu Wang. Task-relevant adversarial imitation learning. In , pp. 247–263, 2021. Conference on Robot Learning Supplementary Material A Model card テーブルの中の猫のためのモデルカードを紹介します。 4. テーブル4: We follow the framework proposed in Gato Model Card. (ミシェル et al. 2019). B Agent Data Tokenization Details In this section we provide additional details on our tokenization schemes. Our agent data is sequenced as follows: • are presented to the agent in order of time (timesteps). Episodes • in turn are presented in the following order: Timesteps ([ 1 : 1: 1: ]) はキーによってレクシコグラフィカルに順序づけられ、各項目は次のように順序づけられています。 – Observations y k, x m, z n ∗ Text tokens ( 1: ) are in the same order as the raw input text. y k ∗ Image patch tokens ( 1 : ) are in raster order. x m タンパク質( 1: ) (such as discrete and continuous observations) are in row-major order. z n – (' 観察の後、指定された分離トークンが提供されます。 Separator | – ( 1: ) are tokenized as discrete or continuous values and in row-major order. Actions a A したがって、トークンの完全な順序は、Tタイムステップからのデータのコンカテナとして与えられます。 where L = T(k + m + n + 1 + A) is the total number of tokens. Each floating point element of tensors in the observation sequence is mu-law companded as in WaveNet (Oord et al., 2016): with parameters µ = 100 and M = 256. (If the floating-point tensor is in the action set, we do not need to compand the elements in the sequence because actions are only defined in the range \[ 1, 1\] for all our environments.) All the elements are subsequently clipped so that they fall in the set \[ 1, 1\]. Finally, they are discretized using bins of uniform width on the domain \[ 1,1\]. We use 1024 bins and shift the resulting integers so they are not overlapping with the ones used for text tokens. The tokenized result is therefore a sequence of integers within the range of \[32000, 33024). See Figure and Figure for visualizations of tokenizing and sequencing values (both discrete and con-tinuous) and images. See Section 数字に参照された地元の位置コードに関する詳細について。 14 15 C C Model Architecture C.1 Transformer Hyperparameters The transformer hyperparameters of Gato are presented in テーブル We also list the hyperparameters of smaller architecture variants used in Section 5. 5. C2 関連機能 The ResNet block uses the v2 architecture contains GroupNorm LayerNormの代わりに32のグループ and GELU activation functions instead of RELU. The block is diagrammed in Figure (He et al., 2016b), (Wu&Heは、 2018) (アルバムは、 2016), 「Hendrycks & Gimpel」 2016) 16. C.3 ポジションコード After tokens are mapped into token embeddings, two position encodings are added to the token embeddings (when applicable) to provide temporal and spatial information to the model. These are described below. Patch Position Encodings これらのポジションコーディングは、パッチが抽出された画像内のパッチのグローバルポジションについての情報を伝達します。まず、パッチの相対的な行と列間隔は、画像解像でパッチのピクセル間隔を正常化することによって計算されます。 行と列の正常化された間隔は、その後、単語サイズに量子化されます(私たちは128を使用します)そして、学習可能なポジションコーディングの行と列表をインデックスするために使用されます。 量子化された行と列間隔がインデックスに変換される方法は、私たちがモデルを訓練しているか評価しているか否かに依存します:訓練中にランダムなインデックスは量子化された間隔から均一にサンプルされますが、評価中に私たちは To more concretely demonstrate this process, we provide an example in Figure [17.](#_bookmark144) We will follow the process with the patch highlighted in red on the left of the subfigure. The image is of resolution 80 64 and each patch is 16 16, meaning there are 5 4 = 20 patches total. The highlighted patch starts at pixel row interval \[16*,* 32\] and pixel column interval \[32*,* 64\]. Normalized, the row interval is therefore \[0*.*25*,* 0*.*5\] and the column interval is \[0*.*4*,* 0*.*6\]. We then separately quantize the intervals into 128 uniformly spaced bins, with the resulting quantized row interval being \[32*,* 64\] and the quantized column interval being \[51*,* 77\]. During training, we uniformly sample integers between the quantized row intervals, whereas during testing we would use the means, which are index 48 for row position and index 64 for column position. The row and column positions are finally used to index separate row and column position encoding tables to produce learnable embeddings which are added onto the corresponding patch token embedding. Local Observation Position Encodings(地元の観察ポジションコード) The local observation position encoding adds positional information about where observation tokens are positioned within the local time-step they were an element of. First, we reiterate that, during tokenization, for each time-step all elements of the observation set are tokenized into sequences and concatenated into an observation sequence. Each token in this observation sequence is given an index which corresponds to the sequence order, i.e. the first token is 0 and the last is the length of the observation sequence minus one. After embedding, for any tokens that were a part of an observation set, the corresponding observation token index is used to index an embedding table of learnable position encodings, with one embedding for every possible observation token index (in practice we simply set the table size to a large value like 512). / The position encoding is then added onto the observation token embedding to produce the final token embedding. Note that all action tokens are given the same position encoding regardless of their position in the time-step sequence. We illustrate an example of this process in Figure 18. D Pretraining Setup For all models we use the AdamW optimizer with a linear warm-up and cosine schedule decay. The linear warmup lasts for 15*,* 000 steps, starting from a learning rate of 1e-7 and ending at a different maximum learning rate depending on the model (see Table This learning rate is then cosine decayed by a factor 10x over 1,000,000 steps. The AdamW optimizer has parameters 1 = 0*. 2 = 0.*95 and = 1e-8. すべてのモデルで 512 個のバッチサイズと 1024 個のシーケンス長を使用します。 Optimizer: (Loshchilov & Hutter, 2017) 6 ) β 9, β ϵ We train with an AdamW weight decay parameter of 0.1. Additionally, we use stochastic depth プレトレーニングでは、トランスフォーマーサブレイヤー(Multi-Head Attention と Dense Feedforward レイヤー)のそれぞれが 0.1 の確率で省略されます。 Regularization: (Huang et al., 2016) E Fine-tuning Setup For all models we use the Adam 1e-5の継続的な学習率を持つ最適化器:Adam optimizer has parameters 1 = 0 2 = 0.*95 and = 1e-8. We use a batch size of 64 and a sequence length of 1024 tokens for all models. We train for 10,000 gradient steps. Optimizer: (Kingma & Ba, 2014) β 9, β ϵ We use dropout with a rate of 0.1. Regularization: (Srivastava et al., 2014年) 私たちは、100の学習ステップごとにエージェントを評価します。各評価は、特定のチェックポイントの平均10回を報告します。そのような5つのスコアの移動平均が計算されます(50回を集めるために)。 Evaluation: We generated data for the fine-tuning tasks the same way we did for the other tasks (see Section 3.1 for details). Instead of using all the data for a fine-tuning task, we discarded all but 2000 best episodes (leading to the highest returns). The fine-tuning datasets were created in the following way. We randomly took 1000 episodes (out of 2000 preselected episodes), then a subset of 100 episodes from the selected episodes, then 10, 5, 3, and finally a single episode. We repeated this procedure 3 times to obtain 3 series of cascading subsets for each task. Each subset is used to conduct one fine-tuning experiment, and each is reported on our plots in Section as a separate point. Datasets: 5.2 We have not altered any of the tasks and used their canonical versions. As 3 out of 4 tasks are open sourced, they do not need further explanation. For the fourth task, DMLab order_of_apples_forage_simple, the goal is to collect apples in the right order, green ones first followed by the gold one. Task settings: F データ収集詳細 F.1 Atari We collect two separate sets of Atari environments. The first (that we refer to as ALE Atari) consists of 51 canonical games from the Arcade Learning Environment The second (that we refer to as ALE Atari Extended) is a set of alternative games with their game mode and difficulty randomly set at the beginning of each episode. (Bellemare et al., 2013). 3 For each environment in these sets we collect data by training a Muesli agent for 200M total environment steps. We record approximately 20,000 random episodes generated by the agent during training. (Hessel et al., 2021年) F2 ソコバン Sokoban is a planning problem in which the agent has to push boxes to target locations. Some of the moves are irreversible and consequently mistakes can render the puzzle unsolvable. Planning ahead of time is therefore necessary to succeed at this puzzle. We use a Muesli agent to collect training data. (カラオケ et al. ) 2017), (Hessel et al., 2021) F.3 BabyAI BabyAI is a gridworld environment whose levels consist of instruction-following tasks that are described by a synthetic language. We generate data for these levels with the built-in BabyAI bot. The bot has access to extra information which is used to execute optimal solutions, see Section C in the appendix of for more details about the bot. We collect 100,000 episodes for each level. (シェヴァリエ・ボイスヴェルツ et al. ) (2018年) F.4 DeepMind Control Suite The DeepMind Control Suite (T ., 物理学に基づくシミュレーション環境のセットです. コントロール スイートの各タスクでは、一つは状態機能のみを使用し、もう一つはピクセルのみを使用する2つのデータセットを収集します. We use a D4PG ステータス機能を持つタスクからデータを収集するためのエージェントとMPO ピクセルを使用してデータを収集するためのエージェント unyasuvunakool et al 2020年、 Tassa et al., (2018年) (Barth-Maron et al. ) 2018) (アブドルマレキ et al. ) (2018年) We also collect data for randomized versions of the control suite tasks with a D4PG agent. These versions randomize the actuator gear, joint range, stiffness, and damping, and geom size and density. There are two difficulty settings for the randomized versions. The small setting scales values by a random number sampled from the union of intervals [0*. ,* 0*. ( 1 ) ,* 1*. . 「0」 [1. ♪ 1 ♪ 4 ♪ 9 95位 05 1]. The large setting scales values by a random number sampled from the union of intervals [0 6 8位 2 F5 ディープミンドラボ DeepMind ラボ で、 最初の人間の3D環境で、エージェントの3Dビジョンをエグゼクティブな視点、ナビゲーション、および計画を含む原始ピクセル入力から教えるように設計されています。 (Beattie et al. ) 2016年(日) IMPALAをトレーニングしました。 agent jointly on a set of 18 parent DM Lab levels that generate maps procedurally for each new episode. Data was collected by executing the agent on these 18 levels, as well as an additional set of 237 levels handcrafted to test a diverse set of skills. (Espeholt et al., 2018) The 18 parent levels are characterized by high diversity of generated maps. The difference between the levels is rooted in hyper-parameters used in a generation process. These hyper-parameters control high-level characteristics such as types of structures spawned, difficulty of language instructions, or presence of specific tools. The parent levels were developed to improve performance of RL agents trained online on them. In contrast to the parent levels, each of the additional handcrafted 237 levels uses almost the same map, and the main differences between instances of the same level map are aesthetics such as colors of walls or lighting conditions. The maps are 手順によって生成され、階段を登るか特定のツールを使用するなどの多様なスキルをテストするように設計されています。 ノー Beattie et al. (2016). 18の親のレベル(およびその他のレベルとの関係)についての追加情報は、NeurIPSワークショップで詳細に紹介されています。 ダニエル・タニス . A Methodology for RL Environment Research 4 合計で、DeepMind Labから255レベル(親レベル18レベルと手作業レベル237レベル)のデータを収集し、そのうち254レベルがGatoのトレーニング中に使用された。 F6 Procgen ベンチマーク プロジェクト 16のプロセスで生成されたアタリのような環境のスイートで、サンプル効率と強化学習における一般化をベンチマークするために提案された。 それぞれの環境でエージェントを使用しました. 迷路と強盗を除くすべての環境でハードな難易度設定を使用しました。 (COBBE et al. ) 2020) (Kapturowski et al. ) 2018) F.7 モジュール RL モジュールRL is a collection of MuJoCo (T based continuous control environments, composed of three sets of variants of the OpenAI Gym Walker2d-v2、Humanoid-v2、Hopper-v2のそれぞれのバージョンは、オリジナルの体の形態学的修正である:形態学のセットは、肢体のすべての可能なサブセットをリストすることにより生成され、それらのセットだけを保持し、a)トレスを含み、b)まだ接続したグラフを形成します。これは、異なる入力と出力のサイズ、またオリジナルの形態学と異なるダイナミクスを有するバージョンのセットを生成します。我々は、各バージョンに1つの形態学特有のD4PGエージェントをトレーニングすることでデータを収集し、合計140Mの俳優ステップのために、これはバージョンあたり30 (ハンガー et al. ) 2020年) オリジナル et al. 2012年) (Brockman et al., 2016) F.8 DeepMind Manipulation Playground 「DeepMind Manipulation Playground」 is a suite of MuJoCo based simulated robot tasks. We collect data for 4 of the Jaco tasks (box, stack banana, insertion, and slide) using a Critic-Regularized Regression (CRR) agent 収集したデータには、Gatoのトレーニングと評価に使われるMuJoCoの物理状態が含まれています。 (Zolna et al., 2021年) (ウォン et al. ) 2020年) F.9 メタワールド Meta-World (Y is a suite of environments メタ強化学習とマルチタスク学習をベンチマークするために、MPOエージェントを訓練することで、MT50モードのすべてのトレーニングおよびテストタスクからデータを収集します。 with unlimited environment seeds and with access to state of the MuJoCo physics engine. The collected data also contains the MuJoCo physics engine state. あなたとアル、 2020年) 5 (アブドルマレキ et al. ) (2018年) G Real robotics evaluation details 実際の世界では、コントロールは非同期であり、物理学は計算を完了するまで待たない。したがって、推測遅延は、現実世界のタスクのための大きなモデルを評価するための懸念である。ロボティクスでは、高速コントロール率は、ダイナミック現象に反応するために重要であると考えられています。RGBの積み重ねのためのロボット設定は、設計によって20Hz(0.05秒タイムステップ)のコントロールレートを持っています。許容可能な遅延の限界に到達するために、我々は、文脈の長さを1に短縮することによって、評価時間で推測を変更しました。我々はまた、すべてのアクショントークンを訓練中に入力シーケンスでゼロにするパラレルサンプ We use the sparse reward function described in スパルスな報酬機能 データフィルタリングのために. We only select trajectories with タスクの成功、すなわち、最終タイムステップで1のわずかな報酬。 Lee et al. (2021) 最終 H Skill Mastery Architecture(アーキテクチャ) Skill Mastery ベンチマークについて報告された数値は、Gato アーキテクチャの以前のバージョンを用いたモデルゼロショットを実行することで収集されました。ResNet パッチインベーディングの代わりに、ローカルトランスフォーマーを使用した類似のアーキテクチャが画像パッチトークンをインベーディングするために使用されました。ローカルポジションインベーディングとパッチポジションインベーディングは使用されていませんでした。これらの変更は実装され、プレトレーニングデータが変更された後、Gato のパフォーマンスを向上させたことが判明しました(我々は Skill Mastery チャレンジの代わりに Skill Generalization に焦点を当てることを決めました)。 I Additional Robotics Ablations (追加のロボットアブラション) 私たちは、ロボット分野における多様なプレトレーニングデータの効果をよりよく理解するためにシミュレーションにおける一連のアブラーションを実施しました(図を参照)。 セクションと同じベースラインを含んでいます。 selecting the 364M parameter size variant, as well as an additional baseline trained with control suite data only. The DM Control-only agent is superior to the base Gato at zero-shot transfer and with a lot of fine-tuning data, suggesting that Gato may not be using the representations learned from the text-based datasets when adapting to robotics tasks. The same domain only agent performs the best overall, matching the CRR baseline at 1 fine-tuning episode and outperforming it with more data, suggesting that Gato at current scale can trade its generalization capacity for data-efficient and effective few-shot adaptation. 19) 5.2, J Attention visualization トランスフォーマーの注意重量を返すために、我々はクロス・オブ・オブ・オブ・オブ・オブ・オブ・オブ・オブ・オブ・オブ・オブ( (どこ) is the number of heads and トップ > トップ > トップ > トップ > トップ > トップ > トップ > ( )th entry of this matrix can be interpreted as the amount that head トークンを待つ トークンから . Gatoのイメージトークニズムシステムにより、タイムステップごとに複数のトークンが存在します. したがって、特定のタイムステップに注意を払うために、当社はそのタイムステップに対応するサブマトリックスを取りました. 次に、このマトリックスの行にソフトマックスを適用して関連する値を正常化しました. 以前のトークンに注意を払うことに興味があるので、ソフトマックスの前に負の無限値に設定してダイアゴンを除外しました. H, T, T H T H、I、J h j i To measure the importance of each patch, we averaged the attention weights over the corresponding column. Because Gato uses a causal transformer, the attention matrix is lower triangular, so the mean was only considered over the sub-column below the diagonal of the matrix. This corresponds to the average attention paid to particular patch over a whole timestep. この方法を使用して、私たちはトランスフォーマーの最初の層の注意マップが最も解釈可能であることを発見し、 Certain heads clearly track task-specific entities and regions of the image. Figure 複数のタスクのための最初の層で手動で選択されたヘッドの注意マップを表示します。 Abnar & Zuidema (2020年) 20 K 専門メタワールドエージェントの詳細な結果 セクションで説明された専門メタワールドエージェント すべての 50 つの Meta-World タスクで 96.6% の平均成功率を達成します。 各タスクでエージェントを500回評価しました。 5.5 7. L Per-domain results for 猫 We describe performance of Gato for simulated control tasks in セクション In Table We evaluated agent 50 times for each task. 各タスクでエージェントを50回評価しました。 4.1位 8、 この論文は、CC by 4.0 Deed (Attribution 4.0 International) ライセンスの下で archiv で利用できます。 この論文は、CC by 4.0 Deed (Attribution 4.0 International) ライセンスの下で archiv で利用できます。