DeepMindのGatoが公開されました!アタリ ゲーム、キャプション画像、人とのチャット、本物のロボット アームの制御などができる 1 つのトランスフォーマーです。実際、一度トレーニングされ、同じ重みを使用してこれらすべてのタスクを達成します。そして Deepmind によると、これはトランスフォーマーであるだけでなく、エージェントでもあります。これは、トランスフォーマーとマルチタスク強化学習エージェントの進行状況を組み合わせるとどうなるかです。
前述したように、Gato はマルチモーダル エージェントです。画像のキャプションを作成したり、チャットボットとして質問に答えたりできることを意味します。 GPT-3 はすでにそれを実行できると言うかもしれませんが、Gato はさらに多くのことを行うことができます... マルチモダリティは、Gato が人間レベルで Atari ゲームをプレイしたり、ロボット アームを制御してオブジェクトを正確に動かします。言葉、イメージ、さらには物理を理解する...
►記事全文を読む: https://www.louisbouchard.ai/deepmind-gato/
►Deepmind のブログ投稿: https://www.deepmind.com/publications/a-generalist-agent
►論文: Reed S. et al., 2022, Deemind: Gato, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
►マイ ニュースレター (毎週メールで説明される新しい AI アプリケーション!): https://www.louisbouchard.ai/newsletter/
0:00
deepmind の Gato が公開されました
0:02
1台で遊べるトランスフォーマーです
0:04
atari ゲーム キャプション 画像 チャット
0:07
人が本物のロボットアームを制御し、
0:09
もっと確かに一度訓練され、
0:12
これらすべてのタスクを達成するための同じ重み
0:15
そしてディープマインドによると、これは単なる
0:17
トランスでもエージェントでもある
0:20
トランスフォーマーを混ぜるとどうなるか
0:22
マルチタスクの進捗状況
0:23
私たちが言ったように、強化学習エージェント
0:26
gato はマルチモーダル エージェントであり、
0:29
画像のキャプションを作成したり、
0:31
チャットボットとして質問に答える
0:34
そのgpt3はすでにそれを行うことができますが、ゲットー
0:36
マルチモダリティはより多くのことを行うことができます
0:39
ゲットーもアタリをプレイできるという事実
0:41
人間レベルのゲーム、または実際のゲーム
0:44
ロボットの制御などのワールド タスク
0:46
オブジェクトを正確に動かすための腕
0:48
言葉のイメージを理解し、さらには
0:51
物理ゲットーは最初のゼネラリストです
0:54
非常に多くのパフォーマンスを発揮するモデル
0:56
さまざまなタスクとそれは非常に
0:58
訓練された分野に有望
1:00
さまざまな 604 の異なるタスクについて
1:03
モダリティ 観察と行動
1:06
完璧な仕様
1:08
ジェネラリストであり、私が言ったように、それはすべてを行います
1:11
同じネットワークと重みを持つ
1:13
あなたが尋ねる前に、それは1.2しか必要としません
1:15
gpt3 と比較して 10 億のパラメータ
1:18
必要
1:19
1750億個 罠じゃない
1:22
ユニットを再訓練または戦う必要がある場所
1:24
すべてのタスクに、両方の画像を送信できます
1:27
とテキスト、それはあなたもできるように機能します
1:29
ロボット アームのいくつかの動きを追加する
1:32
モデルはどのタイプの
1:34
コンテキストに基づいて提供する出力
1:36
テキストから個別のアクションに至るまで
1:38
ビデオを楽しんだ場合の環境
1:41
購読を検討してください。
1:43
この種のニュースビデオが好きかどうか知っていますか
1:46
私は間違いなくもっとこれが可能です
1:48
トークン化プロセスのため
1:50
トークン化は、
1:52
モーダルの入力
1:55
テキストや画像を自分で理解する
1:57
言語モデルとゲットーが
1:59
サブワードの合計数 (例: 32)
2:02
000、各単語には番号が割り当てられています
2:05
彼らはvitに従っている画像のためにそれに
2:08
広く使われている
2:10
前の記事で説明した resnet ブロック
2:12
ビデオ ボタンもトークン化しました
2:14
アタリの整数としてのプレス
2:16
最終的にはゲームまたは離散値
2:19
固有受容のような連続値
2:21
ロボットで話した入力
2:23
彼らは別のトラックをエンコードした腕
2:25
行列を浮動小数点数に変換し、それらを追加しました
2:27
これらすべてを使用したテキストトークンの後
2:30
エージェントが適応するさまざまな入力
2:32
適切な生成を行う現在のタスク
2:34
プロンプトを使用するトレーニング中の出力
2:36
以前の gpt3 のように調整する
2:39
サンプリングされた行動と観測
2:42
ゼネラリストRLエージェントの進歩
2:44
ここ数年は信じられないほど素晴らしいものでした
2:47
主にディープマインドからそれを見ることができます
2:49
彼らは針をより近くに動かしています
2:51
一般的な AI または人間レベルの知性
2:55
最終的にそれを定義できるなら、私はその方法が大好きです
2:57
彼らが彼らの論文で与えた多くの詳細
2:59
彼らが何をするのか楽しみです
3:01
または他の人がこれを使用して何をするか
3:03
モデルのアーキテクチャへのリンク
3:06
の詳細については、論文を参照してください。
3:07
モデルは説明にあると思います
3:09
この短いビデオを楽しんだ
3:12
目が覚めたときのニュース
3:13
このビデオを作る以外のこと
3:15
私の一日を始める前に
3:17
わくわくします 来週お会いしましょう
別の素晴らしい紙