DeepMindのGatoが公開されました!アタリ ゲーム、キャプション画像、人とのチャット、本物のロボット アームの制御などができる 1 つのトランスフォーマーです。実際、一度トレーニングされ、同じ重みを使用してこれらすべてのタスクを達成します。そして Deepmind によると、これはトランスフォーマーであるだけでなく、エージェントでもあります。これは、トランスフォーマーとマルチタスク強化学習エージェントの進行状況を組み合わせるとどうなるかです。 前述したように、Gato はマルチモーダル エージェントです。画像のキャプションを作成したり、チャットボットとして質問に答えたりできることを意味します。 GPT-3 はすでにそれを実行できると言うかもしれませんが、Gato はさらに多くのことを行うことができます... マルチモダリティは、Gato が人間レベルで Atari ゲームをプレイしたり、ロボット アームを制御してオブジェクトを正確に動かします。言葉、イメージ、さらには物理を理解する... ビデオで詳細をご覧ください 参考文献 ►記事全文を読む: ►Deepmind のブログ投稿: ►論文: Reed S. et al., 2022, Deemind: Gato, ►マイ ニュースレター (毎週メールで説明される新しい AI アプリケーション!): https://www.louisbouchard.ai/deepmind-gato/ https://www.deepmind.com/publications/a-generalist-agent https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf https://www.louisbouchard.ai/newsletter/ ビデオ トランスクリプト 0:00 deepmind の Gato が公開されました 0:02 1台で遊べるトランスフォーマーです 0:04 atari ゲーム キャプション 画像 チャット 0:07 人が本物のロボットアームを制御し、 0:09 もっと確かに一度訓練され、 0:12 これらすべてのタスクを達成するための同じ重み 0:15 そしてディープマインドによると、これは単なる 0:17 トランスでもエージェントでもある 0:20 トランスフォーマーを混ぜるとどうなるか 0:22 マルチタスクの進捗状況 0:23 私たちが言ったように、強化学習エージェント 0:26 gato はマルチモーダル エージェントであり、 0:29 画像のキャプションを作成したり、 0:31 チャットボットとして質問に答える 0:34 そのgpt3はすでにそれを行うことができますが、ゲットー 0:36 マルチモダリティはより多くのことを行うことができます 0:39 ゲットーもアタリをプレイできるという事実 0:41 人間レベルのゲーム、または実際のゲーム 0:44 ロボットの制御などのワールド タスク 0:46 オブジェクトを正確に動かすための腕 0:48 言葉のイメージを理解し、さらには 0:51 物理ゲットーは最初のゼネラリストです 0:54 非常に多くのパフォーマンスを発揮するモデル 0:56 さまざまなタスクとそれは非常に 0:58 訓練された分野に有望 1:00 さまざまな 604 の異なるタスクについて 1:03 モダリティ 観察と行動 1:06 完璧な仕様 1:08 ジェネラリストであり、私が言ったように、それはすべてを行います 1:11 同じネットワークと重みを持つ 1:13 あなたが尋ねる前に、それは1.2しか必要としません 1:15 gpt3 と比較して 10 億のパラメータ 1:18 必要 1:19 1750億個 罠じゃない 1:22 ユニットを再訓練または戦う必要がある場所 1:24 すべてのタスクに、両方の画像を送信できます 1:27 とテキスト、それはあなたもできるように機能します 1:29 ロボット アームのいくつかの動きを追加する 1:32 モデルはどのタイプの 1:34 コンテキストに基づいて提供する出力 1:36 テキストから個別のアクションに至るまで 1:38 ビデオを楽しんだ場合の環境 1:41 購読を検討してください。 1:43 この種のニュースビデオが好きかどうか知っていますか 1:46 私は間違いなくもっとこれが可能です 1:48 トークン化プロセスのため 1:50 トークン化は、 1:52 モーダルの入力 1:55 テキストや画像を自分で理解する 1:57 言語モデルとゲットーが 1:59 サブワードの合計数 (例: 32) 2:02 000、各単語には番号が割り当てられています 2:05 彼らはvitに従っている画像のためにそれに 2:08 広く使われている 2:10 前の記事で説明した resnet ブロック 2:12 ビデオ ボタンもトークン化しました 2:14 アタリの整数としてのプレス 2:16 最終的にはゲームまたは離散値 2:19 固有受容のような連続値 2:21 ロボットで話した入力 2:23 彼らは別のトラックをエンコードした腕 2:25 行列を浮動小数点数に変換し、それらを追加しました 2:27 これらすべてを使用したテキストトークンの後 2:30 エージェントが適応するさまざまな入力 2:32 適切な生成を行う現在のタスク 2:34 プロンプトを使用するトレーニング中の出力 2:36 以前の gpt3 のように調整する 2:39 サンプリングされた行動と観測 2:42 ゼネラリストRLエージェントの進歩 2:44 ここ数年は信じられないほど素晴らしいものでした 2:47 主にディープマインドからそれを見ることができます 2:49 彼らは針をより近くに動かしています 2:51 一般的な AI または人間レベルの知性 2:55 最終的にそれを定義できるなら、私はその方法が大好きです 2:57 彼らが彼らの論文で与えた多くの詳細 2:59 彼らが何をするのか楽しみです 3:01 または他の人がこれを使用して何をするか 3:03 モデルのアーキテクチャへのリンク 3:06 の詳細については、論文を参照してください。 3:07 モデルは説明にあると思います 3:09 この短いビデオを楽しんだ 3:12 目が覚めたときのニュース 3:13 このビデオを作る以外のこと 3:15 私の一日を始める前に 3:17 わくわくします 来週お会いしましょう 別の素晴らしい紙