paint-brush
Deepmind は世界初の汎用 AI を作成した可能性があります@whatsai
5,862 測定値
5,862 測定値

Deepmind は世界初の汎用 AI を作成した可能性があります

Louis Bouchard3m2022/05/16
Read on Terminal Reader
Read this story w/o Javascript

長すぎる; 読むには

DeepMindのGatoが公開されました!アタリ ゲーム、キャプション画像、人とのチャット、本物のロボット アームの制御などができる 1 つのトランスフォーマーです。実際、一度トレーニングされ、同じ重みを使用してこれらすべてのタスクを達成します。 Gato は、画像のキャプションを作成したり、チャットボットとして質問に答えたりできるマルチモーダル エージェントです。言葉、画像、さらには物理学さえも理解します。詳細については、以下のビデオ トランスクリプトをご覧ください。

Company Mentioned

Mention Thumbnail
featured image - Deepmind は世界初の汎用 AI を作成した可能性があります
Louis Bouchard HackerNoon profile picture

DeepMindのGatoが公開されました!アタリ ゲーム、キャプション画像、人とのチャット、本物のロボット アームの制御などができる 1 つのトランスフォーマーです。実際、一度トレーニングされ、同じ重みを使用してこれらすべてのタスクを達成します。そして Deepmind によると、これはトランスフォーマーであるだけでなく、エージェントでもあります。これは、トランスフォーマーとマルチタスク強化学習エージェントの進行状況を組み合わせるとどうなるかです。

前述したように、Gato はマルチモーダル エージェントです。画像のキャプションを作成したり、チャットボットとして質問に答えたりできることを意味します。 GPT-3 はすでにそれを実行できると言うかもしれませんが、Gato はさらに多くのことを行うことができます... マルチモダリティは、Gato が人間レベルで Atari ゲームをプレイしたり、ロボット アームを制御してオブジェクトを正確に動かします。言葉、イメージ、さらには物理を理解する...

ビデオで詳細をご覧ください

参考文献

►記事全文を読む: https://www.louisbouchard.ai/deepmind-gato/
►Deepmind のブログ投稿: https://www.deepmind.com/publications/a-generalist-agent
►論文: Reed S. et al., 2022, Deemind: Gato, https://storage.googleapis.com/deepmind-media/A%20Generalist%20Agent/Generalist%20Agent.pdf
►マイ ニュースレター (毎週メールで説明される新しい AI アプリケーション!): https://www.louisbouchard.ai/newsletter/

ビデオ トランスクリプト

0:00

deepmind の Gato が公開されました

0:02

1台で遊べるトランスフォーマーです

0:04

atari ゲーム キャプション 画像 チャット

0:07

人が本物のロボットアームを制御し、

0:09

もっと確かに一度訓練され、

0:12

これらすべてのタスクを達成するための同じ重み

0:15

そしてディープマインドによると、これは単なる

0:17

トランスでもエージェントでもある

0:20

トランスフォーマーを混ぜるとどうなるか

0:22

マルチタスクの進捗状況

0:23

私たちが言ったように、強化学習エージェント

0:26

gato はマルチモーダル エージェントであり、

0:29

画像のキャプションを作成したり、

0:31

チャットボットとして質問に答える

0:34

そのgpt3はすでにそれを行うことができますが、ゲットー

0:36

マルチモダリティはより多くのことを行うことができます

0:39

ゲットーもアタリをプレイできるという事実

0:41

人間レベルのゲーム、または実際のゲーム

0:44

ロボットの制御などのワールド タスク

0:46

オブジェクトを正確に動かすための腕

0:48

言葉のイメージを理解し、さらには

0:51

物理ゲットーは最初のゼネラリストです

0:54

非常に多くのパフォーマンスを発揮するモデル

0:56

さまざまなタスクとそれは非常に

0:58

訓練された分野に有望

1:00

さまざまな 604 の異なるタスクについて

1:03

モダリティ 観察と行動

1:06

完璧な仕様

1:08

ジェネラリストであり、私が言ったように、それはすべてを行います

1:11

同じネットワークと重みを持つ

1:13

あなたが尋ねる前に、それは1.2しか必要としません

1:15

gpt3 と比較して 10 億のパラメータ

1:18

必要

1:19

1750億個 罠じゃない

1:22

ユニットを再訓練または戦う必要がある場所

1:24

すべてのタスクに、両方の画像を送信できます

1:27

とテキスト、それはあなたもできるように機能します

1:29

ロボット アームのいくつかの動きを追加する

1:32

モデルはどのタイプの

1:34

コンテキストに基づいて提供する出力

1:36

テキストから個別のアクションに至るまで

1:38

ビデオを楽しんだ場合の環境

1:41

購読を検討してください。

1:43

この種のニュースビデオが好きかどうか知っていますか

1:46

私は間違いなくもっとこれが可能です

1:48

トークン化プロセスのため

1:50

トークン化は、

1:52

モーダルの入力

1:55

テキストや画像を自分で理解する

1:57

言語モデルとゲットーが

1:59

サブワードの合計数 (例: 32)

2:02

000、各単語には番号が割り当てられています

2:05

彼らはvitに従っている画像のためにそれに

2:08

広く使われている

2:10

前の記事で説明した resnet ブロック

2:12

ビデオ ボタンもトークン化しました

2:14

アタリの整数としてのプレス

2:16

最終的にはゲームまたは離散値

2:19

固有受容のような連続値

2:21

ロボットで話した入力

2:23

彼らは別のトラックをエンコードした腕

2:25

行列を浮動小数点数に変換し、それらを追加しました

2:27

これらすべてを使用したテキストトークンの後

2:30

エージェントが適応するさまざまな入力

2:32

適切な生成を行う現在のタスク

2:34

プロンプトを使用するトレーニング中の出力

2:36

以前の gpt3 のように調整する

2:39

サンプリングされた行動と観測

2:42

ゼネラリストRLエージェントの進歩

2:44

ここ数年は信じられないほど素晴らしいものでした

2:47

主にディープマインドからそれを見ることができます

2:49

彼らは針をより近くに動かしています

2:51

一般的な AI または人間レベルの知性

2:55

最終的にそれを定義できるなら、私はその方法が大好きです

2:57

彼らが彼らの論文で与えた多くの詳細

2:59

彼らが何をするのか楽しみです

3:01

または他の人がこれを使用して何をするか

3:03

モデルのアーキテクチャへのリンク

3:06

の詳細については、論文を参照してください。

3:07

モデルは説明にあると思います

3:09

この短いビデオを楽しんだ

3:12

目が覚めたときのニュース

3:13

このビデオを作る以外のこと

3:15

私の一日を始める前に

3:17

わくわくします 来週お会いしましょう

別の素晴らしい紙