paint-brush
一般的なビデオ認識とは?@whatsai
864 測定値
864 測定値

一般的なビデオ認識とは?

Louis Bouchard6m2022/09/09
Read on Terminal Reader
Read this story w/o Javascript

長すぎる; 読むには

AI がテキストを生成し、次に画像を生成し、最近では短い動画を生成することさえ見てきましたが、まだ改善が必要です。 これらの作品の作成プロセスに実際に誰も関与していないことを考えると、結果は信じられないほどであり、安定した拡散のように、一度トレーニングするだけで何千人もの人々が使用できます. それでも、これらのモデルは自分たちが何をしているかを本当に理解しているのでしょうか?作成したばかりの写真やビデオが実際に何を表しているか知っていますか? そのようなモデルは、そのような写真やさらに複雑なビデオを見たときに何を理解するのでしょうか?詳しくは動画で…(プレゼント情報も動画で!)
featured image - 一般的なビデオ認識とは?
Louis Bouchard HackerNoon profile picture

AI がテキストを生成し、次に画像を生成し、最近では短いビデオを生成することさえ見てきましたが、まだ改善が必要です.

これらの作品の作成プロセスに実際に誰も関与していないことを考えると、結果は信じられないほどであり、安定した拡散のように、一度トレーニングするだけで何千人もの人々が使用できます.

それでも、これらのモデルは自分たちが何をしているかを本当に理解しているのでしょうか?作成したばかりの写真やビデオが実際に何を表しているか知っていますか?

そのようなモデルは、そのような写真やさらに複雑なビデオを見たときに何を理解するのでしょうか?詳しくは動画で… (RTX GPUプレゼント情報も動画で!)

参考文献

►記事全文を読む:
https://www.louisbouchard.ai/general-video-recognition/
►Ni, B., Peng, H., Chen, M., Zhang, S., Meng, G., Fu, J., Xiang, S. および
Ling, H., 2022. 一般向けの言語イメージの事前トレーニング済みモデルの拡張
ビデオ認識。 arXiv プレプリント arXiv:2208.02816.
►コード: https://github.com/microsoft/VideoX/tree/master/X-CLIP
►マイ ニュースレター (新しい AI アプリケーションについて毎週メールでお知らせします!):
https://www.louisbouchard.ai/newsletter/

ビデオトランスクリプト

0:00

AIがテキストを生成するのを見てきました

0:02

画像を生成し、最近では

0:05

短いビデオを生成します

0:07

結果はまだ作業が必要です

0:09

特にあなたが考えるとき信じられないほど

0:11

誰も実際に関与していないこと

0:13

これらの作品の制作過程と

0:16

それまでは一度に訓練するだけでよい

0:18

のような何千人もの人々によって使用される

0:20

安定した拡散はまだこれらを行う

0:23

モーダルはそれらが何であるかを本当に理解しています

0:25

彼らは何の写真か知っていますか?

0:27

彼らが実際に制作したばかりのビデオ

0:29

そのようなモデルが何をするかを表します

0:31

そのような写真を見ると理解できます

0:34

またはさらに複雑なビデオに焦点を当てましょう

0:36

2つのうちのより挑戦的なものと

0:38

AI が動画を理解する方法を探る

0:41

一般的なビデオと呼ばれるタスクを通じて

0:44

目標がある場合の認識

0:46

ビデオを入力として使用するモデル

0:49

で何が起こっているかを説明するテキスト

0:51

ビデオですが、最初はあなたが気に入ると思います

0:53

このエピソードのスポンサーと彼らが持っているもの

0:55

素晴らしい無料の AI イベントを提供する

0:59

この動画は scale ai と提携しています

1:01

scalia は、

1:04

世界をリードする AI カンファレンスの変革

1:07

x この 10 月 19 日から 21 日までの transformix

1:11

20000以上のAIを集め、

1:14

ml リーダー ビジョナリー プラクティショナーと

1:16

調査する業界全体の研究者

1:19

AIと機械学習の運用化

1:22

transfer mix は無料の仮想イベントであり、

1:24

企業から120人のスピーカーが参加します

1:27

メタ openai ディープマインド google etsy のように

1:31

個人的にとても楽しみにしています

1:33

greg brockman openai の共同創設者から

1:36

社長とコーリー副社長

1:39

deepmind two の研究と技術

1:41

私たちの最も重要な企業の

1:43

フィールドも本当にあるでしょう

1:45

ファンタスティックからの興味深い話

1:46

フランソワのような分野への貢献者

1:49

私がするケラスの作成者のシャレー

1:51

お見逃しなく

1:53

この無料の教育に参加するチャンス

1:55

昨年大ヒットしたイベントで、

1:58

見逃したくない

2:00

に参加するには、以下の最初のリンク

2:01

私とtransformix会議と

2:03

私の仕事をサポートする

2:06

一般的なビデオ認識

2:08

で最も困難なタスクの 1 つです。

2:10

ビデオを理解していますが、それは

2:13

モデルの取得能力の最良の尺度

2:15

何が起こっているのか それはまた基礎です

2:17

に依存する多くのアプリケーションの背後にある

2:19

スポーツなどの動画がよくわかる

2:22

分析または自動運転、しかし何

2:24

このタスクは非常に複雑になります

2:27

私たちが理解する必要がある2つのことです

2:30

各フレームまたは各フレームの意味

2:33

特定の動画の画像を 2 番目に

2:36

私たちが何を言うことができる必要があります

2:38

人間が理解できる方法で理解する

2:41

幸運にも言葉を使うことを意味します

2:44

私たちは2番目の課題に取り組みました

2:46

言語コミュニティによって何度も

2:49

私たちは彼らの仕事をもっと引き継ぐことができます

2:51

正確には、私たちは何から人々を連れ出すことができますか

2:53

言語画像フィールドは

2:56

クリップまたは安定したモデル

2:58

テキストエンコーダーがある拡散

3:01

学習する画像エンコーダ

3:04

両方のタイプの入力を

3:06

このように同じ種類の表現

3:09

似たシーンと似たシーンを比較できる

3:11

アーキテクチャのトレーニングによるテキスト プロンプト

3:13

何百万もの画像キャプションの例

3:16

テキストと画像の両方を持つペア

3:18

同様のスペースでエンコードされたものは強力です

3:20

必要なスペースがはるかに少ないため、

3:22

計算を実行すると、次のことが可能になります

3:24

テキストと画像を簡単に比較する

3:27

モデルがまだ理解していないこと

3:29

画像でも簡単な文章でも

3:32

少なくとも両方がそうであるかどうかを理解できます

3:34

似ているかどうかはまだ遠い

3:37

知性ですが、それはかなり役に立ちます

3:39

そして、ほとんどの場合に十分です

3:42

ここで最大の課題となるビデオ

3:44

そのために、次のアプローチを使用します

3:47

最近ベルリンで私と同僚

3:49

紙の拡大言語イメージ

3:51

一般的なビデオ用の事前トレーニング済みモーダル

3:54

認識ビデオははるかに複雑です

3:56

時間の関係で画像より

3:58

複数のフレームを意味する情報

4:01

そして各コマがリンクしていること

4:03

次と前のものに

4:05

モデルの一貫した動きとアクション

4:08

以前に何が起こったのかを確認する必要があります

4:10

各フレームの後に適切な

4:13

シーンの理解だけです

4:15

YouTube のように 5 をスキップすることはできません

4:18

短いビデオで数秒進む

4:20

これで貴重な情報が失われます

4:23

各フレームを取得して送信する場合

4:25

同じ画像エンコーダーに

4:27

ビジョントランスフォーマーを使用して議論

4:30

それらを処理するベースのアーキテクチャ

4:32

あなたが注意を払って凝縮された空間

4:35

ビジョンに慣れていない

4:36

変圧器または注意メカニズム

4:39

ビデオを見るように招待します

4:40

あなたがあなたを持ったら、それらを紹介しました

4:43

できる各フレームの表現

4:45

同様の注意ベースのプロセスを使用して

4:47

各フレームを一緒に通信させ、

4:50

モデルが情報を交換できるようにする

4:52

フレーム間でファイナルを作成する

4:55

このビデオの表現

4:57

フレーム間の情報交換

4:59

注意を使用することは、ある種のように機能します

5:02

モデルが理解するためのメモリ

5:04

いくつかではなく全体としてのビデオ

5:06

ランダムな画像を一緒に最終的に使用します

5:09

マージする別の注意モジュール

5:11

私たちが持っていたフレームのテキストエンコーディング

5:14

私たちの凝縮されたビデオ表現

5:17

ほら、これは一方通行の AI です

5:20

もちろん、これはビデオを理解しています

5:23

によるこの素晴らしい論文の概要

5:25

として機能するマイクロソフトの研究

5:27

ビデオ認識の紹介 i

5:30

彼らの論文を読んでください

5:32

彼らのアプローチをよりよく理解する i

5:34

また、発表する喜びを持っています

5:36

次の nvidia gtc の別の景品

5:39

9月19日から9月までのイベント

5:42

22番目のnvidiaが再び私に与えています

5:45

これに譲るrtx 3080 ti

5:48

に参加するあなたのためのコミュニティ

5:50

あなたがしなければならない唯一の2つのことをイベント

5:53

勝つチャンスを得るためには

5:55

チャンネル登録とdmお願いします

5:57

通行料金のスクリーンショット

5:59

イベント中に参加決定

6:02

ご覧いただきありがとうございます

6:04

ビデオと私の友人への暖かい感謝

6:06

私が望むビデオをスポンサーするためのスケールAI

6:09

彼らの無料イベントで事実上あなたに会うために

6:11

まもなく、また来週お会いしましょう

6:13

別の素晴らしい紙で

[音楽]