paint-brush
リアルタイム ポートレート合成 (RAD-NeRF) のための効率的な NeRF@whatsai
2,132 測定値
2,132 測定値

リアルタイム ポートレート合成 (RAD-NeRF) のための効率的な NeRF

Louis Bouchard6m2022/12/05
Read on Terminal Reader

長すぎる; 読むには

ディープフェイクや NeRF については聞いたことがあります。また、誰かの顔を再現して、好きなことを言わせることができるこのような種類のアプリケーションを見てきました。 あなたが知らないかもしれないことは、これらの方法がどれほど非効率的で、どれだけの計算と時間が必要かということです。さらに、最良の結果のみが表示されます。オンラインで見られるのは、ほとんどの例を見つけることができる顔に関連付けられた結果であることを覚えておいてください。したがって、基本的に、インターネットのパーソナリティとそれらの結果を生成するモデルは、多くのコンピューティングを使用してトレーニングされます。つまり、多くのグラフィックス カードのような高価なリソースを意味します。それでも、結果は本当に印象的で、良くなっています。
featured image - リアルタイム ポートレート合成 (RAD-NeRF) のための効率的な NeRF
Louis Bouchard HackerNoon profile picture

Deepfakesについて聞いたことがあります。また、誰かの顔を再現して、好きなことを言わせることができるこの種のアプリケーションを見てきました。

あなたが知らないかもしれないことは、これらの方法がどれほど非効率的で、どれだけの計算と時間が必要かということです。さらに、最良の結果のみが表示されます。オンラインで見られるのは、ほとんどの例を見つけることができる顔に関連付けられた結果であることを覚えておいてください。したがって、基本的に、インターネットのパーソナリティとそれらの結果を生成するモデルは、多くのコンピューティングを使用してトレーニングされます。つまり、多くのグラフィックス カードのような高価なリソースを意味します。それでも、結果は本当に印象的で、良くなっています。

幸いなことに、Jiaxian Tang などの一部の人々は、RAD-NeRF と呼ばれる新しいモデルを使用して、これらの方法をより利用可能かつ効果的にすることに取り組んでいます。

1 つのビデオから、ほぼすべての単語や文章を話している人物をリアルタイムでより良い品質で合成できます。任意のオーディオ トラックにリアルタイムで追従するトーキング ヘッドをアニメートできます。これはとてもクールであると同時に恐ろしいことでもあります...

ビデオで詳細をご覧ください

参考文献

►Tang, J., Wang, K., Zhou, H., Chen, X., He, D., Hu, T., Liu, J., Zeng, G. and Wang, J., 2022. Real-時間 音声空間分解によるニューラル ラディアンス トーキング ポートレート合成。 arXiv プレプリント arXiv:2211.12368 .
►結果・プロジェクトページ: https://me.kiu​​i.moe/radnerf/

ビデオトランスクリプト

0:02

[音楽]

0:07

私たちは聞いたディープフェイクについて聞いたことがあります

0:09

ナーフと私たちはこの種の

0:11

再作成を可能にするアプリケーション

0:13

誰かの顔とほとんど彼を作る

0:15

言いたいことは何でも言う

0:17

それらの方法がどれほど非効率的であるかを知っています

0:20

コンピューティングと時間

0:22

加えて、私たちは最高のものだけを見ます

0:24

結果は、私たちが見ていることを心に留めておいてください

0:26

online は関連する結果です

0:29

ほとんどの例を見つけることができた顔

0:31

基本的にインターネットのパーソナリティと

0:34

これらの結果を生成するモデルは

0:36

多くのコンピューティングの意味を使用して訓練された

0:38

多くのグラフィックなどの高価なリソース

0:41

カードはまだ結果は本当にです

0:43

印象的で、良くなっています

0:45

幸いなことに、ジャクソンが好きな人もいます

0:47

唐と同僚が取り組んでいます

0:49

それらのメソッドをより利用可能にし、

0:52

赤と呼ばれる新しいモデルで効果的

0:54

ナーフだけど自分から聞いてみよう

0:57

モデル こんにちは ご覧いただきありがとうございます

0:59

私たちの論文の補足ビデオ

1:00

リアルタイム ニューラル Radiance トーキング ヘッド

1:03

分解されたオーディオ空間による合成

1:05

エンコーディング

1:06

私たちの方法は個人に固有のものであり、

1:08

3分から5分の単眼鏡が必要です

1:10

トレーニング用ビデオ

1:11

トレーニング後、モデルを合成できます

1:14

によって駆動されるリアルなトーキング ヘッズ

1:15

任意の音声をリアルタイムで

1:17

同等以上のレンダリングを維持する

1:19

以前の方法と比較して品質が高いため、

1:21

あなたはそれを1つのビデオから正しく聞いた

1:23

彼らは話している人を合成することができます

1:26

のほぼすべての単語または文に対して

1:28

より良い品質でリアルタイム

1:30

しゃべる頭をアニメーション化して、

1:33

リアルタイムのオーディオトラック これはどちらもそうです

1:36

クールで怖いと同時に

1:39

できるとしたら何ができるか想像してみてください

1:40

少なくとも彼らはあなたに何でも言わせます

1:43

あなたのビデオへのアクセスがまだ必要です

1:45

カメラの前で5分間話す

1:47

分なので、それを達成するのは難しい

1:48

あなたが知らないうちに

1:51

誰でも使用できるようにオンラインで表示されます

1:53

そのようなモデルと無限のビデオを作成します

1:56

彼らが望むことについて話しているあなたの

1:58

彼らはライブストリームをホストすることさえできます

2:00

さらに危険なこの方法

2:03

ウェットスーツと言うのはさらに難しくなります

2:05

とにかくこれは

2:08

興味深いので、あなたの話を聞きたいです

2:10

コメントの考えと維持

2:11

ここに行くディスカッションの質問が欲しかった

2:13

ポジティブなことだけをカバーする

2:15

エキサイティングな科学、より正確にはどのように

2:19

彼らはトーキングをアニメ化するために達成しましたか

2:20

を使用して任意のオーディオからリアルタイムでヘッド

2:23

彼らが述べている顔のビデオのみ

2:26

彼らの赤い Nerf モデルは 500 回実行できます

2:29

以前の作品よりも高速

2:31

レンダリング品質の向上など

2:33

あなたはそれがどのように可能であるかを尋ねるかもしれません

2:36

私たちは通常、効率のために品質を犠牲にします

2:39

それでも彼らは両方を改善することを達成します

2:41

信じられないほど、これらの計り知れない改善

2:43

3つの主なポイントのおかげで可能です

2:46

最初の 2 つは関連しています。

2:48

モデルのアーキテクチャ 詳細

2:50

具体的には、彼らがNerfをどのように適応させたか

2:52

より効率的にするためのアプローチと

2:54

胴体の動きが改善され、

2:57

頭の最初のステップは神経を作ることです

2:59

より効率的な方法については詳しく説明しません

3:02

多くのことをカバーして以来、弱体化は機能します

3:04

時間基本的にはに基づくアプローチです

3:06

3D を再構築するためのニューラル ネットワーク

3:09

大量の 2D からのボリューム シーン

3:11

画像 これは通常の画像を意味します

3:14

そのため、彼らはビデオを入力として受け取ります

3:17

それは基本的にあなたに多くを与えるので

3:19

さまざまな人のイメージ

3:21

通常はネットワークを使用して

3:24

すべてのピクセルの色と密度を予測する

3:26

あなたがいるカメラの視点から

3:28

視覚化し、すべての人にそれを行います

3:31

見せたい視点

3:32

被写体の周りを回転

3:34

あなたがそうであるように、非常に計算に飢えています

3:37

それぞれの複数のパラメータを予測する

3:39

毎回イメージでコーディネートして、

3:41

あなたはそれらすべてを予測することを学んでいます

3:43

さらに、彼らの場合、それはナーフだけではありません

3:46

制作や 3D シーンも必要です。

3:49

オーディオ入力を一致させ、唇にフィットさせます

3:51

口 目 と 動き と 何

3:53

人はすべてを予測する代わりに言う

3:56

一致するピクセル密度と色

3:58

特定のフレームのオーディオ

4:00

2つの別々の新しいものと凝縮されたもので動作します

4:03

グリッドスペースまたはグリッドベースと呼ばれるスペース

4:06

Nerf 彼らは彼らを翻訳します

4:08

より小さな 3D グリッド空間に座標を合わせます

4:11

トランスはオーディオをより小さな 2D にレイアウトしました

4:13

グリッド スペースを作成し、それらをレンダリングに送信します

4:16

head これは、それらがマージされないことを意味します

4:19

音声データと空間データ

4:22

指数関数的にサイズが大きくなります

4:23

それぞれに 2 次元の入力を追加する

4:26

座標のサイズを小さくする

4:29

オーディオ機能を維持しながら

4:31

オーディオと空間の特徴は別々です

4:34

何がアプローチをより多くするのか

4:36

効率的ですが、どのように結果を得ることができますか

4:38

凝縮されたスペースを使用する場合はより良い

4:40

情報が少ない

4:42

目のような制御可能な機能

4:44

点滅するコントロールをグリッドにナーフ

4:47

モデルはより現実的に学習します

4:48

と比較して目の動作

4:51

以前は本当に何かにアプローチしました

4:53

第二にリアリズムにとって重要

4:55

彼らが行った改善は、

4:57

同じものを使用して別のナーフと胴体

5:00

それをモデル化しようとするのではなくアプローチする

5:02

同じナーフでさらに頭を使用

5:04

これにより、必要なパラメーターがはるかに少なくなります

5:07

ここでの目標はさまざまなニーズです

5:09

全体ではなく頭の動きをアニメートする

5:12

胴体はかなり

5:14

static これらの場合、彼らは多くのことを使用します

5:16

よりシンプルで効率的な Nerf ベース

5:18

で動作する 2D でのみ動作するモジュール

5:21

の代わりに画像空間を直接

5:24

いつものようにカメラアレイを使用する

5:26

Nerf を使用してさまざまな製品を生成

5:28

胴体に不要な角度

5:30

基本的にはるかに効率的です

5:32

彼らはアプローチを変更したからです

5:35

リジッドのこの非常に具体的な使用例

5:37

胴体と頭の動きのビデオ

5:40

胴体で頭を再構成する

5:42

最終的なビデオを作成して、出来上がり

5:45

トーキングヘッド動画の制作方法

5:47

あらゆるオーディオ入力を超効率的に

5:50

もちろん、これは単なる概要でした

5:53

この新しいエキサイティングな研究出版物

5:55

そして、彼らはその間に他の変更を行います

5:57

作るためのアルゴリズムのトレーニング

5:59

より効率的で、どちらが3番目ですか

6:01

の冒頭で述べたポイント

6:03

あなたが疑問に思っているなら、ビデオを招待します

6:05

詳細については、彼らの論文をお読みください

6:07

リンク先の情報

6:09

あなたが私を去る前に、以下の説明

6:10

ただ感謝したかった人々

6:12

最近このチャンネルをサポートしました

6:14

patreonこれは必要ありません

6:16

私がここで行う仕事を厳密にサポートするために

6:18

artem vladiken Leopoldo に多大な感謝を

6:22

アルタ ムラーノ J コール マイケル カリチャオ

6:25

ダニエル・ギムネスと少数の匿名

6:28

寛大な寄付者

6:30

よろしくお願いします。

6:33

私の仕事を財政的に支援する余裕がある

6:35

私のpatreonページへのリンクは

6:37

以下の説明も同様ですが、ご安心ください

6:39

この下の誠実なコメントではない場合

6:42

ビデオは私が幸せになるために必要なすべてです

6:45

あなたはこのビデオを楽しんでいます。

6:47

来週、別の素晴らしい論文で

6:51

[音楽]