paint-brush
DreamFusion: テキストから 3D モデルを生成する AI@whatsai
22,001 測定値
22,001 測定値

DreamFusion: テキストから 3D モデルを生成する AI

Louis Bouchard6m2022/10/16
Read on Terminal Reader
Read this story w/o Javascript

長すぎる; 読むには

DreamFusion は、3D モデルを生成するのに十分な文を理解できる Google Research の新しいモデルです。結果はまだ完璧ではありませんが、この 1 年間でこの分野で達成した進歩は驚くべきものです。それほどクールにすることはできませんが、さらに魅力的なのはそれがどのように機能するかです。掘り下げてみましょう... これが Dream Fusion です。これは、3D モデルを生成するのに十分な 文を 理解する、新しいコンピュータ ビジョン モデルです。

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - DreamFusion: テキストから 3D モデルを生成する AI
Louis Bouchard HackerNoon profile picture

文をできるモデルを以前に見たことがあります。

オブジェクトや特定のスタイルなどの特定の概念を学習も見てきました。

先週、Meta は、私が取り上げたを公開しました。このモデルを使用すると、テキスト センテンスからも短いビデオを生成できます。結果はまだ完璧ではありませんが、この 1 年間でこの分野で達成した進歩は驚くべきものです。

今週、私たちはさらに一歩前進します。

これは、3D モデルを生成するのに十分な文を理解できる Google Research の新しいモデル、DreamFusion です。

これは、 またはとして見ることができますが、3D で表示されます。

なんてクールなの?!これ以上涼しくすることはできません。

しかし、さらに魅力的なのは、それがどのように機能するかです。それに飛び込みましょう...

参考文献

►記事全文を読む: https://www.louisbouchard.ai/dreamfusion/
►Poole, B.、Jain, A.、Barron, JT および Mildenhall, B.、2022 年。DreamFusion: 2D 拡散を使用したテキストから 3D へ。 arXiv プレプリント arXiv:2209.14988.
►プロジェクトのウェブサイト: https://dreamfusion3d.github.io/
►マイ ニュースレター (毎週メールで説明される新しい AI アプリケーション!): https://www.louisbouchard.ai/newsletter/

ビデオトランスクリプト

0:02

私たちは、モデルが取ることができるのを見てきました

0:04

文と画像を生成し、次にその他

0:07

生成されたものを操作するアプローチ

0:09

特定の概念を学ぶことによるイメージ

0:11

オブジェクトや特定のスタイルのように

0:13

先週、メタが公開されました

0:16

私がカバーしたビデオモデルは、

0:18

からも短いビデオを生成します

0:20

結果がそうでないテキスト文

0:22

まだ完璧ですが、私たちが成し遂げた進歩

0:24

昨年からのフィールドで

0:26

信じられないほど今週は別のものを作ります

0:28

step forward here's dream Fusion a new

0:32

できるGoogleの研究モデル

0:34

生成するのに十分な文を理解する

0:36

それからの3Dモデルは、これを次のように見ることができます

0:39

ゆっくりとしたまたは安定した拡散ですが、3Dでは

0:41

私たちがそれをあまり作ることができないのはなんてクールなことでしょう

0:44

よりクールですが、さらに魅力的なのは

0:46

それがどのように機能するかについて詳しく見ていきましょう

0:49

最初に数秒間話してください

0:51

関連科目について コンピュータビジョン

0:53

あなたがいるなら、あなたはそれを聞きたいと思うでしょう

0:55

このフィールドもこのビデオの I'm

0:57

エンコード・ザ・オンラインとの提携

1:00

コンピュータビジョンの学習プラットフォーム

1:01

データは最も重要な部分の 1 つです

1:04

革新的なコンピューター ビジョンの作成

1:06

エンコードプラットフォームが持っている理由です

1:09

作るためにゼロから構築された

1:10

トレーニングデータの作成と

1:12

機械学習モデルのテスト

1:14

これまでのencordよりも速い

1:17

これは2つの方法で最初にそれを作ります

1:19

注釈と評価の管理が容易

1:22

さまざまなトレーニングデータ

1:24

共同注釈ツールと

1:25

自動化機能は 2 番目にエンコードします

1:28

QA ワークフロー API へのアクセスを提供します

1:31

および SDK を使用して、独自のものを作成できます。

1:33

高速化するアクティブ ラーニング パイプライン

1:35

モデル開発とエンコードの使用

1:38

構築に時間を無駄にする必要はありません

1:39

独自の注釈ツールにより、

1:41

適切なデータを取得することに集中する

1:44

面白そうならあなたのモデル

1:46

以下の最初のリンクをクリックして入手してください

1:48

エンコード専用の 28 日間無料トライアル

1:51

私たちのコミュニティへ

1:54

あなたが私の仕事の夢を追ってきたなら

1:56

フュージョンは非常にシンプルで、基本的に使用します

1:59

私がすでにカバーした2つのモデルNerfsと

2:02

テキストから画像へのモデルの1つ

2:04

イモージェンモデルの場合ですが、あなたは

2:07

安定した拡散やドリーのようにします

2:09

あなたが良い人だったかどうか知っているように

2:11

学生で、以前のビデオを見た

2:12

Nerfs は、レンダリングに使用される一種のモデルです

2:15

ニューラル ラディアンスの生成による 3D シーン

2:18

の 1 つまたは複数の画像からのフィールド

2:21

オブジェクトですが、どのように生成できますか

2:23

Nerf モデルの場合、テキストから 3D レンダリング

2:26

私たちがよく使う画像でのみ機能します

2:29

imagen 他の AI が画像を生成する

2:31

それが取るものからのバリエーションとその理由

2:34

直接の代わりにそれを行いますか

2:36

テキストから 3D モデルを生成する理由

2:38

3D の膨大なデータ セットが必要になります。

2:41

関連するデータとともに

2:43

トレーニングするモデルのキャプション

2:46

これは非常に難しいでしょう

2:48

代わりに、事前にトレーニングされたテキストを使用して

2:50

はるかに複雑でないデータの画像モデル

2:53

一緒にそれを 3D に適応させて、

2:56

3D データは必要ありません。

2:57

既存の AI のみで訓練された

3:00

画像を生成する方法は本当にクールです

3:03

強力なテクノロジーを再利用できます

3:05

通訳時のこのような新しいタスク

3:07

問題は異なるので、開始すると

3:09

最初からNerfモデルがあります

3:12

以前のビデオで説明したように、これは

3:14

モデルのタイプは、予測するために画像を取得します

3:17

を作成する各新規ビューのピクセル

3:20

の画像ペアから学習することによる 3D モデル

3:22

同じオブジェクトで異なる

3:24

私たちの場合、私たちは始めません

3:26

画像を直接使用して、

3:28

テキストとサンプルランダムビュー

3:30

画像を生成したい向き

3:33

基本的に、私たちは作成しようとしています

3:35

すべての画像を生成することによる 3D モデル

3:38

カメラがカバーできる可能性のある角度

3:40

オブジェクトを見回して推測する

3:42

ピクセル 色 密度 光

3:45

反省などに必要なすべて

3:48

現実的に見えるようにしてから始めます

3:50

キャプション付きで、小さな調整を追加します

3:52

それはランダムなカメラに依存します

3:54

生成したい視点

3:56

前線を生成したい例

3:58

ビューに前面ビューを追加します

4:01

私たちが使用する反対側のキャプション

4:03

の同じ角度とカメラ パラメータ

4:05

最初のトレーニングされていない Nerf モデルを

4:09

最初のレンダリングを予測してから

4:11

イメージ バージョンを生成する

4:13

追加されたキャプションと初期レンダリング

4:17

事前に訓練されたテキストを想像してください

4:20

さらに説明した画像モデルへ

4:22

興味があれば私の画像とビデオで

4:24

それがどのように行われるかを確認するために、私たちのイメージと

4:26

モデルはテキスト入力によって導かれます

4:28

の現在のレンダリングと同様に、

4:30

ここにノイズが追加されたオブジェクトを追加します

4:33

これは画像と

4:36

モジュールは、必要な入力として受け取ることができます

4:38

ノイズ分布の一部

4:40

モデルを使用して生成することを理解しています

4:43

より高品質の画像 画像を追加

4:45

それを生成してノイズを除去するために使用されます

4:48

この結果を使用するために手動で追加しました

4:51

Nerf モデルを導き、改善する

4:54

次のステップでは、すべてをより良いものにします

4:55

ナーフが画像のどこにあるかを理解する

4:57

モデルはその注意を集中する必要があります

4:59

次のステップでより良い結果を生み出す

5:01

3Dモデルが完成するまでそれを繰り返します

5:05

十分に満足してからエクスポートできます

5:07

このモデルをメッシュ化してシーンで使用する

5:10

あなたの選択の、そしてあなたの何人かの前に

5:12

いいえ、再トレーニングする必要はありません

5:15

彼らが言うように画像生成モデル

5:17

論文では、それは単に

5:19

画像空間を予測する凍った評論家

5:21

編集とvoiraこれがFusionの夢です

5:25

テキスト入力から 3D レンダリングを生成します

5:28

もっと深くしたいなら

5:30

アプローチの理解は

5:32

神経をカバーする私のビデオを見て、

5:34

Imogen もぜひお読みください。

5:36

この特定の詳細については、ペーパー

5:39

メソッド全体を見てくれてありがとう

5:41

ビデオで、来週お会いしましょう

5:44

別の素晴らしい紙