22,038 測定値

22,038 測定値

DreamFusion: テキストから 3D モデルを生成する AI

に Louis Bouchard6 分 read2022/10/16

Read on Terminal Reader

Print this story

Read this story w/o Javascript

JA

長すぎる; 読むには

DreamFusion は、3D モデルを生成するのに十分な文を理解できる Google Research の新しいモデルです。結果はまだ完璧ではありませんが、この 1 年間でこの分野で達成した進歩は驚くべきものです。それほどクールにすることはできませんが、さらに魅力的なのはそれがどのように機能するかです。掘り下げてみましょう... これが Dream Fusion です。これは、3D モデルを生成するのに十分な文を理解する、新しいコンピュータビジョンモデルです。

Companies Mentioned

Mention Thumbnail

Mention Thumbnail

featured image - DreamFusion: テキストから 3D モデルを生成する AI

文を

できるモデルを以前に見たことがあります。

オブジェクトや特定のスタイルなどの特定の概念を学習

も見てきました。

先週、Meta は、私が取り上げた

を公開しました。このモデルを使用すると、テキストセンテンスからも短いビデオを生成できます。結果はまだ完璧ではありませんが、この 1 年間でこの分野で達成した進歩は驚くべきものです。

今週、私たちはさらに一歩前進します。

これは、3D モデルを生成するのに十分な文を理解できる Google Research の新しいモデル、DreamFusion です。

これは、

または

として見ることができますが、3D で表示されます。

なんてクールなの?!これ以上涼しくすることはできません。

しかし、さらに魅力的なのは、それがどのように機能するかです。それに飛び込みましょう...

参考文献

►記事全文を読む: https://www.louisbouchard.ai/dreamfusion/
►Poole, B.、Jain, A.、Barron, JT および Mildenhall, B.、2022 年。DreamFusion: 2D 拡散を使用したテキストから 3D へ。 arXiv プレプリント arXiv:2209.14988.
►プロジェクトのウェブサイト: https://dreamfusion3d.github.io/
►マイニュースレター (毎週メールで説明される新しい AI アプリケーション!): https://www.louisbouchard.ai/newsletter/

ビデオトランスクリプト

0:02

私たちは、モデルが取ることができるのを見てきました

0:04

文と画像を生成し、次にその他

0:07

生成されたものを操作するアプローチ

0:09

特定の概念を学ぶことによるイメージ

0:11

オブジェクトや特定のスタイルのように

0:13

先週、メタが公開されました

0:16

私がカバーしたビデオモデルは、

0:18

からも短いビデオを生成します

0:20

結果がそうでないテキスト文

0:22

まだ完璧ですが、私たちが成し遂げた進歩

0:24

昨年からのフィールドで

0:26

信じられないほど今週は別のものを作ります

0:28

step forward here's dream Fusion a new

0:32

できるGoogleの研究モデル

0:34

生成するのに十分な文を理解する

0:36

それからの3Dモデルは、これを次のように見ることができます

0:39

ゆっくりとしたまたは安定した拡散ですが、3Dでは

0:41

私たちがそれをあまり作ることができないのはなんてクールなことでしょう

0:44

よりクールですが、さらに魅力的なのは

0:46

それがどのように機能するかについて詳しく見ていきましょう

0:49

最初に数秒間話してください

0:51

関連科目についてコンピュータビジョン

0:53

あなたがいるなら、あなたはそれを聞きたいと思うでしょう

0:55

このフィールドもこのビデオの I'm

0:57

エンコード・ザ・オンラインとの提携

1:00

コンピュータビジョンの学習プラットフォーム

1:01

データは最も重要な部分の 1 つです

1:04

革新的なコンピュータービジョンの作成

1:06

エンコードプラットフォームが持っている理由です

1:09

作るためにゼロから構築された

1:10

トレーニングデータの作成と

1:12

機械学習モデルのテスト

1:14

これまでのencordよりも速い

1:17

これは2つの方法で最初にそれを作ります

1:19

注釈と評価の管理が容易

1:22

さまざまなトレーニングデータ

1:24

共同注釈ツールと

1:25

自動化機能は 2 番目にエンコードします

1:28

QA ワークフロー API へのアクセスを提供します

1:31

および SDK を使用して、独自のものを作成できます。

1:33

高速化するアクティブラーニングパイプライン

1:35

モデル開発とエンコードの使用

1:38

構築に時間を無駄にする必要はありません

1:39

独自の注釈ツールにより、

1:41

適切なデータを取得することに集中する

1:44

面白そうならあなたのモデル

1:46

以下の最初のリンクをクリックして入手してください

1:48

エンコード専用の 28 日間無料トライアル

1:51

私たちのコミュニティへ

1:54

あなたが私の仕事の夢を追ってきたなら

1:56

フュージョンは非常にシンプルで、基本的に使用します

1:59

私がすでにカバーした2つのモデルNerfsと

2:02

テキストから画像へのモデルの1つ

2:04

イモージェンモデルの場合ですが、あなたは

2:07

安定した拡散やドリーのようにします

2:09

あなたが良い人だったかどうか知っているように

2:11

学生で、以前のビデオを見た

2:12

Nerfs は、レンダリングに使用される一種のモデルです

2:15

ニューラルラディアンスの生成による 3D シーン

2:18

の 1 つまたは複数の画像からのフィールド

2:21

オブジェクトですが、どのように生成できますか

2:23

Nerf モデルの場合、テキストから 3D レンダリング

2:26

私たちがよく使う画像でのみ機能します

2:29

imagen 他の AI が画像を生成する

2:31

それが取るものからのバリエーションとその理由

2:34

直接の代わりにそれを行いますか

2:36

テキストから 3D モデルを生成する理由

2:38

3D の膨大なデータセットが必要になります。

2:41

関連するデータとともに

2:43

トレーニングするモデルのキャプション

2:46

これは非常に難しいでしょう

2:48

代わりに、事前にトレーニングされたテキストを使用して

2:50

はるかに複雑でないデータの画像モデル

2:53

一緒にそれを 3D に適応させて、

2:56

3D データは必要ありません。

2:57

既存の AI のみで訓練された

3:00

画像を生成する方法は本当にクールです

3:03

強力なテクノロジーを再利用できます

3:05

通訳時のこのような新しいタスク

3:07

問題は異なるので、開始すると

3:09

最初からNerfモデルがあります

3:12

以前のビデオで説明したように、これは

3:14

モデルのタイプは、予測するために画像を取得します

3:17

を作成する各新規ビューのピクセル

3:20

の画像ペアから学習することによる 3D モデル

3:22

同じオブジェクトで異なる

3:24

私たちの場合、私たちは始めません

3:26

画像を直接使用して、

3:28

テキストとサンプルランダムビュー

3:30

画像を生成したい向き

3:33

基本的に、私たちは作成しようとしています

3:35

すべての画像を生成することによる 3D モデル

3:38

カメラがカバーできる可能性のある角度

3:40

オブジェクトを見回して推測する

3:42

ピクセル色密度光

3:45

反省などに必要なすべて

3:48

現実的に見えるようにしてから始めます

3:50

キャプション付きで、小さな調整を追加します

3:52

それはランダムなカメラに依存します

3:54

生成したい視点

3:56

前線を生成したい例

3:58

ビューに前面ビューを追加します

4:01

私たちが使用する反対側のキャプション

4:03

の同じ角度とカメラパラメータ

4:05

最初のトレーニングされていない Nerf モデルを

4:09

最初のレンダリングを予測してから

4:11

イメージバージョンを生成する

4:13

追加されたキャプションと初期レンダリング

4:17

事前に訓練されたテキストを想像してください

4:20

さらに説明した画像モデルへ

4:22

興味があれば私の画像とビデオで

4:24

それがどのように行われるかを確認するために、私たちのイメージと

4:26

モデルはテキスト入力によって導かれます

4:28

の現在のレンダリングと同様に、

4:30

ここにノイズが追加されたオブジェクトを追加します

4:33

これは画像と

4:36

モジュールは、必要な入力として受け取ることができます

4:38

ノイズ分布の一部

4:40

モデルを使用して生成することを理解しています

4:43

より高品質の画像画像を追加

4:45

それを生成してノイズを除去するために使用されます

4:48

この結果を使用するために手動で追加しました

4:51

Nerf モデルを導き、改善する

4:54

次のステップでは、すべてをより良いものにします

4:55

ナーフが画像のどこにあるかを理解する

4:57

モデルはその注意を集中する必要があります

4:59

次のステップでより良い結果を生み出す

5:01

3Dモデルが完成するまでそれを繰り返します

5:05

十分に満足してからエクスポートできます

5:07

このモデルをメッシュ化してシーンで使用する

5:10

あなたの選択の、そしてあなたの何人かの前に

5:12

いいえ、再トレーニングする必要はありません

5:15

彼らが言うように画像生成モデル

5:17

論文では、それは単に

5:19

画像空間を予測する凍った評論家

5:21

編集とvoiraこれがFusionの夢です

5:25

テキスト入力から 3D レンダリングを生成します

5:28

もっと深くしたいなら

5:30

アプローチの理解は

5:32

神経をカバーする私のビデオを見て、

5:34

Imogen もぜひお読みください。

5:36

この特定の詳細については、ペーパー

5:39

メソッド全体を見てくれてありがとう

5:41

ビデオで、来週お会いしましょう

5:44

別の素晴らしい紙

Databricks <> AWS Marketplace

L O A D I N G
. . . comments & more!

About Author

Louis Bouchard@whatsai

I explain Artificial Intelligence terms and news to non-experts.

Read my stories

ラベル

#ai #artificial-intelligence #art #3d #machine-learning #data-science #hackernoon-top-story #computer-vision #web-monetization

この記事は...

Read on Terminal Reader

Read this story w/o Javascript

Mentioned in this story

companies

Mention Thumbnail

Mention Thumbnail

Meta

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

Categories

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks