eDiffi の紹介: NVIDIA の新しい SOTA 画像合成モデル by@whatsai
2,095 測定値

eDiffi の紹介: NVIDIA の新しい SOTA 画像合成モデル

2022/11/05
5
@whatsai 2,095 測定値
tldt arrow
JA
Read on Terminal Reader

長すぎる; 読むには

NVIDIA の最新モデルである eDiffi は、DALLE 2 や Stable Diffusion などの以前のすべてのアプローチよりも見栄えがよく、より正確な画像を生成します。 eDiffi は、送信するテキストをよりよく理解し、よりカスタマイズ可能であり、NVIDIA の以前の論文で見た機能であるペインター ツールを追加します。動画で詳しく...
featured image - eDiffi の紹介: NVIDIA の新しい SOTA 画像合成モデル
Louis Bouchard HackerNoon profile picture

@whatsai

Louis Bouchard

I explain Artificial Intelligence terms and news to non-experts.

約 @whatsai
LEARN MORE ABOUT @WHATSAI'S EXPERTISE AND PLACE ON THE INTERNET.
react to story with heart

NVIDIA の最新モデルである eDiffi は、DALLE 2 や Stable Diffusion などの以前のすべてのアプローチよりも見栄えがよく、より正確な画像を生成します。 eDiffi は、送信するテキストをよりよく理解し、よりカスタマイズ可能であり、NVIDIA の以前の論文で見た機能であるペインター ツールを追加します。動画で詳しく...

参考文献

►記事全文を読む: https://www.louisbouchard.ai/ediffi/
► Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers, https://arxiv.org/abs/2211.01324
►プロジェクトページ: https ://deepimagination.cc/eDiffi/
►マイ ニュースレター (新しい AI アプリケーションについて毎週メールで説明します!): https://www.louisbouchard.ai/newsletter/

ビデオトランスクリプト

0:06

のための新しい最先端のアプローチ

0:08

画像合成はより良いものを生成します

0:10

見た目とより正確な画像

0:13

Delhi 2 または

0:15

安定した拡散

0:17

あなたが送信したテキストを理解し、

0:19

よりカスタマイズ可能な新機能の追加

0:21

Nvidia の以前の論文で見た

0:23

彼らがあなたが見ることができるペインターツール

0:26

一言で言えば、これはあなたを意味する言葉で描く

0:29

いくつかの主題を入力してペイントすることができます

0:32

ここに表示される画像と

0:34

より多くのものを作成することができます

0:36

ランダム画像と比較したカスタマイズ画像

0:39

プロンプトに続く生成これは

0:41

次のレベルでは、きれいにすることができます

0:43

あなたが持っている正確なイメージを得る

0:45

恐ろしい素早さを描くだけで心に

0:47

私でもできることをスケッチする

0:50

結果はSotaだけじゃない

0:52

安定した拡散よりも見栄えが良い

0:55

しかし、それらはより制御可能でもあります

0:57

もちろん、それは別のユースケースです

0:59

もう少し作業が必要で、より明確にする必要があります

1:02

このようなドラフトを作成するためのIDを念頭に置いていますが、

1:04

それは間違いなく非常にエキサイティングで、

1:06

興味深いのは、それが私がしたかった理由でもあります

1:08

そうではないので、私のチャンネルでカバーします

1:11

単に優れたモデルであるだけでなく、

1:13

はるかに多くの異なるアプローチ

1:15

ツールではない出力の制御

1:17

残念ながらまだ入手可能ですが、確かに

1:19

ところで、それがすぐになることを願っています

1:22

必ず購読する必要があります

1:23

チャンネルと Twitter で私をフォローしてください。

1:25

この種のビデオが好きなら挨拶してください

1:27

簡単にアクセスしたい

1:30

この重く消化可能なニュース

1:32

複雑な分野別の勝利

1:34

これをより細かく制御できるようにします

1:37

新しいモデルは同じ機能を使用しています

1:39

私たちは見ましたが、確かにモデルは異なっていました

1:42

画像を生成する 文章に導かれる

1:44

を使用して影響を与えることもできます

1:47

簡単なスケッチなので、基本的には

1:49

これは、入力としての画像とテキストを意味します

1:52

あなたはそれが理解するように他のことをすることができます

1:54

ここの画像はこれを活用しています

1:56

スタイルを開発することによる能力

1:58

可能な場合は転送アプローチ

2:00

イメージのスタイルに影響を与える

2:02

画像を与える生成プロセス

2:04

あなたの特定のスタイルも

2:06

テキスト入力これは超クールでただ

2:09

彼らが語る結果を見てください

2:11

両方を打ち負かすのは信じられないほどです

2:14

蒼太流移籍モデルとイメージ

2:16

単一のアプローチによる合成モデル

2:18

問題は、Nvidia がどのように

2:22

より良いものを生み出すモデルを開発する

2:23

見た目の画像により、より詳細な制御が可能になります

2:26

スタイルとイメージ構造の両方

2:29

だけでなく、より良い理解と

2:31

あなたが実際に欲しいものを表す

2:34

あなたのテキストも彼らは典型的なものを変えます

2:36

最初に 2 つの方法で拡散アーキテクチャ

2:39

彼らは2つの異なる方法でテキストをエンコードします

2:41

ですでに説明したアプローチ

2:43

クリップおよび T5 と呼ばれるチャネル

2:46

これは、エンコーダーが使用することを意味します

2:48

テキストを取得するための事前トレーニング済みモデルと

2:50

に焦点を当てたさまざまな埋め込みを作成します

2:52

彼らが訓練されたときのさまざまな機能

2:55

動作が異なり、意味は次のとおりです。

2:57

何を最大化するだけの表現

3:00

文が実際に意味するのは

3:01

理解するアルゴリズムまたはマシン

3:04

入力画像に関して、彼らはただ

3:06

クリップの埋め込みも使用する

3:08

基本的に画像をエンコードして、

3:11

モデルはあなたができることを理解できます

3:13

私の他のビデオで詳細をご覧ください

3:14

生成モデルをそのままカバー

3:16

ほとんどすべてがクリップ上に構築されています。

3:19

彼らがより多くのコントロールを持つことを可能にするもの

3:21

出力と処理について

3:23

テキストだけでなく、テキストと画像

3:25

2番目の変更は

3:28

の代わりに拡散モデルのカスケード

3:31

同じものを繰り返し再利用する

3:33

通常、拡散ベースのモデルで行います

3:35

ここでトレーニングされた使用モデル

3:38

生成過程の特定の部分

3:39

つまり、各モデルはそうする必要はありません

3:42

通常の拡散と同じくらい一般的である

3:44

各モデルが集中する必要があるため、ノイズ除去

3:46

プロセスの特定の部分で

3:49

彼らはこれを使う

3:51

彼らが観察したのでアプローチします

3:52

ノイズ除去モデルはテキストを使用しているようでした

3:55

その向きを変えるためにさらに多くの埋め込み

3:57

の始まりに向かう世代

3:59

処理し、それを使用することがますます少なくなります

4:02

出力品質と忠実度に焦点を当てる

4:05

これは自然に仮説を導きます

4:07

同じノイズ除去モデルを再利用する

4:09

プロセス全体を通して

4:11

自動的に

4:13

さまざまなタスクに焦点を当てており、私たちは知っています

4:15

ゼネラリストは専門家とはかけ離れている

4:18

すべてのタスクでのレベル

4:20

1 人のジェネラリストではなく専門家が取得する

4:23

はるかに良い結果なので、これが彼らの

4:25

なぜノイズ除去と呼ぶのか

4:28

専門家とその主な理由

4:30

品質とパフォーマンスの向上

4:32

残りの忠実さ

4:34

アーキテクチャは他のものとかなり似ています

4:36

最終結果をスケーリングするアプローチ

4:38

ハイを得るために他のモデルと

4:40

定義 最終イメージ イメージと

4:43

ビデオ合成フィールドはちょうど取得しています

4:45

最近クレイジーで、私たちは見ています

4:47

毎週出てくる印象的な結果

4:49

次のリリースがとても楽しみです

4:51

さまざまなアプローチを見るのが大好きです

4:53

両方の革新的な取り組み方で

4:55

問題とまた異なる

4:57

偉人がかつて言ったユースケース

5:01

あなたが好きであることを願っています

5:04

このアプローチの簡単な概要

5:06

いつもより少しレベルが高い

5:08

好きなようにやる ほとんどのパーツ 私はすでに

5:10

多数のビデオでカバーされ、変更されました

5:12

私はあなたを招待します

5:15

私の安定した拡散ビデオを見て学びましょう

5:17

拡散アプローチについてもう少し

5:19

nvidia の論文を読んで

5:21

この特定のアプローチの詳細

5:23

そしてその実装私はあなたに会います

5:26

来週は別の素晴らしい論文で

5:32

外国

5:36

【音楽】

関連ストーリー

L O A D I N G
. . . comments & more!
Hackernoon hq - po box 2206, edwards, colorado 81632, usa