NVIDIA の最新モデルである eDiffi は、DALLE 2 や Stable Diffusion などの以前のすべてのアプローチよりも見栄えがよく、より正確な画像を生成します。 eDiffi は、送信するテキストをよりよく理解し、よりカスタマイズ可能であり、NVIDIA の以前の論文で見た機能であるペインター ツールを追加します。動画で詳しく...
►記事全文を読む: https://www.louisbouchard.ai/ediffi/
► Balaji, Y. et al., 2022, eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers, https://arxiv.org/abs/2211.01324
►プロジェクトページ: https ://deepimagination.cc/eDiffi/
►マイ ニュースレター (新しい AI アプリケーションについて毎週メールで説明します!): https://www.louisbouchard.ai/newsletter/
0:06
のための新しい最先端のアプローチ
0:08
画像合成はより良いものを生成します
0:10
見た目とより正確な画像
0:13
Delhi 2 または
0:15
安定した拡散
0:17
あなたが送信したテキストを理解し、
0:19
よりカスタマイズ可能な新機能の追加
0:21
Nvidia の以前の論文で見た
0:23
彼らがあなたが見ることができるペインターツール
0:26
一言で言えば、これはあなたを意味する言葉で描く
0:29
いくつかの主題を入力してペイントすることができます
0:32
ここに表示される画像と
0:34
より多くのものを作成することができます
0:36
ランダム画像と比較したカスタマイズ画像
0:39
プロンプトに続く生成これは
0:41
次のレベルでは、きれいにすることができます
0:43
あなたが持っている正確なイメージを得る
0:45
恐ろしい素早さを描くだけで心に
0:47
私でもできることをスケッチする
0:50
結果はSotaだけじゃない
0:52
安定した拡散よりも見栄えが良い
0:55
しかし、それらはより制御可能でもあります
0:57
もちろん、それは別のユースケースです
0:59
もう少し作業が必要で、より明確にする必要があります
1:02
このようなドラフトを作成するためのIDを念頭に置いていますが、
1:04
それは間違いなく非常にエキサイティングで、
1:06
興味深いのは、それが私がしたかった理由でもあります
1:08
そうではないので、私のチャンネルでカバーします
1:11
単に優れたモデルであるだけでなく、
1:13
はるかに多くの異なるアプローチ
1:15
ツールではない出力の制御
1:17
残念ながらまだ入手可能ですが、確かに
1:19
ところで、それがすぐになることを願っています
1:22
必ず購読する必要があります
1:23
チャンネルと Twitter で私をフォローしてください。
1:25
この種のビデオが好きなら挨拶してください
1:27
簡単にアクセスしたい
1:30
この重く消化可能なニュース
1:32
複雑な分野別の勝利
1:34
これをより細かく制御できるようにします
1:37
新しいモデルは同じ機能を使用しています
1:39
私たちは見ましたが、確かにモデルは異なっていました
1:42
画像を生成する 文章に導かれる
1:44
を使用して影響を与えることもできます
1:47
簡単なスケッチなので、基本的には
1:49
これは、入力としての画像とテキストを意味します
1:52
あなたはそれが理解するように他のことをすることができます
1:54
ここの画像はこれを活用しています
1:56
スタイルを開発することによる能力
1:58
可能な場合は転送アプローチ
2:00
イメージのスタイルに影響を与える
2:02
画像を与える生成プロセス
2:04
あなたの特定のスタイルも
2:06
テキスト入力これは超クールでただ
2:09
彼らが語る結果を見てください
2:11
両方を打ち負かすのは信じられないほどです
2:14
蒼太流移籍モデルとイメージ
2:16
単一のアプローチによる合成モデル
2:18
問題は、Nvidia がどのように
2:22
より良いものを生み出すモデルを開発する
2:23
見た目の画像により、より詳細な制御が可能になります
2:26
スタイルとイメージ構造の両方
2:29
だけでなく、より良い理解と
2:31
あなたが実際に欲しいものを表す
2:34
あなたのテキストも彼らは典型的なものを変えます
2:36
最初に 2 つの方法で拡散アーキテクチャ
2:39
彼らは2つの異なる方法でテキストをエンコードします
2:41
ですでに説明したアプローチ
2:43
クリップおよび T5 と呼ばれるチャネル
2:46
これは、エンコーダーが使用することを意味します
2:48
テキストを取得するための事前トレーニング済みモデルと
2:50
に焦点を当てたさまざまな埋め込みを作成します
2:52
彼らが訓練されたときのさまざまな機能
2:55
動作が異なり、意味は次のとおりです。
2:57
何を最大化するだけの表現
3:00
文が実際に意味するのは
3:01
理解するアルゴリズムまたはマシン
3:04
入力画像に関して、彼らはただ
3:06
クリップの埋め込みも使用する
3:08
基本的に画像をエンコードして、
3:11
モデルはあなたができることを理解できます
3:13
私の他のビデオで詳細をご覧ください
3:14
生成モデルをそのままカバー
3:16
ほとんどすべてがクリップ上に構築されています。
3:19
彼らがより多くのコントロールを持つことを可能にするもの
3:21
出力と処理について
3:23
テキストだけでなく、テキストと画像
3:25
2番目の変更は
3:28
の代わりに拡散モデルのカスケード
3:31
同じものを繰り返し再利用する
3:33
通常、拡散ベースのモデルで行います
3:35
ここでトレーニングされた使用モデル
3:38
生成過程の特定の部分
3:39
つまり、各モデルはそうする必要はありません
3:42
通常の拡散と同じくらい一般的である
3:44
各モデルが集中する必要があるため、ノイズ除去
3:46
プロセスの特定の部分で
3:49
彼らはこれを使う
3:51
彼らが観察したのでアプローチします
3:52
ノイズ除去モデルはテキストを使用しているようでした
3:55
その向きを変えるためにさらに多くの埋め込み
3:57
の始まりに向かう世代
3:59
処理し、それを使用することがますます少なくなります
4:02
出力品質と忠実度に焦点を当てる
4:05
これは自然に仮説を導きます
4:07
同じノイズ除去モデルを再利用する
4:09
プロセス全体を通して
4:11
自動的に
4:13
さまざまなタスクに焦点を当てており、私たちは知っています
4:15
ゼネラリストは専門家とはかけ離れている
4:18
すべてのタスクでのレベル
4:20
1 人のジェネラリストではなく専門家が取得する
4:23
はるかに良い結果なので、これが彼らの
4:25
なぜノイズ除去と呼ぶのか
4:28
専門家とその主な理由
4:30
品質とパフォーマンスの向上
4:32
残りの忠実さ
4:34
アーキテクチャは他のものとかなり似ています
4:36
最終結果をスケーリングするアプローチ
4:38
ハイを得るために他のモデルと
4:40
定義 最終イメージ イメージと
4:43
ビデオ合成フィールドはちょうど取得しています
4:45
最近クレイジーで、私たちは見ています
4:47
毎週出てくる印象的な結果
4:49
次のリリースがとても楽しみです
4:51
さまざまなアプローチを見るのが大好きです
4:53
両方の革新的な取り組み方で
4:55
問題とまた異なる
4:57
偉人がかつて言ったユースケース
5:01
あなたが好きであることを願っています
5:04
このアプローチの簡単な概要
5:06
いつもより少しレベルが高い
5:08
好きなようにやる ほとんどのパーツ 私はすでに
5:10
多数のビデオでカバーされ、変更されました
5:12
私はあなたを招待します
5:15
私の安定した拡散ビデオを見て学びましょう
5:17
拡散アプローチについてもう少し
5:19
nvidia の論文を読んで
5:21
この特定のアプローチの詳細
5:23
そしてその実装私はあなたに会います
5:26
来週は別の素晴らしい論文で
5:32
外国
5:36
【音楽】