paint-brush
潜在拡散モデルとは安定拡散の背後にあるアーキテクチャ@whatsai
11,807 測定値
11,807 測定値

潜在拡散モデルとは安定拡散の背後にあるアーキテクチャ

Louis Bouchard6m2022/08/29
Read on Terminal Reader
Read this story w/o Javascript

長すぎる; 読むには

DALLE、Imagen、Midjourney などの最近の超強力な画像モデルの共通点は何ですか?高いコンピューティング コスト、莫大なトレーニング時間、共有された誇大宣伝を除けば、それらはすべて同じメカニズム、つまり拡散に基づいています。 拡散モデルは最近、DALLE を使用したテキストから画像への変換を含むほとんどの画像タスクで最先端の結果を達成しましたが、画像の修復、スタイルの転送、画像の超解像など、他の多くの画像生成関連のタスクも達成しました。しかし、それらはどのように機能しますか?動画で詳しく...

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - 潜在拡散モデルとは安定拡散の背後にあるアーキテクチャ
Louis Bouchard HackerNoon profile picture

DALLE 、 ImagenMidjourneyなどの最近の超強力な画像モデルには、どのような共通点がありますか?高いコンピューティング コスト、莫大なトレーニング時間、共有された誇大宣伝を除けば、それらはすべて同じメカニズム、つまり拡散に基づいています。

拡散モデルは最近、DALLE を使用したテキストから画像への変換を含むほとんどの画像タスクで最先端の結果を達成しましたが、画像の修復、スタイルの転送、画像の超解像など、他の多くの画像生成関連のタスクも達成しました。しかし、それらはどのように機能しますか?動画で詳しく...

参考文献

►記事全文を読む: https://www.louisbouchard.ai/latent-diffusion-models/
► Rombach, R., Blattmann, A., Lorenz, D., Esser, P. and Ommer, B., 2022.
潜在拡散モデルによる高解像度画像合成。の
コンピュータ ビジョンとパターンに関する IEEE/CVF 会議の議事録
認識 (pp. 10684–10695)、https://arxiv.org/pdf/2112.10752.pdf
►潜在拡散コード: https://github.com/CompVis/latent-diffusion
►安定拡散コード (LD に基づくテキストから画像へ): https://github.com/CompVis/stable-diffusion
►自分で試してみてください: https://huggingface.co/spaces/stabilityai/stable-diffusion
►Web アプリケーション:
https://stabilityai.us.auth0.com/u/login?state=hKFo2SA4MFJLR1M4cVhJcllLVmlsSV9vcXNYYy11Q25rRkVzZaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIFRjV2p5dHkzNGQzdkFKZUdyUEprRnhGeFl6ZVdVUDRZo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4
►マイ ニュースレター (毎週メールで説明される新しい AI アプリケーション!): https://www.louisbouchard.ai/newsletter/

ビデオトランスクリプト

0:00

最近の超強力な画像は何をしますか

0:02

デリーイマジンやミッドジャーニーのようなモデル

0:05

ハイコンピューティング以外の共通点

0:08

莫大なトレーニング時間を費やし、誇大宣伝を共有する

0:10

それらはすべて同じメカニズムに基づいています

0:13

最近の融合モデルの拡散

0:15

~について最先端の結果を達成した

0:17

テキストから画像への変換を含むほとんどの画像タスク

0:19

デリーだけでなく他の多くの画像

0:21

画像や画像などの生成関連のタスク

0:23

画風転写or画像超

0:25

いくつかありますが解像度

0:27

欠点 彼らは上で順番に働きます

0:30

全体像の意味は、

0:31

トレーニングと推論の時間は非常に優れています

0:34

高価なので、何百も必要です

0:36

そのようなモデルをトレーニングするための gpu の使用とその理由

0:38

数分待ってから

0:40

驚くことではありません

0:42

Google や Openai などの大企業

0:45

それらのモデルをリリースしています

0:47

しかし、彼らは私がカバーした拡散とは何ですか

0:49

私がいくつかのビデオのモデル

0:51

より良いものをチェックするようにあなたを招待します

0:52

それらが反復モデルであることを理解する

0:55

ランダム ノイズを入力として受け取る

0:57

テキストまたは

0:59

画像なので完全にランダムではありません

1:02

このノイズを除去することを繰り返し学習します

1:04

モデルのパラメータを学習することによって

1:06

最終的にこのノイズに適用する必要があります

1:08

最終的なイメージで基本的な

1:10

拡散モデルはランダムになります

1:12

画像のサイズによるノイズと

1:14

までさらにノイズを適用することを学ぶ

1:17

これが実際の画像に戻ります

1:19

モデルが

1:21

実行中の実際の画像へのアクセス

1:23

訓練し、学ぶことができるようになります

1:25

そのようなノイズを適用することによって正しいパラメータ

1:27

それまで繰り返し画像に

1:29

完全なノイズに達し、

1:31

認識できない

1:33

次に、満足したら

1:35

すべての画像から得られるノイズの意味

1:37

それらが類似しており、ノイズを生成すること

1:40

同様のディストリビューションから準備ができています

1:42

モデルを逆に使用してフィードする

1:45

同様のノイズを逆の順序で

1:48

使用されているものと同様の画像を期待してください

1:50

ここでの主な問題はトレーニング中です

1:53

あなたが直接働いているということです

1:54

ピクセルと大きなデータ入力

1:57

画像これを修正する方法を見てみましょう

1:59

を維持しながらの計算の問題

2:02

示されているものと同じ結果の品質

2:04

ここではデリーと比較しますが、最初に与えます

2:07

私にあなたを紹介するために私に数秒

2:09

このビデオのスポンサーである quack の友人

2:11

あなたが最も確実に大多数を知っているように

2:13

現在、AI と ml を報告している企業の割合

2:15

プロセスで採用されていますが、複雑です

2:18

モーダル展開などの操作

2:20

トレーニング テストと機能ストア

2:22

経営陣が邪魔をしているようだ

2:24

プログレスmlモデル搭載の1台

2:26

最も複雑なプロセス

2:29

データサイエンティストが行う厳格なプロセス

2:31

チームは解決に多くの時間を費やしています

2:33

前のバックエンドおよびエンジニアリング タスク

2:35

モデルを押し込むことができる

2:37

私が個人的に制作したもの

2:39

経験したことも非常に必要です

2:42

多くの場合、2 つを必要とするさまざまなスキル セット

2:44

さまざまなチームが緊密に連携

2:46

幸いなことに、クワックは

2:48

ml を統合するフルマネージド プラットフォーム

2:50

エンジニアリングとデータ操作

2:53

俊敏なインフラストラクチャを提供する

2:55

の継続的な製品化を可能にします

2:57

必要のない大規模な ml モデル

2:59

すべてをエンドツーエンドで行う方法を学ぶ

3:01

彼らのおかげでもう

3:04

マシンを提供する組織

3:06

大規模な本番環境へのモデルの学習

3:08

モデルを高速化したい場合

3:10

生産への配達は数時間かかります

3:12

分をクリックして、下の最初のリンクをクリックしてください

3:14

私が確信しているように、彼らが提供するものを確認する

3:16

誰のおかげでも価値があります

3:18

私と私を見て、サポートしてください

3:20

いんちきの友達

3:23

これらの強力な拡散モデルをどのように

3:25

によって計算効率を高める

3:27

それらを潜在的な拡散に変換する

3:30

これは、ロビン・ラムバックと

3:32

彼の同僚はこれを実装しました

3:34

先ほど説明した拡散アプローチ

3:36

圧縮された画像表現内

3:38

画像自体の代わりに

3:41

画像を再構築するために働いたので、彼らは

3:43

ピクセル空間で動作していないか、

3:45

通常の画像はそのような

3:48

圧縮されたスペースは、

3:50

より効率的で高速な世代

3:52

データサイズははるかに小さいですが、

3:54

さまざまな操作が可能

3:56

モダリティは、

3:58

任意の種類の入力をフィードできます

4:00

画像やテキストのように、モデルは

4:03

これらの入力を同じにエンコードすることを学ぶ

4:05

拡散モデルがする部分空間

4:07

画像を生成するために使用するので、はい

4:10

クリップモデルのように、1つのモデルが機能します

4:13

世代を導くテキストまたは画像付き

4:16

全体的なモデルは次のようになります

4:18

ここに初期画像がありますx

4:21

それを情報にエンコードしてから

4:23

潜在空間または z this と呼ばれる空間

4:26

あなたがする銃に非常に似ています

4:29

エンコーダ モデルを使用して画像を取得する

4:31

最も関連性の高いものを抽出します

4:32

それに関する情報は部分空間で

4:35

ダウンサンプリングタスクとして見ることができます

4:37

可能な限り維持しながらサイズを縮小する

4:39

あなたが今いる可能な限りの情報

4:42

あなたの凝縮された潜在空間

4:44

入力してから同じことを行います

4:46

あなたの条件は、テキスト画像のいずれかを入力します

4:49

または他の何かとそれらをマージします

4:50

を使用した現在の画像表現

4:53

別の記事で説明した注意

4:55

ビデオ この注意メカニズムは

4:57

入力を組み合わせる最良の方法を学ぶ

4:59

この潜在的な条件付け入力

5:01

スペース追加注意トランスフォーマー

5:04

拡散モデルへの機能 これらのマージ

5:07

入力はあなたの初期ノイズになりました

5:09

拡散プロセス

5:11

次に、同じ拡散モデルがあります i

5:13

私の画像とビデオで覆われていますが、それでも

5:16

この部分空間で最終的にあなたは再構築します

5:19

あなたができるデコーダーを使用して画像

5:21

あなたの最初の逆のステップとして見てください

5:23

エンコーダーはこれを変更し、

5:25

潜在空間のノイズ除去された入力

5:28

最終的な高解像度画像を構築する

5:31

基本的に結果をアップサンプリングし、

5:34

ほら、これが拡散を使用する方法です

5:36

次のようなさまざまなタスクのモデル

5:39

絵画でも超解像

5:41

最近の安定版でテキストから画像へ

5:44

拡散オープンソースモデル

5:46

たくさんありながらコンディショニングプロセス

5:49

より効率的で、実行できるようになります

5:51

要求する代わりに、あなたの gpu でそれらを

5:54

何百ものあなたが正しく聞いた

5:56

欲しいと思っているすべての開発者のために

5:58

画像と画像への独自のテキスト

6:00

単独で動作する合成モデル

6:02

gpu コードはで利用可能です

6:04

回転前モデル すべてのリンクは

6:06

以下のモデルを使用する場合は、

6:08

テストの ID と結果を共有する

6:10

あなたが私と一緒に持っているフィードバック

6:13

もちろん、これはただのことでした

6:15

潜在拡散の概要

6:17

モデルと私はあなたに彼らの記事を読むように勧めます

6:19

以下にリンクされている素晴らしい論文も

6:21

モデルとアプローチの詳細

6:24

quack の友達にとても感謝しています

6:26

このビデオを後援し、さらに大きく

6:28

全部見てくれてありがとう

6:30

来週お会いしましょう

6:33

別の素晴らしい紙