paint-brush
什么是潜在扩散模型?稳定扩散背后的架构经过@whatsai
11,798 讀數
11,798 讀數

什么是潜在扩散模型?稳定扩散背后的架构

经过 Louis Bouchard6m2022/08/29
Read on Terminal Reader
Read this story w/o Javascript

太長; 讀書

最近所有超级强大的图像模型,如 DALLE、Imagen 或 Midjourney 有什么共同点?除了高昂的计算成本、巨大的训练时间和共享炒作之外,它们都基于相同的机制:扩散。 扩散模型最近在大多数图像任务中取得了最先进的结果,包括使用 DALLE 的文本到图像,但也有许多其他与图像生成相关的任务,如图像修复、样式转换或图像超分辨率。但它们是如何工作的?在视频中了解更多...

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - 什么是潜在扩散模型?稳定扩散背后的架构
Louis Bouchard HackerNoon profile picture

所有最近的超级强大的图像模型,如DALLEImagenMidjourney有什么共同点?除了高昂的计算成本、巨大的训练时间和共享炒作之外,它们都基于相同的机制:扩散。

扩散模型最近在大多数图像任务中取得了最先进的结果,包括使用 DALLE 的文本到图像,但也有许多其他与图像生成相关的任务,如图像修复、样式转换或图像超分辨率。但它们是如何工作的?在视频中了解更多...

参考

►阅读全文:https://www.louisbouchard.ai/latent-diffusion-models/
►Rombach, R.、Blattmann, A.、Lorenz, D.、Esser, P. 和 Ommer, B.,2022 年。
具有潜扩散模型的高分辨率图像合成。在
IEEE/CVF 计算机视觉和模式会议论文集
认可(第 10684-10695 页),https://arxiv.org/pdf/2112.10752.pdf
►潜在扩散代码:https://github.com/CompVis/latent-diffusion
►Stable Diffusion Code(基于LD的text-to-image):https://github.com/CompVis/stable-diffusion
►自己尝试:https://huggingface.co/spaces/stabilityai/stable-diffusion
►网络应用:
https://stabilityai.us.auth0.com/u/login?state=hKFo2SA4MFJLR1M4cVhJcllLVmlsSV9vcXNYYy11Q25rRkVzZaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIFRjV2p5dHkzNGQzdkFKZUdyUEprRnhGeFl6ZVdVUDRZo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4
►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!):https://www.louisbouchard.ai/newsletter/

视频记录

0:00

最近所有的超级强大的图像是什么

0:02

像德里想象或中途旅行这样的模型

0:05

除了高计算之外有共同点

0:08

花费大量的培训时间和共享炒作

0:10

它们都基于相同的机制

0:13

最近扩散融合模型

0:15

取得了最先进的成果

0:17

大多数图像任务,包括文本到图像

0:19

与德里,但还有许多其他形象

0:21

生成相关任务,如图像和

0:23

画风转移或形象超强

0:25

分辨率虽然有一些

0:27

他们的缺点是按顺序工作

0:30

整个图像意味着

0:31

训练和推理时间超长

0:34

昂贵这就是为什么你需要数百

0:36

使用 gpus 来训练这样的模型以及为什么

0:38

你等几分钟才能得到你的

0:40

结果毫不奇怪,只有

0:42

像谷歌或openai这样的大公司

0:45

正在发布这些模型

0:47

但他们是什么我已经涵盖了扩散

0:49

我在几个视频中的模特

0:51

邀请您检查更好的

0:52

理解它们是迭代模型

0:55

将随机噪声作为输入

0:57

可以以文本或

0:59

图像,所以它不是完全随机的

1:02

迭代地学习消除这种噪音

1:04

通过学习模型的参数

1:06

应该适用于这种噪音以结束

1:08

带有最终图像,因此基本

1:10

扩散模型将随机

1:12

噪声与图像的大小和

1:14

学会应用更多的噪音,直到

1:17

我们回到真实的图像这是

1:19

可能的,因为该模型将具有

1:21

期间访问真实图像

1:23

培训,并将能够学习

1:25

通过应用这样的噪声来设置正确的参数

1:27

迭代到图像直到它

1:29

达到完全的噪音并且是

1:31

面目全非

1:33

那么当我们对

1:35

我们从所有图像中得到的噪音意义

1:37

它们相似并产生噪音

1:40

从类似的分布中,我们准备好了

1:42

反向使用我们的模型并输入它

1:45

类似的噪音以相反的顺序

1:48

期待与使用的图像相似的图像

1:50

在训练期间,这里的主要问题

1:53

是您直接与

1:54

像素和大数据输入,如

1:57

图片让我们看看我们如何解决这个问题

1:59

计算问题,同时保持

2:02

结果的质量与所示相同

2:04

这里与德里相比,但首先给出

2:07

我几秒钟把你介绍给我

2:09

嘎嘎的朋友赞助这个视频

2:11

你肯定知道大多数

2:13

的企业现在报告人工智能和机器学习

2:15

在他们的过程中采用但很复杂

2:18

模态部署等操作

2:20

训练测试和特征存储

2:22

管理似乎阻碍了

2:24

进度机器学习模型部署是其中之一

2:26

最复杂的过程就是这样

2:29

数据科学家的严格流程

2:31

团队在解决问题上花费了太多时间

2:33

后端和工程任务之前

2:35

能够将模型推入

2:37

我个人生产的东西

2:39

经历过也需要很

2:42

不同的技能组合通常需要两个

2:44

不同的团队紧密合作

2:46

幸运的是我们嘎嘎提供了一个

2:48

统一机器学习的全托管平台

2:50

工程和数据操作

2:53

提供敏捷的基础设施,

2:55

能够持续生产

2:57

无需进行大规模毫升模型

2:59

学习如何端到端地做所有事情

3:01

多亏了他们嘎嘎的力量

3:04

组织交付机器

3:06

将模型学习到大规模生产中

3:08

如果你想加快你的模型

3:10

交付生产请拿几个

3:12

分钟,然后单击下面的第一个链接

3:14

检查他们提供的东西,因为我确定

3:16

值得感谢任何人

3:18

看看并支持我和我的

3:20

嘎嘎的朋友

3:23

这些强大的扩散模型如何

3:25

计算效率高

3:27

将它们转化为潜在扩散

3:30

模型 这意味着知更鸟 rumback 和

3:32

他的同事实现了这个

3:34

我们刚刚介绍的扩散方法

3:36

在压缩图像表示中

3:38

而不是图像本身,然后

3:41

努力重建图像,所以他们

3:43

不适用于像素空间或

3:45

常规图像不再在这种情况下工作

3:48

压缩空间不仅允许

3:50

更高效和更快的世代

3:52

数据量要小得多,但也

3:54

允许使用不同的

3:56

模态,因为它们正在编码

3:58

输入你可以给它任何类型的输入

4:00

像图像或文本,模型将

4:03

学习以相同的方式对这些输入进行编码

4:05

扩散模型的子空间

4:07

用于生成图像,所以是的

4:10

就像剪辑模型一样,一个模型可以工作

4:13

用文字或图像来指导几代人

4:16

整体模型看起来像这样

4:18

您将在此处获得初始图像 x

4:21

然后将其编码为信息

4:23

空间称为潜在空间或 z this

4:26

非常类似于您将要使用的枪

4:29

使用编码器模型拍摄图像

4:31

并提取最相关的

4:32

在子空间中关于它的信息

4:35

您可以将其视为下采样任务

4:37

在保持尽可能多的同时减小其尺寸

4:39

尽可能提供您现在所在的信息

4:42

你凝聚的潜空间

4:44

输入你然后做同样的事情

4:46

您的条件输入文本图像

4:49

或其他任何东西并将它们与

4:50

您当前的图像表示使用

4:53

我在另一个中描述的注意

4:55

视频这个注意力机制将

4:57

学习结合输入的最佳方式

4:59

并在这个潜在的条件下输入

5:01

空间增加注意力变压器

5:04

这些合并的扩散模型的特征

5:07

输入现在是您的初始噪音

5:09

扩散过程

5:11

那么你有相同的扩散模型我

5:13

覆盖在我的图像和视频中,但仍然

5:16

在这个子空间中,你最终重建

5:19

使用解码器的图像,你可以

5:21

看成你最初的相反步骤

5:23

编码器采用这个修改和

5:25

潜在空间中的去噪输入

5:28

构建最终的高分辨率图像

5:31

基本上对你的结果进行上采样

5:34

瞧,这就是你如何使用扩散

5:36

适用于各种任务的模型,例如

5:39

绘画中的超分辨率甚至

5:41

使用最近稳定的文本到图像

5:44

通过扩散开源模型

5:46

调理过程同时多

5:49

更高效,让你跑

5:51

它们在您的 gpus 上,而不是要求

5:54

数百个你没听错

5:56

对于所有想要拥有的开发人员

5:58

他们自己的文字来图像和图像

6:00

综合模型自行运行

6:02

gpus 代码可用

6:04

预车削模型所有链接都是

6:06

如果您确实使用该模型,请在下面

6:08

分享您的测试 ID 和结果或任何

6:10

你对我的反馈我很乐意

6:13

聊聊当然这只是

6:15

潜扩散概述

6:17

模特和我邀请你阅读他们的

6:19

伟大的论文也链接到下面

6:21

了解有关模型和方法的更多信息

6:24

非常感谢我在嘎嘎的朋友

6:26

赞助这个视频甚至更大

6:28

感谢您观看全文

6:30

视频我下周见

6:33

另一篇惊人的论文