所有最近的超级强大的图像模型,如DALLE 、 Imagen或Midjourney有什么共同点?除了高昂的计算成本、巨大的训练时间和共享炒作之外,它们都基于相同的机制:扩散。
扩散模型最近在大多数图像任务中取得了最先进的结果,包括使用 DALLE 的文本到图像,但也有许多其他与图像生成相关的任务,如图像修复、样式转换或图像超分辨率。但它们是如何工作的?在视频中了解更多...
►阅读全文:https://www.louisbouchard.ai/latent-diffusion-models/
►Rombach, R.、Blattmann, A.、Lorenz, D.、Esser, P. 和 Ommer, B.,2022 年。
具有潜扩散模型的高分辨率图像合成。在
IEEE/CVF 计算机视觉和模式会议论文集
认可(第 10684-10695 页),https://arxiv.org/pdf/2112.10752.pdf
►潜在扩散代码:https://github.com/CompVis/latent-diffusion
►Stable Diffusion Code(基于LD的text-to-image):https://github.com/CompVis/stable-diffusion
►自己尝试:https://huggingface.co/spaces/stabilityai/stable-diffusion
►网络应用:
https://stabilityai.us.auth0.com/u/login?state=hKFo2SA4MFJLR1M4cVhJcllLVmlsSV9vcXNYYy11Q25rRkVzZaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIFRjV2p5dHkzNGQzdkFKZUdyUEprRnhGeFl6ZVdVUDRZo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4
►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!):https://www.louisbouchard.ai/newsletter/
0:00
最近所有的超级强大的图像是什么
0:02
像德里想象或中途旅行这样的模型
0:05
除了高计算之外有共同点
0:08
花费大量的培训时间和共享炒作
0:10
它们都基于相同的机制
0:13
最近扩散融合模型
0:15
取得了最先进的成果
0:17
大多数图像任务,包括文本到图像
0:19
与德里,但还有许多其他形象
0:21
生成相关任务,如图像和
0:23
画风转移或形象超强
0:25
分辨率虽然有一些
0:27
他们的缺点是按顺序工作
0:30
整个图像意味着
0:31
训练和推理时间超长
0:34
昂贵这就是为什么你需要数百
0:36
使用 gpus 来训练这样的模型以及为什么
0:38
你等几分钟才能得到你的
0:40
结果毫不奇怪,只有
0:42
像谷歌或openai这样的大公司
0:45
正在发布这些模型
0:47
但他们是什么我已经涵盖了扩散
0:49
我在几个视频中的模特
0:51
邀请您检查更好的
0:52
理解它们是迭代模型
0:55
将随机噪声作为输入
0:57
可以以文本或
0:59
图像,所以它不是完全随机的
1:02
迭代地学习消除这种噪音
1:04
通过学习模型的参数
1:06
应该适用于这种噪音以结束
1:08
带有最终图像,因此基本
1:10
扩散模型将随机
1:12
噪声与图像的大小和
1:14
学会应用更多的噪音,直到
1:17
我们回到真实的图像这是
1:19
可能的,因为该模型将具有
1:21
期间访问真实图像
1:23
培训,并将能够学习
1:25
通过应用这样的噪声来设置正确的参数
1:27
迭代到图像直到它
1:29
达到完全的噪音并且是
1:31
面目全非
1:33
那么当我们对
1:35
我们从所有图像中得到的噪音意义
1:37
它们相似并产生噪音
1:40
从类似的分布中,我们准备好了
1:42
反向使用我们的模型并输入它
1:45
类似的噪音以相反的顺序
1:48
期待与使用的图像相似的图像
1:50
在训练期间,这里的主要问题
1:53
是您直接与
1:54
像素和大数据输入,如
1:57
图片让我们看看我们如何解决这个问题
1:59
计算问题,同时保持
2:02
结果的质量与所示相同
2:04
这里与德里相比,但首先给出
2:07
我几秒钟把你介绍给我
2:09
嘎嘎的朋友赞助这个视频
2:11
你肯定知道大多数
2:13
的企业现在报告人工智能和机器学习
2:15
在他们的过程中采用但很复杂
2:18
模态部署等操作
2:20
训练测试和特征存储
2:22
管理似乎阻碍了
2:24
进度机器学习模型部署是其中之一
2:26
最复杂的过程就是这样
2:29
数据科学家的严格流程
2:31
团队在解决问题上花费了太多时间
2:33
后端和工程任务之前
2:35
能够将模型推入
2:37
我个人生产的东西
2:39
经历过也需要很
2:42
不同的技能组合通常需要两个
2:44
不同的团队紧密合作
2:46
幸运的是我们嘎嘎提供了一个
2:48
统一机器学习的全托管平台
2:50
工程和数据操作
2:53
提供敏捷的基础设施,
2:55
能够持续生产
2:57
无需进行大规模毫升模型
2:59
学习如何端到端地做所有事情
3:01
多亏了他们嘎嘎的力量
3:04
组织交付机器
3:06
将模型学习到大规模生产中
3:08
如果你想加快你的模型
3:10
交付生产请拿几个
3:12
分钟,然后单击下面的第一个链接
3:14
检查他们提供的东西,因为我确定
3:16
值得感谢任何人
3:18
看看并支持我和我的
3:20
嘎嘎的朋友
3:23
这些强大的扩散模型如何
3:25
计算效率高
3:27
将它们转化为潜在扩散
3:30
模型 这意味着知更鸟 rumback 和
3:32
他的同事实现了这个
3:34
我们刚刚介绍的扩散方法
3:36
在压缩图像表示中
3:38
而不是图像本身,然后
3:41
努力重建图像,所以他们
3:43
不适用于像素空间或
3:45
常规图像不再在这种情况下工作
3:48
压缩空间不仅允许
3:50
更高效和更快的世代
3:52
数据量要小得多,但也
3:54
允许使用不同的
3:56
模态,因为它们正在编码
3:58
输入你可以给它任何类型的输入
4:00
像图像或文本,模型将
4:03
学习以相同的方式对这些输入进行编码
4:05
扩散模型的子空间
4:07
用于生成图像,所以是的
4:10
就像剪辑模型一样,一个模型可以工作
4:13
用文字或图像来指导几代人
4:16
整体模型看起来像这样
4:18
您将在此处获得初始图像 x
4:21
然后将其编码为信息
4:23
空间称为潜在空间或 z this
4:26
非常类似于您将要使用的枪
4:29
使用编码器模型拍摄图像
4:31
并提取最相关的
4:32
在子空间中关于它的信息
4:35
您可以将其视为下采样任务
4:37
在保持尽可能多的同时减小其尺寸
4:39
尽可能提供您现在所在的信息
4:42
你凝聚的潜空间
4:44
输入你然后做同样的事情
4:46
您的条件输入文本图像
4:49
或其他任何东西并将它们与
4:50
您当前的图像表示使用
4:53
我在另一个中描述的注意
4:55
视频这个注意力机制将
4:57
学习结合输入的最佳方式
4:59
并在这个潜在的条件下输入
5:01
空间增加注意力变压器
5:04
这些合并的扩散模型的特征
5:07
输入现在是您的初始噪音
5:09
扩散过程
5:11
那么你有相同的扩散模型我
5:13
覆盖在我的图像和视频中,但仍然
5:16
在这个子空间中,你最终重建
5:19
使用解码器的图像,你可以
5:21
看成你最初的相反步骤
5:23
编码器采用这个修改和
5:25
潜在空间中的去噪输入
5:28
构建最终的高分辨率图像
5:31
基本上对你的结果进行上采样
5:34
瞧,这就是你如何使用扩散
5:36
适用于各种任务的模型,例如
5:39
绘画中的超分辨率甚至
5:41
使用最近稳定的文本到图像
5:44
通过扩散开源模型
5:46
调理过程同时多
5:49
更高效,让你跑
5:51
它们在您的 gpus 上,而不是要求
5:54
数百个你没听错
5:56
对于所有想要拥有的开发人员
5:58
他们自己的文字来图像和图像
6:00
综合模型自行运行
6:02
gpus 代码可用
6:04
预车削模型所有链接都是
6:06
如果您确实使用该模型,请在下面
6:08
分享您的测试 ID 和结果或任何
6:10
你对我的反馈我很乐意
6:13
聊聊当然这只是
6:15
潜扩散概述
6:17
模特和我邀请你阅读他们的
6:19
伟大的论文也链接到下面
6:21
了解有关模型和方法的更多信息
6:24
非常感谢我在嘎嘎的朋友
6:26
赞助这个视频甚至更大
6:28
感谢您观看全文
6:30
视频我下周见
6:33
另一篇惊人的论文