eDiffi 是 NVIDIA 的最新模型,它生成的图像比 DALLE 2 或 Stable Diffusion 等所有以前的方法更好看、更准确。 eDiffi 可以更好地理解您发送的文本并且更可定制,增加了我们在 NVIDIA 之前的一篇论文中看到的功能:painter tool。在视频中了解更多...
►阅读全文: https ://www.louisbouchard.ai/ediffi/
► Balaji, Y. 等人,2022,eDiffi:具有专家降噪器集合的文本到图像扩散模型, https ://arxiv.org/abs/2211.01324
►项目页面: https ://deepimagination.cc/eDiffi/
►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): https ://www.louisbouchard.ai/newsletter/
0:06
新的最先进的方法
0:08
它生成的图像合成效果更好
0:10
看起来和更准确的图像比
0:13
以前的所有方法,例如德里 2 或
0:15
如果他更好,则稳定扩散
0:17
理解您发送的文本并且是
0:19
更可定制添加新功能
0:21
我们在 Nvidia 之前的一篇论文中看到
0:23
他们看到的画家工具,你可以
0:26
简而言之,这意味着你
0:29
可以输入一些主题并进行绘画
0:32
应该出现在这里的图像和
0:34
在那里让你创造更多
0:36
定制图像与随机图像相比
0:39
根据提示生成这是
0:41
下一个级别,让你漂亮
0:43
得到你所拥有的确切图像
0:45
只需简单地画一个可怕的快速
0:47
画一些我能做的事
0:50
提到的结果不仅是Sota
0:52
比稳定扩散更好看
0:55
但它们也更可控
0:57
当然这是一个不同的用例
0:59
它需要更多的工作和更清晰的
1:02
创建此类草稿时要记住 ID,但
1:04
这绝对是超级非常令人兴奋的
1:06
有趣,这也是我想要的原因
1:08
在我的频道上覆盖它,因为它不是
1:11
不仅是一个更好的模型,也是一个
1:13
更多不同的方法
1:15
控制工具的输出不是
1:17
不幸的是,但我确定
1:19
希望它会很快通过你的方式
1:22
绝对应该订阅
1:23
频道并在 Twitter 上关注我
1:25
如果你喜欢这种视频,打个招呼
1:27
并希望能够轻松访问
1:30
这方面的可消化新闻
1:32
复杂领域的另一场胜利,他们
1:34
让你有更多的控制权
1:37
新模型是通过使用相同的功能
1:39
我们看到了但确实不同的模型
1:42
生成由句子引导的图像
1:44
但也可以使用
1:47
快速草图,所以它基本上需要一个
1:49
图像和文本作为输入这意味着
1:52
你可以做它理解的其他事情
1:54
他们利用这里的图片
1:56
通过发展一种风格的能力
1:58
尽可能转移方法
2:00
影响图像的风格
2:02
生成图像的过程
2:04
一种特定的风格以及你的
2:06
文本输入,这非常酷,而且只是
2:09
看看他们所代表的结果
2:11
他们自己都令人难以置信地击败了两者
2:14
Sota 风格转移模型和图像
2:16
用单一方法合成模型
2:18
现在的问题是英伟达怎么能
2:22
开发一个创造更好的模型
2:23
看图像可以更好地控制
2:26
风格和图像结构
2:29
以及更好的理解和
2:31
代表你真正想要的
2:34
你的文字很好,他们改变了典型的
2:36
扩散架构首先有两种方式
2:39
他们使用两种不同的方式对文本进行编码
2:41
我已经介绍过的方法
2:43
我们称之为clip和T5的通道
2:46
编码器,这意味着他们将使用
2:48
预训练模型以获取文本和
2:50
创建各种嵌入
2:52
训练时的不同特征
2:55
并且表现不同,含义是
2:57
只是表示最大化什么
3:00
这句话实际上意味着
3:01
算法或机器要理解
3:04
它关于输入图像,他们只是
3:06
也使用剪辑嵌入
3:08
基本上对图像进行编码,以便
3:11
模型可以理解它你可以
3:13
在我的其他视频中了解更多信息
3:14
覆盖生成模型
3:16
几乎所有都建立在剪辑上这是
3:19
是什么让他们有更多的控制权
3:21
在输出以及处理
3:23
文字和图像,而不仅仅是文字
3:25
第二个修改是使用
3:28
级联扩散模型而不是
3:31
像我们一样重复使用相同的东西
3:33
通常使用基于扩散的模型
3:35
这里训练的使用模型
3:38
生成过程的特定部分
3:39
这意味着每个模型不必
3:42
与常规扩散一样普遍
3:44
降噪器,因为每个模型都必须关注
3:46
在流程的特定部分,它可以
3:49
做得更好,他们用这个
3:51
接近,因为他们观察到
3:52
去噪模型似乎使用了文本
3:55
嵌入更多内容以定位其
3:57
一代朝初
3:59
处理,然后使用它越来越少
4:02
专注于输出质量和保真度
4:05
这自然带来了假设
4:07
重用相同的去噪模型
4:09
整个过程可能不会
4:11
成为最好的 ID,因为它会自动
4:13
专注于不同的任务,我们知道
4:15
通才远非专家
4:18
所有任务的水平为什么不使用一些
4:20
专家而不是一名通才来获得
4:23
更好的结果,所以这就是他们
4:25
做了以及为什么他们称它们为去噪
4:28
专家和造成这种情况的主要原因
4:30
提高质量性能和
4:32
其余部分的忠诚度
4:34
架构与其他架构非常相似
4:36
缩放最终结果的方法
4:38
与其他型号一起获得高
4:40
定义最终图像图像和
4:43
视频合成领域刚刚起步
4:45
现在很疯狂,我们正在看到
4:47
每周都会出现令人印象深刻的结果
4:49
我对下一个版本感到非常兴奋
4:51
我喜欢看到不同的方法
4:53
两种创新的应对方式
4:55
问题也不同
4:57
用例就像一位伟人曾经说过的那样
5:01
我希望你喜欢
5:04
这个方法的快速概述
5:06
比我平时高一点
5:08
尽我所能
5:10
涵盖在众多视频中并更改
5:12
他们采取不同的行动我邀请你
5:15
观看我的稳定扩散视频来学习
5:17
关于扩散方法的更多信息
5:19
本身并阅读nvidia的论文
5:21
了解有关此特定方法的更多信息
5:23
及其实施我会看到你
5:26
下周再发表一篇惊人的论文
5:32
外国的
5:36
[音乐]