paint-brush
eDiffi 简介:NVIDIA 的新 SOTA 图像合成模型经过@whatsai
3,201 讀數
3,201 讀數

eDiffi 简介:NVIDIA 的新 SOTA 图像合成模型

经过 Louis Bouchard5m2022/11/05
Read on Terminal Reader
Read this story w/o Javascript

太長; 讀書

NVIDIA 的最新模型 eDiffi 生成的图像比 DALLE 2 或 Stable Diffusion 等所有以前的方法更好看、更准确。 eDiffi 可以更好地理解您发送的文本并且更加可定制,增加了我们在 NVIDIA 之前的一篇论文中看到的功能:painter tool。在视频中了解更多...
featured image - eDiffi 简介:NVIDIA 的新 SOTA 图像合成模型
Louis Bouchard HackerNoon profile picture

eDiffi 是 NVIDIA 的最新模型,它生成的图像比 DALLE 2 或 Stable Diffusion 等所有以前的方法更好看、更准确。 eDiffi 可以更好地理解您发送的文本并且更可定制,增加了我们在 NVIDIA 之前的一篇论文中看到的功能:painter tool。在视频中了解更多...

参考

►阅读全文: https ://www.louisbouchard.ai/ediffi/
► Balaji, Y. 等人,2022,eDiffi:具有专家降噪器集合的文本到图像扩散模型, https ://arxiv.org/abs/2211.01324
►项目页面: https ://deepimagination.cc/eDiffi/
►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): https ://www.louisbouchard.ai/newsletter/

视频记录

0:06

新的最先进的方法

0:08

它生成的图像合成效果更好

0:10

看起来和更准确的图像比

0:13

以前的所有方法,例如德里 2 或

0:15

如果他更好,则稳定扩散

0:17

理解您发送的文本并且是

0:19

更可定制添加新功能

0:21

我们在 Nvidia 之前的一篇论文中看到

0:23

他们看到的画家工具,你可以

0:26

简而言之,这意味着你

0:29

可以输入一些主题并进行绘画

0:32

应该出现在这里的图像和

0:34

在那里让你创造更多

0:36

定制图像与随机图像相比

0:39

根据提示生成这是

0:41

下一个级别,让你漂亮

0:43

得到你所拥有的确切图像

0:45

只需简单地画一个可怕的快速

0:47

画一些我能做的事

0:50

提到的结果不仅是Sota

0:52

比稳定扩散更好看

0:55

但它们也更可控

0:57

当然这是一个不同的用例

0:59

它需要更多的工作和更清晰的

1:02

创建此类草稿时要记住 ID,但

1:04

这绝对是超级非常令人兴奋的

1:06

有趣,这也是我想要的原因

1:08

在我的频道上覆盖它,因为它不是

1:11

不仅是一个更好的模型,也是一个

1:13

更多不同的方法

1:15

控制工具的输出不是

1:17

不幸的是,但我确定

1:19

希望它会很快通过你的方式

1:22

绝对应该订阅

1:23

频道并在 Twitter 上关注我

1:25

如果你喜欢这种视频,打个招呼

1:27

并希望能够轻松访问

1:30

这方面的可消化新闻

1:32

复杂领域的另一场胜利,他们

1:34

让你有更多的控制权

1:37

新模型是通过使用相同的功能

1:39

我们看到了但确实不同的模型

1:42

生成由句子引导的图像

1:44

但也可以使用

1:47

快速草图,所以它基本上需要一个

1:49

图像和文本作为输入这意味着

1:52

你可以做它理解的其他事情

1:54

他们利用这里的图片

1:56

通过发展一种风格的能力

1:58

尽可能转移方法

2:00

影响图像的风格

2:02

生成图像的过程

2:04

一种特定的风格以及你的

2:06

文本输入,这非常酷,而且只是

2:09

看看他们所代表的结果

2:11

他们自己都令人难以置信地击败了两者

2:14

Sota 风格转移模型和图像

2:16

用单一方法合成模型

2:18

现在的问题是英伟达怎么能

2:22

开发一个创造更好的模型

2:23

看图像可以更好地控制

2:26

风格和图像结构

2:29

以及更好的理解和

2:31

代表你真正想要的

2:34

你的文字很好,他们改变了典型的

2:36

扩散架构首先有两种方式

2:39

他们使用两种不同的方式对文本进行编码

2:41

我已经介绍过的方法

2:43

我们称之为clip和T5的通道

2:46

编码器,这意味着他们将使用

2:48

预训练模型以获取文本和

2:50

创建各种嵌入

2:52

训练时的不同特征

2:55

并且表现不同,含义是

2:57

只是表示最大化什么

3:00

这句话实际上意味着

3:01

算法或机器要理解

3:04

它关于输入图像,他们只是

3:06

也使用剪辑嵌入

3:08

基本上对图像进行编码,以便

3:11

模型可以理解它你可以

3:13

在我的其他视频中了解更多信息

3:14

覆盖生成模型

3:16

几乎所有都建立在剪辑上这是

3:19

是什么让他们有更多的控制权

3:21

在输出以及处理

3:23

文字和图像,而不仅仅是文字

3:25

第二个修改是使用

3:28

级联扩散模型而不是

3:31

像我们一样重复使用相同的东西

3:33

通常使用基于扩散的模型

3:35

这里训练的使用模型

3:38

生成过程的特定部分

3:39

这意味着每个模型不必

3:42

与常规扩散一样普遍

3:44

降噪器,因为每个模型都必须关注

3:46

在流程的特定部分,它可以

3:49

做得更好,他们用这个

3:51

接近,因为他们观察到

3:52

去噪模型似乎使用了文本

3:55

嵌入更多内容以定位其

3:57

一代朝初

3:59

处理,然后使用它越来越少

4:02

专注于输出质量和保真度

4:05

这自然带来了假设

4:07

重用相同的去噪模型

4:09

整个过程可能不会

4:11

成为最好的 ID,因为它会自动

4:13

专注于不同的任务,我们知道

4:15

通才远非专家

4:18

所有任务的水平为什么不使用一些

4:20

专家而不是一名通才来获得

4:23

更好的结果,所以这就是他们

4:25

做了以及为什么他们称它们为去噪

4:28

专家和造成这种情况的主要原因

4:30

提高质量性能和

4:32

其余部分的忠诚度

4:34

架构与其他架构非常相似

4:36

缩放最终结果的方法

4:38

与其他型号一起获得高

4:40

定义最终图像图像和

4:43

视频合成领域刚刚起步

4:45

现在很疯狂,我们正在看到

4:47

每周都会出现令人印象深刻的结果

4:49

我对下一个版本感到非常兴奋

4:51

我喜欢看到不同的方法

4:53

两种创新的应对方式

4:55

问题也不同

4:57

用例就像一位伟人曾经说过的那样

5:01

我希望你喜欢

5:04

这个方法的快速概述

5:06

比我平时高一点

5:08

尽我所能

5:10

涵盖在众多视频中并更改

5:12

他们采取不同的行动我邀请你

5:15

观看我的稳定扩散视频来学习

5:17

关于扩散方法的更多信息

5:19

本身并阅读nvidia的论文

5:21

了解有关此特定方法的更多信息

5:23

及其实施我会看到你

5:26

下周再发表一篇惊人的论文

5:32

外国的

5:36

[音乐]