paint-brush
Meta AI 的 Make-A-Scene 使用文本和草图生成艺术品经过@whatsai
3,129 讀數
3,129 讀數

Meta AI 的 Make-A-Scene 使用文本和草图生成艺术品

经过 Louis Bouchard6m2022/07/20
Read on Terminal Reader
Read this story w/o Javascript

太長; 讀書

这个新模型的目标不是让用户像 dalle 那样根据文本提示生成随机图像。相反,Meta 希望推动创造性表达,将这种文本到图像的趋势与以前的草图到图像模型相结合,从而产生“Make-A-Scene”:文本和以草图为条件的图像生成之间的奇妙融合。在视频中了解更多信息……“Make-a-Scene 不仅仅是‘另一个 Dalle’,而是限制了用户对世代的控制。

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Meta AI 的 Make-A-Scene 使用文本和草图生成艺术品
Louis Bouchard HackerNoon profile picture

Make-A-Scene 不仅仅是“另一个 Dalle”。这个新模型的目标不是像 dalle 那样允许用户在文本提示后生成随机图像——这真的很酷——但限制了用户对世代的控制。

相反,Meta 希望推动创意表达,将这种文本到图像的趋势与以前的草图到图像模型相结合,从而产生“Make-A-Scene”:文本和以草图为条件的图像生成之间的奇妙融合。在视频中了解更多...

参考

►阅读全文: https ://www.louisbouchard.ai/make-a-scene/
►Meta的博文: https ://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation
►论文:Gafni, O.、Polyak, A.、Asual, O.、Sheynin, S.、Parikh, D. 和
Taigman, Y., 2022. Make-a-scene:基于场景的文本到图像生成
与人类先验。
►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): https ://www.louisbouchard.ai/newsletter/

视频记录

0:00

[音乐]

0:06

这是一个场景 它不仅仅是

0:08

另一个熟食店这个新模式的目标

0:11

不是让用户随机生成

0:13

文字提示后的图片为大理

0:15

确实很酷但有限制

0:17

用户对世代的控制

0:20

相反,meta 想要推动创意

0:22

表达式向前合并此文本

0:25

与先前草图的图像趋势

0:27

图像模型导致场景

0:30

文字和草图之间的奇妙融合

0:32

条件图像生成这很简单

0:35

意味着使用这种新方法,您

0:37

可以快速勾勒出一只猫并写作

0:40

你想要什么样的形象和

0:42

图像生成过程将遵循

0:43

草图和你的指导

0:45

文本它让我们更接近于

0:48

能够产生完美的

0:49

几秒钟后我们想要的插图

0:52

你可以看到这个多模态生成

0:54

ai方法作为日常模型有点

0:57

对自那以后的几代人有更多的控制权

0:59

它还可以快速绘制草图

1:01

输入这就是我们称之为多模式的原因

1:04

因为它可以采用多种方式作为

1:07

输入,如文本和图像草图

1:10

在这种情况下,与德里相比

1:12

只需要文本来生成图像

1:14

多模态模型是超级的东西

1:17

很有希望,特别是如果我们匹配

1:19

我们在网上看到的结果的质量

1:21

因为我们有更多的控制权

1:23

结果越来越接近非常

1:25

有趣的最终目标是生成

1:27

我们心目中的完美形象

1:30

当然这是任何设计技能

1:32

仍处于研究状态,是

1:34

探索性人工智能研究概念它

1:37

并不意味着我们看到的不是

1:38

可实现它只是意味着它需要一个

1:41

多一点时间向公众公开

1:43

该领域的进展非常迅速

1:45

看到它我不会感到惊讶

1:47

活得很快或类似的模型

1:49

我相信从其他人那里玩

1:52

这种基于草图和文本的模型是

1:54

更有趣的是,尤其是对于

1:56

这就是我想报道的行业

1:58

它在我的频道上,即使结果

2:00

有点落后于我们看到的每日 2

2:03

在线,它不仅对

2:05

这个行业,但对于艺术家来说太一些了

2:08

使用草图特征生成均匀

2:10

比德里更意想不到的结果

2:13

我们可以要求它生成吗

2:14

一些东西并绘制一个不

2:17

代表具体的东西,比如

2:18

画一个花形的水母

2:21

这可能不是不可能的

2:23

大理,但没有更复杂

2:25

草图指导,因为模型只会

2:27

重现它从中学到的东西

2:29

来自真实世界的图像和

2:32

插图,所以主要问题是

2:34

他们如何引导一代又一代

2:36

像德里这样的文本输入和草图

2:39

同时让模型跟随

2:41

两个指导方针都很好,非常非常

2:44

类似于德里的工作方式,所以我不会

2:47

输入太多细节

2:49

我至少介绍过的生成模型

2:51

过去五种不同的方法

2:53

两个月,你绝对应该

2:55

看看你是否还没有这些型号

2:57

像dali 2或imogen一样

2:59

极好的

3:00

通常这些模型将采用

3:02

数以百万计的训练示例来学习

3:04

如何从文本中生成图像

3:07

图像形式的数据及其

3:09

此处从互联网上抓取的字幕

3:12

在训练中而不是仅仅依靠

3:14

在生成第一个标题上

3:17

图像的版本并将其与

3:19

实际图像并重复此

3:21

用我们所有的方法处理了无数次

3:23

图片我们也会给它一个草图

3:26

很酷的是草图是

3:28

很容易为培训生产

3:30

只需使用预先训练的网络即可

3:32

可在线下载并执行实例

3:35

对那些想要的人进行细分

3:37

他们使用免费的预训练 vgg 的详细信息

3:40

imagenet 上的模型非常小

3:42

网络相比那些今天的超级

3:44

准确和快速产生结果,如

3:47

这称为分割图,他们

3:49

只需处理一次他们的所有图像,然后

3:52

获取这些地图以训练模型

3:55

然后使用这张地图以及标题

3:58

定向模型以生成

4:00

推理时或何时的初始图像

4:02

我们中的一个人将使用它我们的草图将

4:05

替换那些地图,因为我说他们使用了

4:08

名为 vgg 的模型创建假草图

4:11

他们使用变压器进行培训

4:13

图像生成架构

4:15

与小车不同的过程

4:17

我邀请你观看我的视频

4:19

为视觉引入变压器

4:21

应用程序,如果您想了解更多详细信息

4:23

关于它如何处理和生成

4:25

图像这个草图引导变压器是

4:28

与杂志的主要区别

4:30

不使用像

4:33

剪辑以测量文本和图像对

4:36

你也可以在我的

4:37

每日视频

4:39

而是所有编码的文本和

4:41

分割图被发送到

4:43

然后对模型进行变压器建模

4:45

生成相关的图像标记

4:48

由相应的编码和解码

4:50

网络主要是为了产生图像

4:53

在训练期间使用编码器

4:55

计算两者之间的差异

4:57

产生和初始图像,但只有

4:59

需要解码器来处理这个

5:01

变压器输出并将其转换为

5:04

一个图像

5:05

瞧,这就是meta的新模型

5:08

能够进行草图和文本输入

5:11

并生成高清图像

5:13

它允许更多地控制

5:16

高质量的结果

5:18

正如他们所说,这只是开始

5:20

这种新型的人工智能模型

5:22

方法将不断改进

5:24

在质量和可用性方面

5:27

超级兴奋的大众

5:30

艺术家们已经在使用该模型

5:32

他们自己的作品,如meta's中所述

5:34

博客文章,我很兴奋当我们

5:37

他们也可以使用它

5:39

方法不需要任何编码

5:41

知识只有一个好的素描手和

5:43

一些即时工程,这意味着

5:45

文本输入的反复试验

5:48

调整使用的公式和单词

5:50

产生不同的更好的结果

5:53

当然这只是一个概述

5:55

新的制作场景方法和我

5:57

邀请您阅读全文链接

5:59

下面是它如何的完整概述

6:02

作品我希望你喜欢这个视频

6:04

我下周见

6:06

另一篇惊人的论文

6:09

[音乐]