Make-A-Scene 不仅仅是“另一个 Dalle”。这个新模型的目标不是像 dalle 那样允许用户在文本提示后生成随机图像——这真的很酷——但限制了用户对世代的控制。
相反,Meta 希望推动创意表达,将这种文本到图像的趋势与以前的草图到图像模型相结合,从而产生“Make-A-Scene”:文本和以草图为条件的图像生成之间的奇妙融合。在视频中了解更多...
►阅读全文: https ://www.louisbouchard.ai/make-a-scene/
►Meta的博文: https ://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation
►论文:Gafni, O.、Polyak, A.、Asual, O.、Sheynin, S.、Parikh, D. 和
Taigman, Y., 2022. Make-a-scene:基于场景的文本到图像生成
与人类先验。
►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): https ://www.louisbouchard.ai/newsletter/
0:00
[音乐]
0:06
这是一个场景 它不仅仅是
0:08
另一个熟食店这个新模式的目标
0:11
不是让用户随机生成
0:13
文字提示后的图片为大理
0:15
确实很酷但有限制
0:17
用户对世代的控制
0:20
相反,meta 想要推动创意
0:22
表达式向前合并此文本
0:25
与先前草图的图像趋势
0:27
图像模型导致场景
0:30
文字和草图之间的奇妙融合
0:32
条件图像生成这很简单
0:35
意味着使用这种新方法,您
0:37
可以快速勾勒出一只猫并写作
0:40
你想要什么样的形象和
0:42
图像生成过程将遵循
0:43
草图和你的指导
0:45
文本它让我们更接近于
0:48
能够产生完美的
0:49
几秒钟后我们想要的插图
0:52
你可以看到这个多模态生成
0:54
ai方法作为日常模型有点
0:57
对自那以后的几代人有更多的控制权
0:59
它还可以快速绘制草图
1:01
输入这就是我们称之为多模式的原因
1:04
因为它可以采用多种方式作为
1:07
输入,如文本和图像草图
1:10
在这种情况下,与德里相比
1:12
只需要文本来生成图像
1:14
多模态模型是超级的东西
1:17
很有希望,特别是如果我们匹配
1:19
我们在网上看到的结果的质量
1:21
因为我们有更多的控制权
1:23
结果越来越接近非常
1:25
有趣的最终目标是生成
1:27
我们心目中的完美形象
1:30
当然这是任何设计技能
1:32
仍处于研究状态,是
1:34
探索性人工智能研究概念它
1:37
并不意味着我们看到的不是
1:38
可实现它只是意味着它需要一个
1:41
多一点时间向公众公开
1:43
该领域的进展非常迅速
1:45
看到它我不会感到惊讶
1:47
活得很快或类似的模型
1:49
我相信从其他人那里玩
1:52
这种基于草图和文本的模型是
1:54
更有趣的是,尤其是对于
1:56
这就是我想报道的行业
1:58
它在我的频道上,即使结果
2:00
有点落后于我们看到的每日 2
2:03
在线,它不仅对
2:05
这个行业,但对于艺术家来说太一些了
2:08
使用草图特征生成均匀
2:10
比德里更意想不到的结果
2:13
我们可以要求它生成吗
2:14
一些东西并绘制一个不
2:17
代表具体的东西,比如
2:18
画一个花形的水母
2:21
这可能不是不可能的
2:23
大理,但没有更复杂
2:25
草图指导,因为模型只会
2:27
重现它从中学到的东西
2:29
来自真实世界的图像和
2:32
插图,所以主要问题是
2:34
他们如何引导一代又一代
2:36
像德里这样的文本输入和草图
2:39
同时让模型跟随
2:41
两个指导方针都很好,非常非常
2:44
类似于德里的工作方式,所以我不会
2:47
输入太多细节
2:49
我至少介绍过的生成模型
2:51
过去五种不同的方法
2:53
两个月,你绝对应该
2:55
看看你是否还没有这些型号
2:57
像dali 2或imogen一样
2:59
极好的
3:00
通常这些模型将采用
3:02
数以百万计的训练示例来学习
3:04
如何从文本中生成图像
3:07
图像形式的数据及其
3:09
此处从互联网上抓取的字幕
3:12
在训练中而不是仅仅依靠
3:14
在生成第一个标题上
3:17
图像的版本并将其与
3:19
实际图像并重复此
3:21
用我们所有的方法处理了无数次
3:23
图片我们也会给它一个草图
3:26
很酷的是草图是
3:28
很容易为培训生产
3:30
只需使用预先训练的网络即可
3:32
可在线下载并执行实例
3:35
对那些想要的人进行细分
3:37
他们使用免费的预训练 vgg 的详细信息
3:40
imagenet 上的模型非常小
3:42
网络相比那些今天的超级
3:44
准确和快速产生结果,如
3:47
这称为分割图,他们
3:49
只需处理一次他们的所有图像,然后
3:52
获取这些地图以训练模型
3:55
然后使用这张地图以及标题
3:58
定向模型以生成
4:00
推理时或何时的初始图像
4:02
我们中的一个人将使用它我们的草图将
4:05
替换那些地图,因为我说他们使用了
4:08
名为 vgg 的模型创建假草图
4:11
他们使用变压器进行培训
4:13
图像生成架构
4:15
与小车不同的过程
4:17
我邀请你观看我的视频
4:19
为视觉引入变压器
4:21
应用程序,如果您想了解更多详细信息
4:23
关于它如何处理和生成
4:25
图像这个草图引导变压器是
4:28
与杂志的主要区别
4:30
不使用像
4:33
剪辑以测量文本和图像对
4:36
你也可以在我的
4:37
每日视频
4:39
而是所有编码的文本和
4:41
分割图被发送到
4:43
然后对模型进行变压器建模
4:45
生成相关的图像标记
4:48
由相应的编码和解码
4:50
网络主要是为了产生图像
4:53
在训练期间使用编码器
4:55
计算两者之间的差异
4:57
产生和初始图像,但只有
4:59
需要解码器来处理这个
5:01
变压器输出并将其转换为
5:04
一个图像
5:05
瞧,这就是meta的新模型
5:08
能够进行草图和文本输入
5:11
并生成高清图像
5:13
它允许更多地控制
5:16
高质量的结果
5:18
正如他们所说,这只是开始
5:20
这种新型的人工智能模型
5:22
方法将不断改进
5:24
在质量和可用性方面
5:27
超级兴奋的大众
5:30
艺术家们已经在使用该模型
5:32
他们自己的作品,如meta's中所述
5:34
博客文章,我很兴奋当我们
5:37
他们也可以使用它
5:39
方法不需要任何编码
5:41
知识只有一个好的素描手和
5:43
一些即时工程,这意味着
5:45
文本输入的反复试验
5:48
调整使用的公式和单词
5:50
产生不同的更好的结果
5:53
当然这只是一个概述
5:55
新的制作场景方法和我
5:57
邀请您阅读全文链接
5:59
下面是它如何的完整概述
6:02
作品我希望你喜欢这个视频
6:04
我下周见
6:06
另一篇惊人的论文
6:09
[音乐]