Make-A-Scene 不仅仅是“另一个 Dalle”。这个新模型的目标不是像 dalle 那样允许用户在文本提示后生成随机图像——这真的很酷——但限制了用户对世代的控制。 相反,Meta 希望推动创意表达,将这种文本到图像的趋势与以前的草图到图像模型相结合,从而产生“Make-A-Scene”:文本和以草图为条件的图像生成之间的奇妙融合。在视频中了解更多... 参考 ►阅读全文: ://www.louisbouchard.ai/make-a-scene/ ►Meta的博文: ://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation ►论文:Gafni, O.、Polyak, A.、Asual, O.、Sheynin, S.、Parikh, D. 和 Taigman, Y., 2022. Make-a-scene:基于场景的文本到图像生成 与人类先验。 ►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): ://www.louisbouchard.ai/newsletter/ https https https 视频记录 0:00 [音乐] 0:06 这是一个场景 它不仅仅是 0:08 另一个熟食店这个新模式的目标 0:11 不是让用户随机生成 0:13 文字提示后的图片为大理 0:15 确实很酷但有限制 0:17 用户对世代的控制 0:20 相反,meta 想要推动创意 0:22 表达式向前合并此文本 0:25 与先前草图的图像趋势 0:27 图像模型导致场景 0:30 文字和草图之间的奇妙融合 0:32 条件图像生成这很简单 0:35 意味着使用这种新方法,您 0:37 可以快速勾勒出一只猫并写作 0:40 你想要什么样的形象和 0:42 图像生成过程将遵循 0:43 草图和你的指导 0:45 文本它让我们更接近于 0:48 能够产生完美的 0:49 几秒钟后我们想要的插图 0:52 你可以看到这个多模态生成 0:54 ai方法作为日常模型有点 0:57 对自那以后的几代人有更多的控制权 0:59 它还可以快速绘制草图 1:01 输入这就是我们称之为多模式的原因 1:04 因为它可以采用多种方式作为 1:07 输入,如文本和图像草图 1:10 在这种情况下,与德里相比 1:12 只需要文本来生成图像 1:14 多模态模型是超级的东西 1:17 很有希望,特别是如果我们匹配 1:19 我们在网上看到的结果的质量 1:21 因为我们有更多的控制权 1:23 结果越来越接近非常 1:25 有趣的最终目标是生成 1:27 我们心目中的完美形象 1:30 当然这是任何设计技能 1:32 仍处于研究状态,是 1:34 探索性人工智能研究概念它 1:37 并不意味着我们看到的不是 1:38 可实现它只是意味着它需要一个 1:41 多一点时间向公众公开 1:43 该领域的进展非常迅速 1:45 看到它我不会感到惊讶 1:47 活得很快或类似的模型 1:49 我相信从其他人那里玩 1:52 这种基于草图和文本的模型是 1:54 更有趣的是,尤其是对于 1:56 这就是我想报道的行业 1:58 它在我的频道上,即使结果 2:00 有点落后于我们看到的每日 2 2:03 在线,它不仅对 2:05 这个行业,但对于艺术家来说太一些了 2:08 使用草图特征生成均匀 2:10 比德里更意想不到的结果 2:13 我们可以要求它生成吗 2:14 一些东西并绘制一个不 2:17 代表具体的东西,比如 2:18 画一个花形的水母 2:21 这可能不是不可能的 2:23 大理,但没有更复杂 2:25 草图指导,因为模型只会 2:27 重现它从中学到的东西 2:29 来自真实世界的图像和 2:32 插图,所以主要问题是 2:34 他们如何引导一代又一代 2:36 像德里这样的文本输入和草图 2:39 同时让模型跟随 2:41 两个指导方针都很好,非常非常 2:44 类似于德里的工作方式,所以我不会 2:47 输入太多细节 2:49 我至少介绍过的生成模型 2:51 过去五种不同的方法 2:53 两个月,你绝对应该 2:55 看看你是否还没有这些型号 2:57 像dali 2或imogen一样 2:59 极好的 3:00 通常这些模型将采用 3:02 数以百万计的训练示例来学习 3:04 如何从文本中生成图像 3:07 图像形式的数据及其 3:09 此处从互联网上抓取的字幕 3:12 在训练中而不是仅仅依靠 3:14 在生成第一个标题上 3:17 图像的版本并将其与 3:19 实际图像并重复此 3:21 用我们所有的方法处理了无数次 3:23 图片我们也会给它一个草图 3:26 很酷的是草图是 3:28 很容易为培训生产 3:30 只需使用预先训练的网络即可 3:32 可在线下载并执行实例 3:35 对那些想要的人进行细分 3:37 他们使用免费的预训练 vgg 的详细信息 3:40 imagenet 上的模型非常小 3:42 网络相比那些今天的超级 3:44 准确和快速产生结果,如 3:47 这称为分割图,他们 3:49 只需处理一次他们的所有图像,然后 3:52 获取这些地图以训练模型 3:55 然后使用这张地图以及标题 3:58 定向模型以生成 4:00 推理时或何时的初始图像 4:02 我们中的一个人将使用它我们的草图将 4:05 替换那些地图,因为我说他们使用了 4:08 名为 vgg 的模型创建假草图 4:11 他们使用变压器进行培训 4:13 图像生成架构 4:15 与小车不同的过程 4:17 我邀请你观看我的视频 4:19 为视觉引入变压器 4:21 应用程序,如果您想了解更多详细信息 4:23 关于它如何处理和生成 4:25 图像这个草图引导变压器是 4:28 与杂志的主要区别 4:30 不使用像 4:33 剪辑以测量文本和图像对 4:36 你也可以在我的 4:37 每日视频 4:39 而是所有编码的文本和 4:41 分割图被发送到 4:43 然后对模型进行变压器建模 4:45 生成相关的图像标记 4:48 由相应的编码和解码 4:50 网络主要是为了产生图像 4:53 在训练期间使用编码器 4:55 计算两者之间的差异 4:57 产生和初始图像,但只有 4:59 需要解码器来处理这个 5:01 变压器输出并将其转换为 5:04 一个图像 5:05 瞧,这就是meta的新模型 5:08 能够进行草图和文本输入 5:11 并生成高清图像 5:13 它允许更多地控制 5:16 高质量的结果 5:18 正如他们所说,这只是开始 5:20 这种新型的人工智能模型 5:22 方法将不断改进 5:24 在质量和可用性方面 5:27 超级兴奋的大众 5:30 艺术家们已经在使用该模型 5:32 他们自己的作品,如meta's中所述 5:34 博客文章,我很兴奋当我们 5:37 他们也可以使用它 5:39 方法不需要任何编码 5:41 知识只有一个好的素描手和 5:43 一些即时工程,这意味着 5:45 文本输入的反复试验 5:48 调整使用的公式和单词 5:50 产生不同的更好的结果 5:53 当然这只是一个概述 5:55 新的制作场景方法和我 5:57 邀请您阅读全文链接 5:59 下面是它如何的完整概述 6:02 作品我希望你喜欢这个视频 6:04 我下周见 6:06 另一篇惊人的论文 6:09 [音乐]