eDiffi 是 NVIDIA 的最新模型,它生成的图像比 DALLE 2 或 Stable Diffusion 等所有以前的方法更好看、更准确。 eDiffi 可以更好地理解您发送的文本并且更可定制,增加了我们在 NVIDIA 之前的一篇论文中看到的功能:painter tool。在视频中了解更多... 参考 ►阅读全文: ://www.louisbouchard.ai/ediffi/ ► Balaji, Y. 等人,2022,eDiffi:具有专家降噪器集合的文本到图像扩散模型, ://arxiv.org/abs/2211.01324 ►项目页面: ://deepimagination.cc/eDiffi/ ►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): ://www.louisbouchard.ai/newsletter/ https https https https 视频记录 0:06 新的最先进的方法 0:08 它生成的图像合成效果更好 0:10 看起来和更准确的图像比 0:13 以前的所有方法,例如德里 2 或 0:15 如果他更好,则稳定扩散 0:17 理解您发送的文本并且是 0:19 更可定制添加新功能 0:21 我们在 Nvidia 之前的一篇论文中看到 0:23 他们看到的画家工具,你可以 0:26 简而言之,这意味着你 0:29 可以输入一些主题并进行绘画 0:32 应该出现在这里的图像和 0:34 在那里让你创造更多 0:36 定制图像与随机图像相比 0:39 根据提示生成这是 0:41 下一个级别,让你漂亮 0:43 得到你所拥有的确切图像 0:45 只需简单地画一个可怕的快速 0:47 画一些我能做的事 0:50 提到的结果不仅是Sota 0:52 比稳定扩散更好看 0:55 但它们也更可控 0:57 当然这是一个不同的用例 0:59 它需要更多的工作和更清晰的 1:02 创建此类草稿时要记住 ID,但 1:04 这绝对是超级非常令人兴奋的 1:06 有趣,这也是我想要的原因 1:08 在我的频道上覆盖它,因为它不是 1:11 不仅是一个更好的模型,也是一个 1:13 更多不同的方法 1:15 控制工具的输出不是 1:17 不幸的是,但我确定 1:19 希望它会很快通过你的方式 1:22 绝对应该订阅 1:23 频道并在 Twitter 上关注我 1:25 如果你喜欢这种视频,打个招呼 1:27 并希望能够轻松访问 1:30 这方面的可消化新闻 1:32 复杂领域的另一场胜利,他们 1:34 让你有更多的控制权 1:37 新模型是通过使用相同的功能 1:39 我们看到了但确实不同的模型 1:42 生成由句子引导的图像 1:44 但也可以使用 1:47 快速草图,所以它基本上需要一个 1:49 图像和文本作为输入这意味着 1:52 你可以做它理解的其他事情 1:54 他们利用这里的图片 1:56 通过发展一种风格的能力 1:58 尽可能转移方法 2:00 影响图像的风格 2:02 生成图像的过程 2:04 一种特定的风格以及你的 2:06 文本输入,这非常酷,而且只是 2:09 看看他们所代表的结果 2:11 他们自己都令人难以置信地击败了两者 2:14 Sota 风格转移模型和图像 2:16 用单一方法合成模型 2:18 现在的问题是英伟达怎么能 2:22 开发一个创造更好的模型 2:23 看图像可以更好地控制 2:26 风格和图像结构 2:29 以及更好的理解和 2:31 代表你真正想要的 2:34 你的文字很好,他们改变了典型的 2:36 扩散架构首先有两种方式 2:39 他们使用两种不同的方式对文本进行编码 2:41 我已经介绍过的方法 2:43 我们称之为clip和T5的通道 2:46 编码器,这意味着他们将使用 2:48 预训练模型以获取文本和 2:50 创建各种嵌入 2:52 训练时的不同特征 2:55 并且表现不同,含义是 2:57 只是表示最大化什么 3:00 这句话实际上意味着 3:01 算法或机器要理解 3:04 它关于输入图像,他们只是 3:06 也使用剪辑嵌入 3:08 基本上对图像进行编码,以便 3:11 模型可以理解它你可以 3:13 在我的其他视频中了解更多信息 3:14 覆盖生成模型 3:16 几乎所有都建立在剪辑上这是 3:19 是什么让他们有更多的控制权 3:21 在输出以及处理 3:23 文字和图像,而不仅仅是文字 3:25 第二个修改是使用 3:28 级联扩散模型而不是 3:31 像我们一样重复使用相同的东西 3:33 通常使用基于扩散的模型 3:35 这里训练的使用模型 3:38 生成过程的特定部分 3:39 这意味着每个模型不必 3:42 与常规扩散一样普遍 3:44 降噪器,因为每个模型都必须关注 3:46 在流程的特定部分,它可以 3:49 做得更好,他们用这个 3:51 接近,因为他们观察到 3:52 去噪模型似乎使用了文本 3:55 嵌入更多内容以定位其 3:57 一代朝初 3:59 处理,然后使用它越来越少 4:02 专注于输出质量和保真度 4:05 这自然带来了假设 4:07 重用相同的去噪模型 4:09 整个过程可能不会 4:11 成为最好的 ID,因为它会自动 4:13 专注于不同的任务,我们知道 4:15 通才远非专家 4:18 所有任务的水平为什么不使用一些 4:20 专家而不是一名通才来获得 4:23 更好的结果,所以这就是他们 4:25 做了以及为什么他们称它们为去噪 4:28 专家和造成这种情况的主要原因 4:30 提高质量性能和 4:32 其余部分的忠诚度 4:34 架构与其他架构非常相似 4:36 缩放最终结果的方法 4:38 与其他型号一起获得高 4:40 定义最终图像图像和 4:43 视频合成领域刚刚起步 4:45 现在很疯狂,我们正在看到 4:47 每周都会出现令人印象深刻的结果 4:49 我对下一个版本感到非常兴奋 4:51 我喜欢看到不同的方法 4:53 两种创新的应对方式 4:55 问题也不同 4:57 用例就像一位伟人曾经说过的那样 5:01 我希望你喜欢 5:04 这个方法的快速概述 5:06 比我平时高一点 5:08 尽我所能 5:10 涵盖在众多视频中并更改 5:12 他们采取不同的行动我邀请你 5:15 观看我的稳定扩散视频来学习 5:17 关于扩散方法的更多信息 5:19 本身并阅读nvidia的论文 5:21 了解有关此特定方法的更多信息 5:23 及其实施我会看到你 5:26 下周再发表一篇惊人的论文 5:32 外国的 5:36 [音乐]