如果您认为 取得了不错的成绩,请等到您看到 Google Brain 的这款新模型能做什么。 Dall-e 2 Dalle-e 令人惊叹,但通常缺乏真实感,这就是团队使用名为 Imagen 的新模型所攻击的。 他们在他们的项目页面上分享了很多结果以及他们引入的用于比较文本到图像模型的基准,在这些模型中,它们明显优于 和以前的图像生成方法。在视频中了解更多... Dall-E 2 参考 ►阅读全文: ://www.louisbouchard.ai/google-brain-imagen/ ►论文:Saharia 等人,2022 年,Imagen - Google Brain, ://gweb-research-imagen.appspot.com/paper.pdf ►项目链接: ://gweb-research-imagen.appspot.com/ ►我的时事通讯(一个新的 AI 应用程序每周向您的电子邮件解释!): ://www.louisbouchard.ai/newsletter/ https https https https 视频脚本 0:00 如果你认为大理2有很好的成绩 0:02 等到你看到这个新模型是什么 0:04 从谷歌大脑可以做德里是 0:07 令人惊叹,但往往缺乏现实主义,这 0:10 是团队用这个新的攻击 0:12 模型叫做 imogen 他们分享了很多 0:14 他们的项目页面上的结果以及 0:16 他们引入的基准 0:18 将文本与图像模型进行比较 0:20 他们每天的表现明显优于 2 和 0:23 以前的图像生成方法 0:25 这个基准也超级酷,因为我们 0:27 看到越来越多的文本到图像模型 0:29 而且很难比较 0:31 结果,除非我们假设结果是 0:34 真的很糟糕,我们经常这样做,但这 0:36 model 和 le2 毫无疑问地克服了困难 0:40 tldr 这是一个新的文本到图像模型 0:43 您可以与大理进行比较 0:45 根据人类测试人员的真实性如此公正 0:48 像我什至没有覆盖的大理 0:50 一个月前,这个模型接受文本 0:53 穿着蓝色的金毛猎犬 0:56 方格发夹和红色点缀 0:58 高领毛衣并试图产生一个 1:00 从这个奇怪的照片逼真的图像 1:02 这句话的重点是 1:05 imogen 不仅能看懂文字 1:08 它也可以理解它的图像 1:10 生成,因为它们更现实 1:12 当然比所有以前的方法 1:15 当我说理解时,我的意思是它自己的 1:17 一种真正的理解 1:20 与我们的模态不同 1:22 真正理解文字或图像 1:24 它产生它肯定有某种 1:27 关于它的知识,但主要是 1:28 了解这种特殊的 1:31 带有这些对象的句子应该是 1:33 使用图像上的像素表示,但 1:36 我承认它确实看起来像 1:38 了解我们在看到时发送的内容 1:41 这些结果显然你可以欺骗它 1:43 有一些非常奇怪的句子 1:45 看起来不像这个 1:48 但它有时甚至超过你自己 1:50 想象力,只是创造一些东西 1:53 仍然令人惊奇 更令人惊奇的是 1:56 是如何使用我从未使用过的东西 1:58 在频道上讨论了扩散 2:00 模型,但在使用此扩散之前 2:03 我们首先需要了解的模型 2:05 文本输入,这也是主要的 2:07 与大理不同,他们使用了巨大的 2:10 类似于gpt3的文本模型来理解 2:13 文字尽在 AI 系统中 2:16 而不是一起训练文本模型 2:18 他们使用图像生成模型 2:21 只需使用大型预训练模型和 2:23 冻结它,使其不会改变 2:25 在图像训练期间 2:27 他们研究中的生成模型 2:30 导致了更好的结果,而且似乎 2:32 喜欢模型更好地理解文本 2:35 这个文本模块是如何模型的 2:37 理解文本和这种理解 2:40 以我们所说的编码表示 2:42 这就是模型训练的内容 2:44 在庞大的数据集上执行以传输文本 2:47 输入到一个信息空间中 2:50 它可以使用和理解 2:52 现在我们需要使用这个转换文本 2:54 生成图像的数据,正如我所说 2:57 他们使用扩散模型来实现 3:00 那但什么是扩散模型 3:02 扩散模型是生成模型 3:04 将随机高斯噪声转换为 3:07 通过学习如何将其转化为图像 3:10 迭代地反转高斯噪声 3:13 是超分辨率的强大模型 3:15 或其他图像到图像的翻译和 3:18 在这种情况下,使用修改后的单位 3:20 我涵盖了很多的架构 3:22 以前的视频中的时间,所以我不会 3:24 进入建筑细节 3:26 这里基本上模型被训练为 3:29 从纯噪声中去噪图像 3:31 使用文本编码的东方和 3:34 一种称为无分类器的技术 3:36 他们说的指导是必不可少的,并且 3:38 我会在他们的论文中清楚地解释 3:40 让您阅读以了解更多信息 3:42 这种技术所以现在我们有一个模型 3:45 能够采取随机高斯噪声和 3:47 我们的文本编码和降噪 3:49 从文本编码到 3:51 生成我们的图像,但正如你在这里看到的 3:54 它并不像听起来那么简单 3:56 我们刚刚生成的图像非常小 3:58 图像作为更大的图像将需要 4:00 更多的计算和更大的 4:02 不可行的模型,而是我们 4:05 首先生成逼真的图像 4:07 使用我们刚刚的扩散模型 4:09 讨论,然后使用其他扩散 4:12 提高质量的模型 4:14 图像迭代我已经覆盖 4:16 过去视频中的超分辨率模型 4:19 所以我不会在这里进入细节 4:21 但让我们再次快速概述一下 4:24 我们想要噪音而不是图像 4:26 所以我们掩盖了这个最初生成的 4:28 低分辨率图像再次 4:31 高斯噪声,我们训练我们的第二个 4:33 扩散模型采取这种修改 4:35 图像并改进它然后我们重复 4:38 这两个步骤与另一个模型但是 4:40 这次只使用了 4:43 图像而不是完整图像来做 4:45 相同的升级比例和停留 4:47 计算上可行,瞧我们结束了 4:51 与我们逼真的高 4:53 分辨率图像 4:55 当然这只是一个概述 4:56 这个令人兴奋的新模型真的很酷 4:59 结果我绝对邀请您阅读 5:01 他们伟大的论文更深入 5:03 了解他们的方法和 5:05 详细结果分析 5:07 你认为结果是 5:09 也可以与德里相媲美,它们更好吗 5:12 或者更糟糕的是我认为这是达利的主要 5:15 截至目前的竞争对手让我知道什么 5:17 你想到了这个新的谷歌大脑 5:19 出版和我希望的解释 5:21 你喜欢这个视频,如果你喜欢 5:24 请花点时间留下一个赞和 5:26 订阅以了解最新信息 5:27 如果你订阅了令人兴奋的人工智能新闻我 5:30 下周再见 惊人的纸