所有最近的超级强大的图像模型,如 、 或 有什么共同点?除了高昂的计算成本、巨大的训练时间和共享炒作之外,它们都基于相同的机制:扩散。 DALLE Imagen Midjourney 扩散模型最近在大多数图像任务中取得了最先进的结果,包括使用 DALLE 的文本到图像,但也有许多其他与图像生成相关的任务,如图像修复、样式转换或图像超分辨率。但它们是如何工作的?在视频中了解更多... 参考 ►阅读全文:https://www.louisbouchard.ai/latent-diffusion-models/ ►Rombach, R.、Blattmann, A.、Lorenz, D.、Esser, P. 和 Ommer, B.,2022 年。 具有潜扩散模型的高分辨率图像合成。在 IEEE/CVF 计算机视觉和模式会议论文集 认可(第 10684-10695 页),https://arxiv.org/pdf/2112.10752.pdf ►潜在扩散代码:https://github.com/CompVis/latent-diffusion ►Stable Diffusion Code(基于LD的text-to-image):https://github.com/CompVis/stable-diffusion ►自己尝试:https://huggingface.co/spaces/stabilityai/stable-diffusion ►网络应用: https://stabilityai.us.auth0.com/u/login?state=hKFo2SA4MFJLR1M4cVhJcllLVmlsSV9vcXNYYy11Q25rRkVzZaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIFRjV2p5dHkzNGQzdkFKZUdyUEprRnhGeFl6ZVdVUDRZo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4 ►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!):https://www.louisbouchard.ai/newsletter/ 视频记录 0:00 最近所有的超级强大的图像是什么 0:02 像德里想象或中途旅行这样的模型 0:05 除了高计算之外有共同点 0:08 花费大量的培训时间和共享炒作 0:10 它们都基于相同的机制 0:13 最近扩散融合模型 0:15 取得了最先进的成果 0:17 大多数图像任务,包括文本到图像 0:19 与德里,但还有许多其他形象 0:21 生成相关任务,如图像和 0:23 画风转移或形象超强 0:25 分辨率虽然有一些 0:27 他们的缺点是按顺序工作 0:30 整个图像意味着 0:31 训练和推理时间超长 0:34 昂贵这就是为什么你需要数百 0:36 使用 gpus 来训练这样的模型以及为什么 0:38 你等几分钟才能得到你的 0:40 结果毫不奇怪,只有 0:42 像谷歌或openai这样的大公司 0:45 正在发布这些模型 0:47 但他们是什么我已经涵盖了扩散 0:49 我在几个视频中的模特 0:51 邀请您检查更好的 0:52 理解它们是迭代模型 0:55 将随机噪声作为输入 0:57 可以以文本或 0:59 图像,所以它不是完全随机的 1:02 迭代地学习消除这种噪音 1:04 通过学习模型的参数 1:06 应该适用于这种噪音以结束 1:08 带有最终图像,因此基本 1:10 扩散模型将随机 1:12 噪声与图像的大小和 1:14 学会应用更多的噪音,直到 1:17 我们回到真实的图像这是 1:19 可能的,因为该模型将具有 1:21 期间访问真实图像 1:23 培训,并将能够学习 1:25 通过应用这样的噪声来设置正确的参数 1:27 迭代到图像直到它 1:29 达到完全的噪音并且是 1:31 面目全非 1:33 那么当我们对 1:35 我们从所有图像中得到的噪音意义 1:37 它们相似并产生噪音 1:40 从类似的分布中,我们准备好了 1:42 反向使用我们的模型并输入它 1:45 类似的噪音以相反的顺序 1:48 期待与使用的图像相似的图像 1:50 在训练期间,这里的主要问题 1:53 是您直接与 1:54 像素和大数据输入,如 1:57 图片让我们看看我们如何解决这个问题 1:59 计算问题,同时保持 2:02 结果的质量与所示相同 2:04 这里与德里相比,但首先给出 2:07 我几秒钟把你介绍给我 2:09 嘎嘎的朋友赞助这个视频 2:11 你肯定知道大多数 2:13 的企业现在报告人工智能和机器学习 2:15 在他们的过程中采用但很复杂 2:18 模态部署等操作 2:20 训练测试和特征存储 2:22 管理似乎阻碍了 2:24 进度机器学习模型部署是其中之一 2:26 最复杂的过程就是这样 2:29 数据科学家的严格流程 2:31 团队在解决问题上花费了太多时间 2:33 后端和工程任务之前 2:35 能够将模型推入 2:37 我个人生产的东西 2:39 经历过也需要很 2:42 不同的技能组合通常需要两个 2:44 不同的团队紧密合作 2:46 幸运的是我们嘎嘎提供了一个 2:48 统一机器学习的全托管平台 2:50 工程和数据操作 2:53 提供敏捷的基础设施, 2:55 能够持续生产 2:57 无需进行大规模毫升模型 2:59 学习如何端到端地做所有事情 3:01 多亏了他们嘎嘎的力量 3:04 组织交付机器 3:06 将模型学习到大规模生产中 3:08 如果你想加快你的模型 3:10 交付生产请拿几个 3:12 分钟,然后单击下面的第一个链接 3:14 检查他们提供的东西,因为我确定 3:16 值得感谢任何人 3:18 看看并支持我和我的 3:20 嘎嘎的朋友 3:23 这些强大的扩散模型如何 3:25 计算效率高 3:27 将它们转化为潜在扩散 3:30 模型 这意味着知更鸟 rumback 和 3:32 他的同事实现了这个 3:34 我们刚刚介绍的扩散方法 3:36 在压缩图像表示中 3:38 而不是图像本身,然后 3:41 努力重建图像,所以他们 3:43 不适用于像素空间或 3:45 常规图像不再在这种情况下工作 3:48 压缩空间不仅允许 3:50 更高效和更快的世代 3:52 数据量要小得多,但也 3:54 允许使用不同的 3:56 模态,因为它们正在编码 3:58 输入你可以给它任何类型的输入 4:00 像图像或文本,模型将 4:03 学习以相同的方式对这些输入进行编码 4:05 扩散模型的子空间 4:07 用于生成图像,所以是的 4:10 就像剪辑模型一样,一个模型可以工作 4:13 用文字或图像来指导几代人 4:16 整体模型看起来像这样 4:18 您将在此处获得初始图像 x 4:21 然后将其编码为信息 4:23 空间称为潜在空间或 z this 4:26 非常类似于您将要使用的枪 4:29 使用编码器模型拍摄图像 4:31 并提取最相关的 4:32 在子空间中关于它的信息 4:35 您可以将其视为下采样任务 4:37 在保持尽可能多的同时减小其尺寸 4:39 尽可能提供您现在所在的信息 4:42 你凝聚的潜空间 4:44 输入你然后做同样的事情 4:46 您的条件输入文本图像 4:49 或其他任何东西并将它们与 4:50 您当前的图像表示使用 4:53 我在另一个中描述的注意 4:55 视频这个注意力机制将 4:57 学习结合输入的最佳方式 4:59 并在这个潜在的条件下输入 5:01 空间增加注意力变压器 5:04 这些合并的扩散模型的特征 5:07 输入现在是您的初始噪音 5:09 扩散过程 5:11 那么你有相同的扩散模型我 5:13 覆盖在我的图像和视频中,但仍然 5:16 在这个子空间中,你最终重建 5:19 使用解码器的图像,你可以 5:21 看成你最初的相反步骤 5:23 编码器采用这个修改和 5:25 潜在空间中的去噪输入 5:28 构建最终的高分辨率图像 5:31 基本上对你的结果进行上采样 5:34 瞧,这就是你如何使用扩散 5:36 适用于各种任务的模型,例如 5:39 绘画中的超分辨率甚至 5:41 使用最近稳定的文本到图像 5:44 通过扩散开源模型 5:46 调理过程同时多 5:49 更高效,让你跑 5:51 它们在您的 gpus 上,而不是要求 5:54 数百个你没听错 5:56 对于所有想要拥有的开发人员 5:58 他们自己的文字来图像和图像 6:00 综合模型自行运行 6:02 gpus 代码可用 6:04 预车削模型所有链接都是 6:06 如果您确实使用该模型,请在下面 6:08 分享您的测试 ID 和结果或任何 6:10 你对我的反馈我很乐意 6:13 聊聊当然这只是 6:15 潜扩散概述 6:17 模特和我邀请你阅读他们的 6:19 伟大的论文也链接到下面 6:21 了解有关模型和方法的更多信息 6:24 非常感谢我在嘎嘎的朋友 6:26 赞助这个视频甚至更大 6:28 感谢您观看全文 6:30 视频我下周见 6:33 另一篇惊人的论文