在此之前,我们已经看到模型能够提取句子并 。 生成图像 我们还看到了通过学习特定概念(如对象或特定样式) 。 来操纵生成图像的其他方法 上周,Meta 发布了我介绍的 ,它允许您也从文本句子生成短视频。结果还不完美,但自去年以来我们在该领域取得的进展令人难以置信。 Make-A-Video 模型 本周我们又向前迈进了一步。 这是 DreamFusion,这是一种新的 Google Research 模型,可以充分理解句子以生成它的 3D 模型。 您可以将其视为 或 ,但在 3D 中。 DALLE 稳定扩散 多么酷啊?!我们真的不能让它更酷。 但更令人着迷的是它是如何工作的。让我们深入了解它... 参考 ►阅读全文: ://www.louisbouchard.ai/dreamfusion/ ►Poole, B.、Jain, A.、Barron, JT 和 Mildenhall, B.,2022。DreamFusion:使用 2D 扩散的文本到 3D。 arXiv 预印本 arXiv:2209.14988。 ►项目网址: ://dreamfusion3d.github.io/ ►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): ://www.louisbouchard.ai/newsletter/ https https https 视频记录 0:02 我们已经看到模型能够采取 0:04 句子并生成图像然后其他 0:07 操纵生成的方法 0:09 通过学习特定概念的图像 0:11 像一个物体或一种特定的风格 0:13 上周meta发布了make a 0:16 我介绍的视频模型允许 0:18 您也可以从 0:20 结果不是一个文本句子 0:22 还很完美,但我们已经取得了进展 0:24 自去年以来在该领域只是 0:26 不可思议,这周我们又做了一个 0:28 向前迈进这里的梦想融合一个新的 0:32 谷歌研究模型可以 0:34 理解一个足以生成的句子 0:36 一个 3D 模型,您可以将其视为 0:39 缓慢或稳定的扩散,但在 3D 中 0:41 我们做不到多好 0:44 更酷但更迷人 0:46 它是如何工作的,让我们深入研究它,但是 0:49 先给我几秒钟的时间谈谈 0:51 关于相关主题的计算机视觉 0:53 如果你在 0:55 这个领域以及这个视频我是 0:57 与 encord the online 合作 1:00 计算机视觉学习平台 1:01 数据是最重要的部分之一 1:04 创造创新的计算机视觉 1:06 这就是为什么编码平台有 1:09 从头开始建造 1:10 训练数据的创建和 1:12 机器学习模型的测试 1:14 比以往任何时候都快 1:17 这首先有两种方式 1:19 更易于管理注释和评估 1:22 通过一系列训练数据 1:24 协作注释工具和 1:25 自动化功能其次编码 1:28 提供对其 QA 工作流程 API 的访问 1:31 和 SDK,因此您可以创建自己的 1:33 主动学习管道加速 1:35 模型开发和使用编码 1:38 你不需要浪费时间建造 1:39 您自己的注释工具让您 1:41 专注于将正确的数据输入 1:44 如果这听起来很有趣,你的模型 1:46 请点击以下第一个链接获取 1:48 28 天免费试用 encode Exclusive 1:51 到我们的社区 1:54 如果你一直在追随我的工作梦想 1:56 Fusion非常简单,基本上使用 1:59 我已经介绍过 Nerfs 和 2:02 他们的文本到图像模型之一 2:04 如果是 Imogen 模型,但你 2:07 会喜欢稳定的扩散或多莉 2:09 如你所知,如果你是个好人 2:11 学生并观看了以前的视频 2:12 Nerfs 是一种用于渲染的模型 2:15 通过生成神经辐射的 3D 场景 2:18 一个或多个图像的字段 2:21 对象,但你怎么能生成一个 2:23 如果是 Nerf 模型,则从文本进行 3D 渲染 2:26 仅适用于我们使用的图像 2:29 imagen 其他 AI 生成图像 2:31 与它所需要的变化以及为什么 2:34 我们这样做而不是直接 2:36 从文本生成 3D 模型,因为 2:38 这将需要大量的 3D 数据集 2:41 数据连同他们的关联 2:43 用于训练我们的模型的标题 2:46 这将很难拥有 2:48 相反,我们使用预先训练的文本 2:50 数据复杂得多的图像模型 2:53 我们一起把它改编成 3D 2:56 不需要任何 3D 数据 2:57 仅在预先存在的 AI 上进行训练 3:00 生成图像真的很酷 3:03 我们可以重用强大的技术 3:05 口译时这样的新任务 3:07 问题不同所以如果我们开始 3:09 从一开始我们就有一个 Nerf 模型 3:12 正如我在之前的视频中解释的那样 3:14 模型类型需要图像来预测 3:17 每个新视图中的像素创建一个 3:20 通过从图像对中学习的 3D 模型 3:22 同一个物体不同 3:24 在我们的案例中,我们没有开始 3:26 直接使用图像,我们从 3:28 文本和采样随机视图 3:30 我们要生成图像的方向 3:33 因为基本上我们正在尝试创建一个 3:35 通过生成所有图像的 3D 模型 3:38 相机可以覆盖的可能角度 3:40 环顾四周并猜测 3:42 像素颜色密度光 3:45 反思等一切需要 3:48 让它看起来真实,因此我们开始 3:50 带有标题并添加一个小调整 3:52 它取决于随机相机 3:54 我们要为其生成的观点 3:56 例如我们可能想要生成一个前端 3:58 视图,所以我们将前视图附加到 4:01 另一边的标题我们使用 4:03 相同的角度和相机参数 4:05 初始未训练的 Nerf 模型 4:09 预测第一个渲染然后我们 4:11 生成由我们指导的图像版本 4:13 添加了标题和初始渲染 4:17 噪声使用想象我们的预训练文本 4:20 到我进一步解释的图像模型 4:22 如果你好奇的话,在我的图片和视频中 4:24 看看它是如何做到的,所以我们的形象和 4:26 模型将由文本输入引导 4:28 以及当前的渲染 4:30 在这里我们添加了添加噪声的对象 4:33 噪音,因为这是图像和 4:36 模块可以作为输入 4:38 它是噪声分布的一部分 4:40 了解我们使用模型生成 4:43 更高质量的图像添加图像 4:45 用于生成它并去除噪声 4:48 我们手动添加以使用此结果 4:51 指导和改进我们的 Nerf 模型 4:54 下一步我们会尽一切努力做得更好 4:55 了解图像中 Nerf 的位置 4:57 模型应重点关注 4:59 为下一步产生更好的结果 5:01 我们重复这一点,直到 3D 模型 5:05 足够满足你就可以导出了 5:07 此模型用于网格化并在场景中使用它 5:10 你的选择,在你们中的一些人之前 5:12 问不,你不必重新训练 5:15 正如他们所说的图像生成器模型 5:17 在论文中它只是充当 5:19 预测图像空间的冷冻评论家 5:21 编辑和瞧,这就是梦想融合的方式 5:25 从文本输入生成 3D 渲染 5:28 如果你想有更深的 5:30 对该方法的理解 5:32 看看我的视频涵盖了神经和 5:34 Imogen 我还邀请您阅读他们的 5:36 有关此特定文件的更多详细信息 5:39 方法 谢谢大家收看 5:41 视频,我下周见 5:44 另一篇惊人的论文