在此之前,我们已经看到模型能够提取句子并。
我们还看到了通过学习特定概念(如对象或特定样式)。
上周,Meta 发布了我介绍的,它允许您也从文本句子生成短视频。结果还不完美,但自去年以来我们在该领域取得的进展令人难以置信。
本周我们又向前迈进了一步。
这是 DreamFusion,这是一种新的 Google Research 模型,可以充分理解句子以生成它的 3D 模型。
您可以将其视为或,但在 3D 中。
多么酷啊?!我们真的不能让它更酷。
但更令人着迷的是它是如何工作的。让我们深入了解它...
►阅读全文: https ://www.louisbouchard.ai/dreamfusion/
►Poole, B.、Jain, A.、Barron, JT 和 Mildenhall, B.,2022。DreamFusion:使用 2D 扩散的文本到 3D。 arXiv 预印本 arXiv:2209.14988。
►项目网址: https ://dreamfusion3d.github.io/
►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): https ://www.louisbouchard.ai/newsletter/
0:02
我们已经看到模型能够采取
0:04
句子并生成图像然后其他
0:07
操纵生成的方法
0:09
通过学习特定概念的图像
0:11
像一个物体或一种特定的风格
0:13
上周meta发布了make a
0:16
我介绍的视频模型允许
0:18
您也可以从
0:20
结果不是一个文本句子
0:22
还很完美,但我们已经取得了进展
0:24
自去年以来在该领域只是
0:26
不可思议,这周我们又做了一个
0:28
向前迈进这里的梦想融合一个新的
0:32
谷歌研究模型可以
0:34
理解一个足以生成的句子
0:36
一个 3D 模型,您可以将其视为
0:39
缓慢或稳定的扩散,但在 3D 中
0:41
我们做不到多好
0:44
更酷但更迷人
0:46
它是如何工作的,让我们深入研究它,但是
0:49
先给我几秒钟的时间谈谈
0:51
关于相关主题的计算机视觉
0:53
如果你在
0:55
这个领域以及这个视频我是
0:57
与 encord the online 合作
1:00
计算机视觉学习平台
1:01
数据是最重要的部分之一
1:04
创造创新的计算机视觉
1:06
这就是为什么编码平台有
1:09
从头开始建造
1:10
训练数据的创建和
1:12
机器学习模型的测试
1:14
比以往任何时候都快
1:17
这首先有两种方式
1:19
更易于管理注释和评估
1:22
通过一系列训练数据
1:24
协作注释工具和
1:25
自动化功能其次编码
1:28
提供对其 QA 工作流程 API 的访问
1:31
和 SDK,因此您可以创建自己的
1:33
主动学习管道加速
1:35
模型开发和使用编码
1:38
你不需要浪费时间建造
1:39
您自己的注释工具让您
1:41
专注于将正确的数据输入
1:44
如果这听起来很有趣,你的模型
1:46
请点击以下第一个链接获取
1:48
28 天免费试用 encode Exclusive
1:51
到我们的社区
1:54
如果你一直在追随我的工作梦想
1:56
Fusion非常简单,基本上使用
1:59
我已经介绍过 Nerfs 和
2:02
他们的文本到图像模型之一
2:04
如果是 Imogen 模型,但你
2:07
会喜欢稳定的扩散或多莉
2:09
如你所知,如果你是个好人
2:11
学生并观看了以前的视频
2:12
Nerfs 是一种用于渲染的模型
2:15
通过生成神经辐射的 3D 场景
2:18
一个或多个图像的字段
2:21
对象,但你怎么能生成一个
2:23
如果是 Nerf 模型,则从文本进行 3D 渲染
2:26
仅适用于我们使用的图像
2:29
imagen 其他 AI 生成图像
2:31
与它所需要的变化以及为什么
2:34
我们这样做而不是直接
2:36
从文本生成 3D 模型,因为
2:38
这将需要大量的 3D 数据集
2:41
数据连同他们的关联
2:43
用于训练我们的模型的标题
2:46
这将很难拥有
2:48
相反,我们使用预先训练的文本
2:50
数据复杂得多的图像模型
2:53
我们一起把它改编成 3D
2:56
不需要任何 3D 数据
2:57
仅在预先存在的 AI 上进行训练
3:00
生成图像真的很酷
3:03
我们可以重用强大的技术
3:05
口译时这样的新任务
3:07
问题不同所以如果我们开始
3:09
从一开始我们就有一个 Nerf 模型
3:12
正如我在之前的视频中解释的那样
3:14
模型类型需要图像来预测
3:17
每个新视图中的像素创建一个
3:20
通过从图像对中学习的 3D 模型
3:22
同一个物体不同
3:24
在我们的案例中,我们没有开始
3:26
直接使用图像,我们从
3:28
文本和采样随机视图
3:30
我们要生成图像的方向
3:33
因为基本上我们正在尝试创建一个
3:35
通过生成所有图像的 3D 模型
3:38
相机可以覆盖的可能角度
3:40
环顾四周并猜测
3:42
像素颜色密度光
3:45
反思等一切需要
3:48
让它看起来真实,因此我们开始
3:50
带有标题并添加一个小调整
3:52
它取决于随机相机
3:54
我们要为其生成的观点
3:56
例如我们可能想要生成一个前端
3:58
视图,所以我们将前视图附加到
4:01
另一边的标题我们使用
4:03
相同的角度和相机参数
4:05
初始未训练的 Nerf 模型
4:09
预测第一个渲染然后我们
4:11
生成由我们指导的图像版本
4:13
添加了标题和初始渲染
4:17
噪声使用想象我们的预训练文本
4:20
到我进一步解释的图像模型
4:22
如果你好奇的话,在我的图片和视频中
4:24
看看它是如何做到的,所以我们的形象和
4:26
模型将由文本输入引导
4:28
以及当前的渲染
4:30
在这里我们添加了添加噪声的对象
4:33
噪音,因为这是图像和
4:36
模块可以作为输入
4:38
它是噪声分布的一部分
4:40
了解我们使用模型生成
4:43
更高质量的图像添加图像
4:45
用于生成它并去除噪声
4:48
我们手动添加以使用此结果
4:51
指导和改进我们的 Nerf 模型
4:54
下一步我们会尽一切努力做得更好
4:55
了解图像中 Nerf 的位置
4:57
模型应重点关注
4:59
为下一步产生更好的结果
5:01
我们重复这一点,直到 3D 模型
5:05
足够满足你就可以导出了
5:07
此模型用于网格化并在场景中使用它
5:10
你的选择,在你们中的一些人之前
5:12
问不,你不必重新训练
5:15
正如他们所说的图像生成器模型
5:17
在论文中它只是充当
5:19
预测图像空间的冷冻评论家
5:21
编辑和瞧,这就是梦想融合的方式
5:25
从文本输入生成 3D 渲染
5:28
如果你想有更深的
5:30
对该方法的理解
5:32
看看我的视频涵盖了神经和
5:34
Imogen 我还邀请您阅读他们的
5:36
有关此特定文件的更多详细信息
5:39
方法 谢谢大家收看
5:41
视频,我下周见
5:44
另一篇惊人的论文