paint-brush
DreamFusion:从文本生成 3D 模型的 AI经过@whatsai
22,007 讀數
22,007 讀數

DreamFusion:从文本生成 3D 模型的 AI

经过 Louis Bouchard6m2022/10/16
Read on Terminal Reader
Read this story w/o Javascript

太長; 讀書

DreamFusion 是一种新的谷歌研究模型,它可以理解一个句子以生成它的 3D 模型。结果还不完美,但自去年以来我们在该领域取得的进展令人难以置信。我们真的不能让它变得更酷,但更令人着迷的是它是如何工作的。让我们深入研究一下……这是 Dream Fusion 一种新的计算机视觉模型,它可以理解一个足以生成 3D 模型的句子。

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - DreamFusion:从文本生成 3D 模型的 AI
Louis Bouchard HackerNoon profile picture

在此之前,我们已经看到模型能够提取句子并

我们还看到了通过学习特定概念(如对象或特定样式)

上周,Meta 发布了我介绍的,它允许您也从文本句子生成短视频。结果还不完美,但自去年以来我们在该领域取得的进展令人难以置信。

本周我们又向前迈进了一步。

这是 DreamFusion,这是一种新的 Google Research 模型,可以充分理解句子以生成它的 3D 模型。

您可以将其视为,但在 3D 中。

多么酷啊?!我们真的不能让它更酷。

但更令人着迷的是它是如何工作的。让我们深入了解它...

参考

►阅读全文: https ://www.louisbouchard.ai/dreamfusion/
►Poole, B.、Jain, A.、Barron, JT 和 Mildenhall, B.,2022。DreamFusion:使用 2D 扩散的文本到 3D。 arXiv 预印本 arXiv:2209.14988。
►项目网址: https ://dreamfusion3d.github.io/
►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!): https ://www.louisbouchard.ai/newsletter/

视频记录

0:02

我们已经看到模型能够采取

0:04

句子并生成图像然后其他

0:07

操纵生成的方法

0:09

通过学习特定概念的图像

0:11

像一个物体或一种特定的风格

0:13

上周meta发布了make a

0:16

我介绍的视频模型允许

0:18

您也可以从

0:20

结果不是一个文本句子

0:22

还很完美,但我们已经取得了进展

0:24

自去年以来在该领域只是

0:26

不可思议,这周我们又做了一个

0:28

向前迈进这里的梦想融合一个新的

0:32

谷歌研究模型可以

0:34

理解一个足以生成的句子

0:36

一个 3D 模型,您可以将其视为

0:39

缓慢或稳定的扩散,但在 3D 中

0:41

我们做不到多好

0:44

更酷但更迷人

0:46

它是如何工作的,让我们深入研究它,但是

0:49

先给我几秒钟的时间谈谈

0:51

关于相关主题的计算机视觉

0:53

如果你在

0:55

这个领域以及这个视频我是

0:57

与 encord the online 合作

1:00

计算机视觉学习平台

1:01

数据是最重要的部分之一

1:04

创造创新的计算机视觉

1:06

这就是为什么编码平台有

1:09

从头开始建造

1:10

训练数据的创建和

1:12

机器学习模型的测试

1:14

比以往任何时候都快

1:17

这首先有两种方式

1:19

更易于管理注释和评估

1:22

通过一系列训练数据

1:24

协作注释工具和

1:25

自动化功能其次编码

1:28

提供对其 QA 工作流程 API 的访问

1:31

和 SDK,因此您可以创建自己的

1:33

主动学习管道加速

1:35

模型开发和使用编码

1:38

你不需要浪费时间建造

1:39

您自己的注释工具让您

1:41

专注于将正确的数据输入

1:44

如果这听起来很有趣,你的模型

1:46

请点击以下第一个链接获取

1:48

28 天免费试用 encode Exclusive

1:51

到我们的社区

1:54

如果你一直在追随我的工作梦想

1:56

Fusion非常简单,基本上使用

1:59

我已经介绍过 Nerfs 和

2:02

他们的文本到图像模型之一

2:04

如果是 Imogen 模型,但你

2:07

会喜欢稳定的扩散或多莉

2:09

如你所知,如果你是个好人

2:11

学生并观看了以前的视频

2:12

Nerfs 是一种用于渲染的模型

2:15

通过生成神经辐射的 3D 场景

2:18

一个或多个图像的字段

2:21

对象,但你怎么能生成一个

2:23

如果是 Nerf 模型,则从文本进行 3D 渲染

2:26

仅适用于我们使用的图像

2:29

imagen 其他 AI 生成图像

2:31

与它所需要的变化以及为什么

2:34

我们这样做而不是直接

2:36

从文本生成 3D 模型,因为

2:38

这将需要大量的 3D 数据集

2:41

数据连同他们的关联

2:43

用于训练我们的模型的标题

2:46

这将很难拥有

2:48

相反,我们使用预先训练的文本

2:50

数据复杂得多的图像模型

2:53

我们一起把它改编成 3D

2:56

不需要任何 3D 数据

2:57

仅在预先存在的 AI 上进行训练

3:00

生成图像真的很酷

3:03

我们可以重用强大的技术

3:05

口译时这样的新任务

3:07

问题不同所以如果我们开始

3:09

从一开始我们就有一个 Nerf 模型

3:12

正如我在之前的视频中解释的那样

3:14

模型类型需要图像来预测

3:17

每个新视图中的像素创建一个

3:20

通过从图像对中学习的 3D 模型

3:22

同一个物体不同

3:24

在我们的案例中,我们没有开始

3:26

直接使用图像,我们从

3:28

文本和采样随机视图

3:30

我们要生成图像的方向

3:33

因为基本上我们正在尝试创建一个

3:35

通过生成所有图像的 3D 模型

3:38

相机可以覆盖的可能角度

3:40

环顾四周并猜测

3:42

像素颜色密度光

3:45

反思等一切需要

3:48

让它看起来真实,因此我们开始

3:50

带有标题并添加一个小调整

3:52

它取决于随机相机

3:54

我们要为其生成的观点

3:56

例如我们可能想要生成一个前端

3:58

视图,所以我们将前视图附加到

4:01

另一边的标题我们使用

4:03

相同的角度和相机参数

4:05

初始未训练的 Nerf 模型

4:09

预测第一个渲染然后我们

4:11

生成由我们指导的图像版本

4:13

添加了标题和初始渲染

4:17

噪声使用想象我们的预训练文本

4:20

到我进一步解释的图像模型

4:22

如果你好奇的话,在我的图片和视频中

4:24

看看它是如何做到的,所以我们的形象和

4:26

模型将由文本输入引导

4:28

以及当前的渲染

4:30

在这里我们添加了添加噪声的对象

4:33

噪音,因为这是图像和

4:36

模块可以作为输入

4:38

它是噪声分布的一部分

4:40

了解我们使用模型生成

4:43

更高质量的图像添加图像

4:45

用于生成它并去除噪声

4:48

我们手动添加以使用此结果

4:51

指导和改进我们的 Nerf 模型

4:54

下一步我们会尽一切努力做得更好

4:55

了解图像中 Nerf 的位置

4:57

模型应重点关注

4:59

为下一步产生更好的结果

5:01

我们重复这一点,直到 3D 模型

5:05

足够满足你就可以导出了

5:07

此模型用于网格化并在场景中使用它

5:10

你的选择,在你们中的一些人之前

5:12

问不,你不必重新训练

5:15

正如他们所说的图像生成器模型

5:17

在论文中它只是充当

5:19

预测图像空间的冷冻评论家

5:21

编辑和瞧,这就是梦想融合的方式

5:25

从文本输入生成 3D 渲染

5:28

如果你想有更深的

5:30

对该方法的理解

5:32

看看我的视频涵盖了神经和

5:34

Imogen 我还邀请您阅读他们的

5:36

有关此特定文件的更多详细信息

5:39

方法 谢谢大家收看

5:41

视频,我下周见

5:44

另一篇惊人的论文