paint-brush
DALL·E mini 是如何工作的?经过@whatsai
24,742 讀數
24,742 讀數

DALL·E mini 是如何工作的?

经过 Louis Bouchard3m2022/06/19
Read on Terminal Reader
Read this story w/o Javascript

太長; 讀書

Dalle mini 是一个免费的开源 AI,它可以从文本输入中生成令人惊叹的图像。这个人工智能叫做 DALL·E mini,可以用来测试你对 Dall-e mini 生成图像能力的了解。 Dalle Mini 是一个开源 AI,可以使用一个名为 DALimini 的简单工具来玩。 DALIMini 是 openai 在过去一年中创建的社区创建项目,并从那时起不断发展并取得了令人难以置信的成果。

Company Mentioned

Mention Thumbnail
featured image - DALL·E mini 是如何工作的?
Louis Bouchard HackerNoon profile picture

Dalle mini 很棒——你可以使用它!

我敢肯定,你在过去几天里在你的 Twitter 提要中看到过类似的图片。如果您想知道它们是什么,它们是由名为 DALL·E mini 的 AI 生成的图像。如果您从未看过这些,则需要观看此视频,因为您错过了。如果您想知道这怎么可能,那么您正在观看完美的视频,并且会在不到五分钟的时间内知道答案。

Dalle mini 是一个免费的开源 AI,它可以从文本输入中生成令人惊叹的图像。以下是它的工作原理:

观看视频

参考:

►阅读全文:https://www.louisbouchard.ai/dalle-mini/
►DALL·E mini vs. DALL·E 2:https://youtu.be/0Eu9SDd-95E
►最奇怪/最有趣的 DALL·E 迷你结果:https://youtu.be/9LHkNt2cH_w
►玩 DALL·E mini:https://huggingface.co/spaces/dalle-mini/dalle-mini
►DALL·E mini 代码:https://github.com/borisdayma/dalle-mini
►Boris Dayma 的推特:https://twitter.com/borisdayma
► Boris Dayma 等人的出色而完整的技术报告:https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mini-Explained-with-Demo--Vmlldzo4NjIxODA#the-clip-神经网络模型
►Tanishq Mathew Abraham 关于 Dall-e mini 的精彩话题:
https://twitter.com/iScienceLuvr/status/1536294746041114624/photo/1?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1536294746041114624%7Ctwgr%5E%7Ctwcon%5Es1_&ref_url=https%3A%2F%2 com%2Fmediaembed%2Fvbqh2s%3Fresponsive%3Dtrueis_nightmode%3Dtrue
►VQGAN 解释:https://youtu.be/JfUTd8fjtX8
►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!):https://www.louisbouchard.ai/newsletter/

视频记录

0:00

我敢肯定你见过这样的照片

0:02

在过去的几个推特中

0:04

如果你想知道他们穿什么,他们

0:06

是由 ai 生成的图像,称为

0:08

dali mini 如果你从未见过那些你

0:11

需要观看此视频,因为您是

0:12

如果您想知道这是怎么回事,请错过

0:14

可能你很完美

0:16

视频,并会在更少的时间内知道答案

0:18

超过5分钟这个名字dali必须

0:21

我已经敲响了两个钟声

0:23

这个模型的版本由 openai 在

0:26

过去的一年取得了令人难以置信的成果

0:28

但这个是不同的 dalimini 是一个

0:31

开源社区创建项目

0:33

灵感来自第一个版本的德里

0:35

并从那时起不断发展

0:38

由于鲍里斯,现在令人难以置信的结果

0:41

daima 和所有贡献者是的,这个

0:43

意味着您可以立即使用它

0:46

感谢拥抱的脸,链接在

0:48

下面的描述,但给这个

0:49

播放前几秒钟的视频

0:51

有了它,这将是值得的,你会

0:54

比这个ai更了解

0:55

大理核心你身边的每一个人

0:58

mini 和德里非常相似,所以我的

1:00

该模型的初始视频很棒

1:02

介绍这个它有两个主要的

1:04

组件,因为您怀疑一种语言和

1:07

一个图像模块首先它必须

1:10

理解文字提示,然后

1:12

生成图像跟随它两个非常

1:14

不同的东西需要两个非常

1:17

不同型号主要区别

1:18

与德里一起在模型中

1:20

架构和训练数据,但

1:22

端到端的过程几乎是

1:24

同样在这里我们有一个语言模型

1:27

bart bart 是一个训练有素的模型

1:29

将文本输入转换为一种语言

1:32

在下一个模型可以理解

1:34

训练我们提供成对的图像

1:36

dalemini bart 的字幕采用文本

1:39

标题并将其转换为离散的

1:42

将被

1:44

下一个模型,我们根据

1:46

生成的图像之间的差异

1:48

并将图像作为输入发送,但随后

1:51

这是什么东西在这里产生

1:54

我们称之为解码器的图像

1:57

采用新的标题表示

1:59

由 bart 生产,我们称之为

2:01

编码并将其解码为

2:04

在这种情况下,图像解码器是

2:07

vqgan 一个我已经介绍过的模型

2:10

频道所以我绝对邀请你

2:11

如果您有兴趣,请观看视频

2:14

简短的 vkugen 是一个伟大的架构

2:16

做相反的事情,它学会了如何去

2:19

这样的编码映射并生成

2:22

当您怀疑 gpt3 和

2:25

其他语言生成模型做一个

2:27

非常相似的东西编码文本和

2:29

解码新生成的映射

2:32

变成它发回给你的新文本

2:35

这里是一样的,但是有像素

2:37

形成图像而不是字母

2:40

形成一个它学习的句子

2:42

数以百万计的编码图像对来自

2:45

互联网所以基本上你发表

2:47

带有标题的图像,最终成为

2:50

在重建中相当准确

2:52

初始图像,然后您可以提供新图像

2:54

看起来像

2:56

训练,但有点不同,它

2:59

将产生一个全新但

3:01

类似的图像,我们通常添加

3:04

这些编码只是一点点噪音

3:06

生成一个新的图像代表

3:08

相同的文本提示,瞧,这就是

3:12

dali mini 学习从

3:14

正如我提到的,你的文字标题是

3:17

开源,你甚至可以玩

3:19

多亏了拥抱的脸

3:22

当然这只是一个简单的

3:24

概述,我省略了一些重要的

3:26

如果您想了解更多信息,请执行以下步骤

3:29

我链接的模型的详细信息很好

3:31

下面描述中的资源我

3:34

最近还发布了两个短视频

3:36

展示了一些有趣的结果以及

3:38

与每日 2 的比较结果

3:40

同样的文字提示很酷

3:42

看到我希望你喜欢这个视频

3:45

如果是这样,请花几秒钟

3:47

在评论中告诉我并留下

3:50

就像我不会在下周见到你,而是在

3:52

两周后又一篇了不起的论文

3:55

[音乐]

4:14

[音乐]