Dalle mini 很棒——你可以使用它!
我敢肯定,你在过去几天里在你的 Twitter 提要中看到过类似的图片。如果您想知道它们是什么,它们是由名为 DALL·E mini 的 AI 生成的图像。如果您从未看过这些,则需要观看此视频,因为您错过了。如果您想知道这怎么可能,那么您正在观看完美的视频,并且会在不到五分钟的时间内知道答案。
Dalle mini 是一个免费的开源 AI,它可以从文本输入中生成令人惊叹的图像。以下是它的工作原理:
►阅读全文:https://www.louisbouchard.ai/dalle-mini/
►DALL·E mini vs. DALL·E 2:https://youtu.be/0Eu9SDd-95E
►最奇怪/最有趣的 DALL·E 迷你结果:https://youtu.be/9LHkNt2cH_w
►玩 DALL·E mini:https://huggingface.co/spaces/dalle-mini/dalle-mini
►DALL·E mini 代码:https://github.com/borisdayma/dalle-mini
►Boris Dayma 的推特:https://twitter.com/borisdayma
► Boris Dayma 等人的出色而完整的技术报告:https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mini-Explained-with-Demo--Vmlldzo4NjIxODA#the-clip-神经网络模型
►Tanishq Mathew Abraham 关于 Dall-e mini 的精彩话题:
https://twitter.com/iScienceLuvr/status/1536294746041114624/photo/1?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1536294746041114624%7Ctwgr%5E%7Ctwcon%5Es1_&ref_url=https%3A%2F%2 com%2Fmediaembed%2Fvbqh2s%3Fresponsive%3Dtrueis_nightmode%3Dtrue
►VQGAN 解释:https://youtu.be/JfUTd8fjtX8
►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!):https://www.louisbouchard.ai/newsletter/
0:00
我敢肯定你见过这样的照片
0:02
在过去的几个推特中
0:04
如果你想知道他们穿什么,他们
0:06
是由 ai 生成的图像,称为
0:08
dali mini 如果你从未见过那些你
0:11
需要观看此视频,因为您是
0:12
如果您想知道这是怎么回事,请错过
0:14
可能你很完美
0:16
视频,并会在更少的时间内知道答案
0:18
超过5分钟这个名字dali必须
0:21
我已经敲响了两个钟声
0:23
这个模型的版本由 openai 在
0:26
过去的一年取得了令人难以置信的成果
0:28
但这个是不同的 dalimini 是一个
0:31
开源社区创建项目
0:33
灵感来自第一个版本的德里
0:35
并从那时起不断发展
0:38
由于鲍里斯,现在令人难以置信的结果
0:41
daima 和所有贡献者是的,这个
0:43
意味着您可以立即使用它
0:46
感谢拥抱的脸,链接在
0:48
下面的描述,但给这个
0:49
播放前几秒钟的视频
0:51
有了它,这将是值得的,你会
0:54
比这个ai更了解
0:55
大理核心你身边的每一个人
0:58
mini 和德里非常相似,所以我的
1:00
该模型的初始视频很棒
1:02
介绍这个它有两个主要的
1:04
组件,因为您怀疑一种语言和
1:07
一个图像模块首先它必须
1:10
理解文字提示,然后
1:12
生成图像跟随它两个非常
1:14
不同的东西需要两个非常
1:17
不同型号主要区别
1:18
与德里一起在模型中
1:20
架构和训练数据,但
1:22
端到端的过程几乎是
1:24
同样在这里我们有一个语言模型
1:27
bart bart 是一个训练有素的模型
1:29
将文本输入转换为一种语言
1:32
在下一个模型可以理解
1:34
训练我们提供成对的图像
1:36
dalemini bart 的字幕采用文本
1:39
标题并将其转换为离散的
1:42
将被
1:44
下一个模型,我们根据
1:46
生成的图像之间的差异
1:48
并将图像作为输入发送,但随后
1:51
这是什么东西在这里产生
1:54
我们称之为解码器的图像
1:57
采用新的标题表示
1:59
由 bart 生产,我们称之为
2:01
编码并将其解码为
2:04
在这种情况下,图像解码器是
2:07
vqgan 一个我已经介绍过的模型
2:10
频道所以我绝对邀请你
2:11
如果您有兴趣,请观看视频
2:14
简短的 vkugen 是一个伟大的架构
2:16
做相反的事情,它学会了如何去
2:19
这样的编码映射并生成
2:22
当您怀疑 gpt3 和
2:25
其他语言生成模型做一个
2:27
非常相似的东西编码文本和
2:29
解码新生成的映射
2:32
变成它发回给你的新文本
2:35
这里是一样的,但是有像素
2:37
形成图像而不是字母
2:40
形成一个它学习的句子
2:42
数以百万计的编码图像对来自
2:45
互联网所以基本上你发表
2:47
带有标题的图像,最终成为
2:50
在重建中相当准确
2:52
初始图像,然后您可以提供新图像
2:54
看起来像
2:56
训练,但有点不同,它
2:59
将产生一个全新但
3:01
类似的图像,我们通常添加
3:04
这些编码只是一点点噪音
3:06
生成一个新的图像代表
3:08
相同的文本提示,瞧,这就是
3:12
dali mini 学习从
3:14
正如我提到的,你的文字标题是
3:17
开源,你甚至可以玩
3:19
多亏了拥抱的脸
3:22
当然这只是一个简单的
3:24
概述,我省略了一些重要的
3:26
如果您想了解更多信息,请执行以下步骤
3:29
我链接的模型的详细信息很好
3:31
下面描述中的资源我
3:34
最近还发布了两个短视频
3:36
展示了一些有趣的结果以及
3:38
与每日 2 的比较结果
3:40
同样的文字提示很酷
3:42
看到我希望你喜欢这个视频
3:45
如果是这样,请花几秒钟
3:47
在评论中告诉我并留下
3:50
就像我不会在下周见到你,而是在
3:52
两周后又一篇了不起的论文
3:55
[音乐]
4:14
[音乐]