Dalle mini 很棒——你可以使用它! 我敢肯定,你在过去几天里在你的 Twitter 提要中看到过类似的图片。如果您想知道它们是什么,它们是由名为 DALL·E mini 的 AI 生成的图像。如果您从未看过这些,则需要观看此视频,因为您错过了。如果您想知道这怎么可能,那么您正在观看完美的视频,并且会在不到五分钟的时间内知道答案。 Dalle mini 是一个免费的开源 AI,它可以从文本输入中生成令人惊叹的图像。以下是它的工作原理: 观看视频 参考: ►阅读全文:https://www.louisbouchard.ai/dalle-mini/ ►DALL·E mini vs. DALL·E 2:https://youtu.be/0Eu9SDd-95E ►最奇怪/最有趣的 DALL·E 迷你结果:https://youtu.be/9LHkNt2cH_w ►玩 DALL·E mini:https://huggingface.co/spaces/dalle-mini/dalle-mini ►DALL·E mini 代码:https://github.com/borisdayma/dalle-mini ►Boris Dayma 的推特:https://twitter.com/borisdayma ► Boris Dayma 等人的出色而完整的技术报告:https://wandb.ai/dalle-mini/dalle-mini/reports/DALL-E-Mini-Explained-with-Demo--Vmlldzo4NjIxODA#the-clip-神经网络模型 ►Tanishq Mathew Abraham 关于 Dall-e mini 的精彩话题: https://twitter.com/iScienceLuvr/status/1536294746041114624/photo/1?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1536294746041114624%7Ctwgr%5E%7Ctwcon%5Es1_&ref_url=https%3A%2F%2 com%2Fmediaembed%2Fvbqh2s%3Fresponsive%3Dtrueis_nightmode%3Dtrue ►VQGAN 解释:https://youtu.be/JfUTd8fjtX8 ►My Newsletter(每周在您的电子邮件中解释的新 AI 应用程序!):https://www.louisbouchard.ai/newsletter/ 视频记录 0:00 我敢肯定你见过这样的照片 0:02 在过去的几个推特中 0:04 如果你想知道他们穿什么,他们 0:06 是由 ai 生成的图像,称为 0:08 dali mini 如果你从未见过那些你 0:11 需要观看此视频,因为您是 0:12 如果您想知道这是怎么回事,请错过 0:14 可能你很完美 0:16 视频,并会在更少的时间内知道答案 0:18 超过5分钟这个名字dali必须 0:21 我已经敲响了两个钟声 0:23 这个模型的版本由 openai 在 0:26 过去的一年取得了令人难以置信的成果 0:28 但这个是不同的 dalimini 是一个 0:31 开源社区创建项目 0:33 灵感来自第一个版本的德里 0:35 并从那时起不断发展 0:38 由于鲍里斯,现在令人难以置信的结果 0:41 daima 和所有贡献者是的,这个 0:43 意味着您可以立即使用它 0:46 感谢拥抱的脸,链接在 0:48 下面的描述,但给这个 0:49 播放前几秒钟的视频 0:51 有了它,这将是值得的,你会 0:54 比这个ai更了解 0:55 大理核心你身边的每一个人 0:58 mini 和德里非常相似,所以我的 1:00 该模型的初始视频很棒 1:02 介绍这个它有两个主要的 1:04 组件,因为您怀疑一种语言和 1:07 一个图像模块首先它必须 1:10 理解文字提示,然后 1:12 生成图像跟随它两个非常 1:14 不同的东西需要两个非常 1:17 不同型号主要区别 1:18 与德里一起在模型中 1:20 架构和训练数据,但 1:22 端到端的过程几乎是 1:24 同样在这里我们有一个语言模型 1:27 bart bart 是一个训练有素的模型 1:29 将文本输入转换为一种语言 1:32 在下一个模型可以理解 1:34 训练我们提供成对的图像 1:36 dalemini bart 的字幕采用文本 1:39 标题并将其转换为离散的 1:42 将被 1:44 下一个模型,我们根据 1:46 生成的图像之间的差异 1:48 并将图像作为输入发送,但随后 1:51 这是什么东西在这里产生 1:54 我们称之为解码器的图像 1:57 采用新的标题表示 1:59 由 bart 生产,我们称之为 2:01 编码并将其解码为 2:04 在这种情况下,图像解码器是 2:07 vqgan 一个我已经介绍过的模型 2:10 频道所以我绝对邀请你 2:11 如果您有兴趣,请观看视频 2:14 简短的 vkugen 是一个伟大的架构 2:16 做相反的事情,它学会了如何去 2:19 这样的编码映射并生成 2:22 当您怀疑 gpt3 和 2:25 其他语言生成模型做一个 2:27 非常相似的东西编码文本和 2:29 解码新生成的映射 2:32 变成它发回给你的新文本 2:35 这里是一样的,但是有像素 2:37 形成图像而不是字母 2:40 形成一个它学习的句子 2:42 数以百万计的编码图像对来自 2:45 互联网所以基本上你发表 2:47 带有标题的图像,最终成为 2:50 在重建中相当准确 2:52 初始图像,然后您可以提供新图像 2:54 看起来像 2:56 训练,但有点不同,它 2:59 将产生一个全新但 3:01 类似的图像,我们通常添加 3:04 这些编码只是一点点噪音 3:06 生成一个新的图像代表 3:08 相同的文本提示,瞧,这就是 3:12 dali mini 学习从 3:14 正如我提到的,你的文字标题是 3:17 开源,你甚至可以玩 3:19 多亏了拥抱的脸 3:22 当然这只是一个简单的 3:24 概述,我省略了一些重要的 3:26 如果您想了解更多信息,请执行以下步骤 3:29 我链接的模型的详细信息很好 3:31 下面描述中的资源我 3:34 最近还发布了两个短视频 3:36 展示了一些有趣的结果以及 3:38 与每日 2 的比较结果 3:40 同样的文字提示很酷 3:42 看到我希望你喜欢这个视频 3:45 如果是这样,请花几秒钟 3:47 在评论中告诉我并留下 3:50 就像我不会在下周见到你,而是在 3:52 两周后又一篇了不起的论文 3:55 [音乐] 4:14 [音乐]