你们都见过像这样令人惊叹的图像,完全由人工智能模型生成。我在我的频道上介绍了多种方法,例如 Craiyon、Imagen 和最著名的 Dall-e 2。 大多数人都想尝试它们并根据随机提示生成图像,但这些模型中的大多数不是开源的,这意味着像我们这样的普通人无法自由使用它们。为什么?这就是我们将在本视频中深入探讨的内容...... 参考 ►阅读全文: ://www.louisbouchard.ai/how-openai-reduces-risks-for-dall-e-2/ ►OpenAI 的文章: ://openai.com/blog/dall-e-2-pre-training-mitigations/ ►Dalle 2 视频: ://youtu.be/rdGVbPI42sA ►Craiyon 的视频: ://youtu.be/qOxde_JV0vI ►使用 Craiyon: ://www.craiyon.com/ ►我的每日通讯: ://www.getrevue.co/profile/whats_ai https https https https https https 视频记录 0:00 你们都看过令人惊叹的图像 0:02 像这些完全由 0:05 我介绍的人工智能模型 0:07 我的频道上有多种方法,例如 0:09 蜡笔 imogen 和最著名的 0:12 熟食店 2. 大多数人都想尝尝 0:15 从随机提示生成图像,但 0:18 这些模型中的大多数未打开 0:20 来源,这意味着普通人喜欢 0:23 我们不能自由使用它们为什么会这样 0:26 我们将在这段视频中深入探讨 0:29 我说他们中的大多数都不是开源的 0:32 好吧蜡笔是和人们产生的 0:35 使用它的惊人模因,您可以看到如何 0:38 这样的模型可能会变得危险 0:40 允许任何人生成任何不 0:43 仅针对可能的误用 0:45 世代,但数据用于 0:47 训练这样的模型也来自 0:50 网上的随机图片很漂亮 0:52 任何内容有问题的东西 0:55 并产生一些意想不到的图像 0:58 还可以检索训练数据 1:00 通过模型的逆向工程 1:02 这很可能是不需要的 openai 1:05 也以此为理由不释放 1:08 在这里向公众公开daily2模型 1:10 会调查他们是什么 1:12 调查潜在风险以及如何 1:14 他们正试图减轻他们我走了 1:16 通过一篇非常有趣的文章,他们 1:18 写了涵盖他们的数据预处理 1:21 训练 dalit ii 但之前的步骤 1:24 所以请允许我做我自己的几秒钟 1:26 赞助并分享我最近的项目 1:28 我最近可能会感兴趣 1:31 创建了每日通讯分享ai 1:34 新闻和研究用一个简单的和 1:36 清除单行以知道纸张是否 1:38 代码或新闻值得你花时间 1:41 在linkedin或您的订阅 1:43 电子邮件链接在描述中 1:45 以下 1:46 那么openai真正想到的是什么 1:48 当他们说他们正在制作时 1:50 降低风险的努力 1:52 第一个也是最明显的一个是 1:55 他们正在过滤掉暴力和 1:57 来自数百个色情图片 1:59 互联网上有数百万张图片 2:02 是防止模态学习 2:04 如何产生暴力和性 2:06 内容甚至返回原件 2:08 像几代人一样的图像 2:11 如果你教你的孩子如何打架 2:13 不想让他打架 2:15 可能会有所帮助,但远非完美 2:17 修复我仍然认为有必要 2:20 在我们的数据集中有这样的过滤器和 2:22 在这种情况下肯定有帮助,但怎么做 2:25 他们正是这样做的,他们建造了几个 2:27 训练模型将数据分类为 2:30 通过给他们一些过滤或不过滤 2:32 不同的正面和反面例子 2:34 并迭代改进分类器 2:37 每个分类器都有人工反馈 2:39 通过我们的整个数据集删除更多 2:42 图像比需要的以防万一 2:44 模型看不到坏处要好得多 2:47 首先是数据而不是 2:48 之后试图纠正投篮 2:51 每个分类器都有一个唯一的 2:53 了解要过滤的内容 2:56 并且都会自我补充 2:57 确保良好的过滤,如果我们好的话 3:00 意味着没有假阴性图像 3:02 通过过滤过程 3:04 仍然首先有缺点 3:07 数据集显然更小,可能不会 3:10 准确地代表现实世界 3:12 这可能是好是坏取决于 3:14 他们还发现了一个用例 3:16 此数据的意外副作用 3:18 过滤过程它放大了 3:21 模型对某些特定的偏见 3:23 人口统计引入第二个 3:25 openai 作为预训练所做的事情 3:28 缓解措施 减少由 3:31 这个过滤例如之后 3:33 过滤他们注意到的偏见之一 3:36 是模态生成了更多图像吗 3:38 男性和女性相比 3:41 在原始数据集上训练的模态 3:44 他们解释说原因之一 3:46 可能是女性出现的频率高于 3:48 可能带有偏见的性内容中的男性 3:50 他们的分类器去除更多的错误 3:53 包含女性的负面图像 3:55 数据集在 3:57 模型观察到的性别比例 4:00 训练和复制来解决他们 4:02 重新加权过滤的数据集以匹配 4:05 初始分布 4:07 这里的预过滤数据集是一个例子 4:10 他们涵盖使用猫和狗的地方 4:12 过滤器会比猫去除更多的挖掘物 4:14 所以解决方法是加倍 4:16 狗图像的训练损失 4:19 就像发送两个挖的图像 4:21 而不是一个和补偿 4:23 缺乏图像这再次只是一个 4:26 实际过滤偏差的代理,但它 4:29 仍然缩小图像分布差距 4:31 在预过滤和 4:33 过滤数据集 4:35 最后一个问题是 4:36 记住模型看起来的东西 4:39 比我们强大得多 4:42 说有可能反刍 4:44 来自此类图像生成的训练数据 4:46 大多数情况下不需要的模型 4:49 这里我们也想生成小说 4:51 图像而不是简单地复制粘贴图像 4:54 来自互联网,但我们如何防止 4:56 就像我们的记忆一样,你不能 4:59 真正决定你记得什么和什么 5:01 一旦你看到它就会消失 5:03 要么坚持,要么他们没有找到 5:05 就像人类学习新事物一样 5:07 如果模型看到相同的图像,概念 5:10 在数据集中它可能多次 5:12 最后不小心把它记在心里 5:15 训练并准确生成 5:17 对于相似或相同的文本提示 5:20 这是一个简单可靠的修复 5:23 只需找出哪些图像也是 5:25 相似并轻松删除重复项 5:28 这样做意味着比较每个 5:30 图像与其他图像含义 5:33 数以百亿计的图像对 5:36 相反,他们只是从开始进行比较 5:38 将相似的图像组合在一起并 5:41 然后将图像与所有其他图像进行比较 5:43 相同的图像和其他一些图像 5:46 它周围的集群极大地减少了 5:48 复杂性,同时仍然找到 97 5:52 所有重复的对再次修复 5:55 训练前在数据集中做 5:57 我们的日常模特 openai 也提到 6:00 他们正在调查的下一步 6:02 如果你喜欢这个视频我 6:04 绝对邀请您阅读他们的 6:06 深入文章查看所有细节 6:08 这项训练前缓解工作的 6:11 这是一个非常有趣且写得很好 6:13 文章让我知道你的想法 6:15 他们的缓解努力和他们的 6:17 限制模型访问的选择 6:19 公众 6:20 发表评论或加入讨论 6:22 在我们不和谐的社区谢谢你 6:24 观看到最后,我会的 6:26 下周见,另一个惊人的 6:29 纸 [音乐]