你们都见过像这样令人惊叹的图像,完全由人工智能模型生成。我在我的频道上介绍了多种方法,例如 Craiyon、Imagen 和最著名的 Dall-e 2。
大多数人都想尝试它们并根据随机提示生成图像,但这些模型中的大多数不是开源的,这意味着像我们这样的普通人无法自由使用它们。为什么?这就是我们将在本视频中深入探讨的内容......
►阅读全文: https ://www.louisbouchard.ai/how-openai-reduces-risks-for-dall-e-2/
►OpenAI 的文章: https ://openai.com/blog/dall-e-2-pre-training-mitigations/
►Dalle 2 视频: ://youtu.be/rdGVbPI42sA
►Craiyon 的视频: ://youtu.be/qOxde_JV0vI
►使用 Craiyon: https ://www.craiyon.com/
►我的每日通讯: https ://www.getrevue.co/profile/whats_ai
0:00
你们都看过令人惊叹的图像
0:02
像这些完全由
0:05
我介绍的人工智能模型
0:07
我的频道上有多种方法,例如
0:09
蜡笔 imogen 和最著名的
0:12
熟食店 2. 大多数人都想尝尝
0:15
从随机提示生成图像,但
0:18
这些模型中的大多数未打开
0:20
来源,这意味着普通人喜欢
0:23
我们不能自由使用它们为什么会这样
0:26
我们将在这段视频中深入探讨
0:29
我说他们中的大多数都不是开源的
0:32
好吧蜡笔是和人们产生的
0:35
使用它的惊人模因,您可以看到如何
0:38
这样的模型可能会变得危险
0:40
允许任何人生成任何不
0:43
仅针对可能的误用
0:45
世代,但数据用于
0:47
训练这样的模型也来自
0:50
网上的随机图片很漂亮
0:52
任何内容有问题的东西
0:55
并产生一些意想不到的图像
0:58
还可以检索训练数据
1:00
通过模型的逆向工程
1:02
这很可能是不需要的 openai
1:05
也以此为理由不释放
1:08
在这里向公众公开daily2模型
1:10
会调查他们是什么
1:12
调查潜在风险以及如何
1:14
他们正试图减轻他们我走了
1:16
通过一篇非常有趣的文章,他们
1:18
写了涵盖他们的数据预处理
1:21
训练 dalit ii 但之前的步骤
1:24
所以请允许我做我自己的几秒钟
1:26
赞助并分享我最近的项目
1:28
我最近可能会感兴趣
1:31
创建了每日通讯分享ai
1:34
新闻和研究用一个简单的和
1:36
清除单行以知道纸张是否
1:38
代码或新闻值得你花时间
1:41
在linkedin或您的订阅
1:43
电子邮件链接在描述中
1:45
以下
1:46
那么openai真正想到的是什么
1:48
当他们说他们正在制作时
1:50
降低风险的努力
1:52
第一个也是最明显的一个是
1:55
他们正在过滤掉暴力和
1:57
来自数百个色情图片
1:59
互联网上有数百万张图片
2:02
是防止模态学习
2:04
如何产生暴力和性
2:06
内容甚至返回原件
2:08
像几代人一样的图像
2:11
如果你教你的孩子如何打架
2:13
不想让他打架
2:15
可能会有所帮助,但远非完美
2:17
修复我仍然认为有必要
2:20
在我们的数据集中有这样的过滤器和
2:22
在这种情况下肯定有帮助,但怎么做
2:25
他们正是这样做的,他们建造了几个
2:27
训练模型将数据分类为
2:30
通过给他们一些过滤或不过滤
2:32
不同的正面和反面例子
2:34
并迭代改进分类器
2:37
每个分类器都有人工反馈
2:39
通过我们的整个数据集删除更多
2:42
图像比需要的以防万一
2:44
模型看不到坏处要好得多
2:47
首先是数据而不是
2:48
之后试图纠正投篮
2:51
每个分类器都有一个唯一的
2:53
了解要过滤的内容
2:56
并且都会自我补充
2:57
确保良好的过滤,如果我们好的话
3:00
意味着没有假阴性图像
3:02
通过过滤过程
3:04
仍然首先有缺点
3:07
数据集显然更小,可能不会
3:10
准确地代表现实世界
3:12
这可能是好是坏取决于
3:14
他们还发现了一个用例
3:16
此数据的意外副作用
3:18
过滤过程它放大了
3:21
模型对某些特定的偏见
3:23
人口统计引入第二个
3:25
openai 作为预训练所做的事情
3:28
缓解措施 减少由
3:31
这个过滤例如之后
3:33
过滤他们注意到的偏见之一
3:36
是模态生成了更多图像吗
3:38
男性和女性相比
3:41
在原始数据集上训练的模态
3:44
他们解释说原因之一
3:46
可能是女性出现的频率高于
3:48
可能带有偏见的性内容中的男性
3:50
他们的分类器去除更多的错误
3:53
包含女性的负面图像
3:55
数据集在
3:57
模型观察到的性别比例
4:00
训练和复制来解决他们
4:02
重新加权过滤的数据集以匹配
4:05
初始分布
4:07
这里的预过滤数据集是一个例子
4:10
他们涵盖使用猫和狗的地方
4:12
过滤器会比猫去除更多的挖掘物
4:14
所以解决方法是加倍
4:16
狗图像的训练损失
4:19
就像发送两个挖的图像
4:21
而不是一个和补偿
4:23
缺乏图像这再次只是一个
4:26
实际过滤偏差的代理,但它
4:29
仍然缩小图像分布差距
4:31
在预过滤和
4:33
过滤数据集
4:35
最后一个问题是
4:36
记住模型看起来的东西
4:39
比我们强大得多
4:42
说有可能反刍
4:44
来自此类图像生成的训练数据
4:46
大多数情况下不需要的模型
4:49
这里我们也想生成小说
4:51
图像而不是简单地复制粘贴图像
4:54
来自互联网,但我们如何防止
4:56
就像我们的记忆一样,你不能
4:59
真正决定你记得什么和什么
5:01
一旦你看到它就会消失
5:03
要么坚持,要么他们没有找到
5:05
就像人类学习新事物一样
5:07
如果模型看到相同的图像,概念
5:10
在数据集中它可能多次
5:12
最后不小心把它记在心里
5:15
训练并准确生成
5:17
对于相似或相同的文本提示
5:20
这是一个简单可靠的修复
5:23
只需找出哪些图像也是
5:25
相似并轻松删除重复项
5:28
这样做意味着比较每个
5:30
图像与其他图像含义
5:33
数以百亿计的图像对
5:36
相反,他们只是从开始进行比较
5:38
将相似的图像组合在一起并
5:41
然后将图像与所有其他图像进行比较
5:43
相同的图像和其他一些图像
5:46
它周围的集群极大地减少了
5:48
复杂性,同时仍然找到 97
5:52
所有重复的对再次修复
5:55
训练前在数据集中做
5:57
我们的日常模特 openai 也提到
6:00
他们正在调查的下一步
6:02
如果你喜欢这个视频我
6:04
绝对邀请您阅读他们的
6:06
深入文章查看所有细节
6:08
这项训练前缓解工作的
6:11
这是一个非常有趣且写得很好
6:13
文章让我知道你的想法
6:15
他们的缓解努力和他们的
6:17
限制模型访问的选择
6:19
公众
6:20
发表评论或加入讨论
6:22
在我们不和谐的社区谢谢你
6:24
观看到最后,我会的
6:26
下周见,另一个惊人的
6:29
纸
[音乐]