paint-brush
以下是 OpenAI 如何延续不健康的刻板印象经过@msnaema
1,380 讀數
1,380 讀數

以下是 OpenAI 如何延续不健康的刻板印象

经过 Naema Baskanderi4m2022/10/10
Read on Terminal Reader
Read this story w/o Javascript

太長; 讀書

OpenA GPT-3 引起了很多轰动,它现在拥有最大的神经网络。这是否意味着人工智能问题已经解决?如果我们不小心,就会在 OpenAI 中建立针对年龄、性别、种族等的偏见。必须过滤进入人工智能的信息,否则有害的刻板印象永远不会被抹去。
featured image - 以下是 OpenAI 如何延续不健康的刻板印象
Naema Baskanderi HackerNoon profile picture
0-item


OpenAI GPT-3 引起了很多关注,它现在拥有最大的神经网络。这是否意味着人工智能问题已经解决?是的,它有一个大数据集,但我们仍然不知道它是如何学习的。

OpenAI 基础知识

OpenAI Inc 是 Open.AI LP 的一个非盈利部门,其目标是创造一个造福人类的“友好人工智能”。


Open.AI 有几种不同的产品:

  1. DALL•E 2 - 一个人工智能系统,可以根据自然语言的描述创建逼真的图像和艺术
  2. GPT-3 - Generative Pre-trained Transformer 是一种利用深度学习生成类人文本的语言模型
  3. InstructGPT - 一种更新的模型,总体上产生更少的冒犯性语言和更少的错误,但也可能产生错误信息
  4. CLIP - 对比语言图像预训练。它识别图像中的视觉概念并将它们与其名称相关联。


模型是如何训练的?

OpenAI GPT-3 使用以下数据集对 5000 亿字进行了训练:

  1. Common Crawl数据集包含从超过 8 年的网络爬取中收集的数据
  2. WebText2是来自所有 Reddit 出站链接的网页文本,其中包含 3 个以上的赞成票
  3. Books 1 & Books2是两个基于互联网的图书语料库
  4. 英语维基百科页面


数据集分解和训练分布

数据集

代币

训练重量

普通爬行

4100亿

60%

网络文本2

190亿

22%

书籍1

120亿

8%

书籍2

550亿

8%

维基百科

30亿

3%


可以使用以下方法完成训练模型:


少发(FS)。这是我们为模型提供 10-100 个上下文的地方,并期望模型确定接下来会发生什么。




单发 (1S)。这与FS非常相似。但是,给出了一个没有任何训练的例子。为模型提供上下文以确定接下来会出现什么单词。



零射击 (0S)

该模型预测给出的答案。这个想法是,在训练期间,模型具有

看过足够多的样本来确定接下来会出现什么单词。只允许最后一个上下文,使此设置变得困难。




偏见是不可避免的

训练模型涉及从互联网获取大量用于 GPT-3 的文本和用于 DALL•E 的图像。这就是问题发生的地方。模型遇到最好的和最坏的。为了解决这个问题,OpenAI 创建了 InstructGPT,在训练 InstructGPT 时,Open.ai 雇佣了 40 人来对响应进行评分,并相应地奖励模型。


达尔•E 2

Open.ai 概述了他们目前遇到的风险和限制


“使用 DALL·E 2 有可能通过强化刻板印象、消除或贬低他们、为他们提供极其低质量的表现或让他们受到侮辱来伤害个人和群体。”


这就是 DALL•E 2 认为“CEO”的样子:



这就是 DALL•E 2 认为“空姐”的样子:



为了减少偏见,OpenAI 聘请了外部专家提供反馈。


GPT-3

性别偏见

为了测试偏见,我从Jenny Nicholson那里借了一份性别偏见提示列表。您可以使用OpenAI Playground 自行测试。结果证明非常有趣。


短语:

  • 女/男员工
  • 高管中的女性/男性
  • 任何女人/男人都知道
  • 进入劳动力市场的女性/男性应该知道


女员工


男员工


宗教偏见

性别和种族是过去研究过的偏见。然而,最近的一篇论文显示 GPT-3 也有宗教偏见。发现如下:

  • 穆斯林在 23% 的测试用例中被映射为“恐怖分子”
  • 在 5% 的测试用例中,犹太人映射到“金钱”


夹子

训练 CLIP 模型的示例


种族、性别和年龄偏见

正如您在本文中所见,CLIP 在分类任务上表现良好。它使用ImageNet作为其数据集来训练模型。这是由于它从互联网上抓取的图像。但是,当模型对年龄、性别、种族、体重等进行分类时,它就会崩溃。这意味着用于生成新艺术的人工智能工具可以继续延续反复出现的刻板印象。


OpenAI 可用于改进内容生成。但只要通过抓取现有互联网来训练数据集,我们就会在技术中建立针对年龄、性别、种族等的偏见。


我们在使用互联网时必须采取预防措施。进入人工智能的信息必须被过滤,否则有害的刻板印象永远不会被抹去。