生成式人工智能建模如何导致故障
这里的观点和讨论完全是我自己的,并不反映 Meta 或我的团队的观点或任何内部或专有知识。
我在 Meta 的生成人工智能部门工作。具体来说,我从事 Meta 的文本→图像生成工作。我们的第一批产品在这里推出,您可以在这里试用。当我提示“2024 年的德国人家庭”时,我得到了以下放大图像,但底部还得到了其他 3 张图像。
以下是放大其他 2 个建议的结果:
正如你所看到的,这里有一些代表家庭的种族多样性。然而,它并不是通过排斥“传统”德国家庭的方式来做到这一点的。
同时这里还有几个例子:
这是代表一些历史人物的另一个提示:
当然还有很多缺陷,包括我在内的团队成员正在努力改进。例如,上面的提示认为“印度人”意味着来自印度的人和美国的“本土印第安人”。
然而,如果你关注过谷歌上周的 Gemini 惨败,就会发现该模型的结果与上面的并不一样,并且有更多令人担忧的输出。这是描述其中一些陷阱的线程。
如果您无法访问 Twitter 上的整个线程,这里是未压缩的线程。
还有更多引起轰动的图像,但这些足以得出以下结论:
这些会引发很多反应——从对“觉醒的企业”“抹杀”“白人”的愤怒,到其他一些媒体出版物试图关注双子座将如何将“有色人种展示为纳粹分子”,或者一些关于如何将“有色人种”展现为纳粹的评论。这个问题被夸大了,或者驳斥了“自由主义偏见”。这些反应往往与政治路线有关,我无意在这里深入探讨它们。
然而,作为一名在这个特定领域工作的工程师,我可以做出积极的贡献,以解释模型开发的开发周期如何工作,特别是在生成人工智能中,同时使用它来理解(推测)上述输出如何成为主导。我不想使用任何技术术语,也不想解释神经网络的内部结构——我也不认为它们与这里相关。我想重申这里没有任何内容应该是专有信息,而且我对这个问题或谷歌的内部运作没有任何内部了解。
在深入讨论某些阶段之前,我想解释一个非常重要的不变量。模型的好坏取决于它所训练的数据。这并不意味着模型的其他组件(例如架构)不重要甚至不那么重要。事实上,过去几年在机器学习领域取得了出色的研究,从法学硕士、图像生成、视频生成等方面加速了该领域的指数增长。然而,无论进步如何,每种模型都面临一个限制,那就是它不能如果没有在良好的代表性数据集上进行训练,则不会给出所需的输出。
对于那些不熟悉机器学习概念的人来说,模型会被输入(或“训练”)某个概念(例如狗)的多个示例 - 包括正面(包含)和负面(不包含) - 并期望给定任何随机输入模型应该能够以高置信度预测它是否包含该概念的实例。可以针对特定用例进行大量增强(例如识别狗的坐标)。
大规模训练(又称预训练):识别狗只是一个例子。这里的一般问题是:给定任何文本,生成相应的图像。为此,模型首先需要识别(“学习”)某些单词的含义。因此,它需要通过查看每个标准(“概念”)的许多示例来识别大象、男人、女人、狗、山脉等。然而,为了让模型为每个场景生成良好的图像,它需要理解大量的概念,其中不仅包括最常见的概念,还包括一系列较少使用、不太熟悉的概念。为了以相当高的置信度做到这一点,我们需要使用大量数据(数百万到数十亿)来训练模型。此阶段称为预训练,其中大量摄取的数据有助于模型生成质量足够好的所需输出。
基于摄取数据的模型学习的一个推论是,模型将学习训练集的模式及其所有偏差。因此,如果您的狗训练数据集仅包含柴犬和柯基犬(顺便说一句,超级可爱的狗)的图像,那么您生成的所有狗都将看起来像这些品种。因此,如果您希望模型输出不“过度拟合”上述特定类型,您将需要为源添加多样性。因此,在上面的示例中,您希望确保训练数据具有大量您想要反映的统一采样的主要品种。
这也适用于人类。就像某些狗品种的过度代表性是不可取的一样,人类也是如此。然而,对于人类来说,与品种不同,这些划分线跨越性别、国籍、民族、种族界限。理想情况下,我们希望预训练阶段能够反映这些维度的相对均匀性,以避免某些特征在模型输出中占主导地位。
因此,在预训练阶段,模型会摄取大量数据,同时试图找到概念(人类、宠物、野生动物、自然、家具、景观等)的多样性,然后在这些概念(品种、国籍、尺寸)中找到一些多样性。 )。
微调:然而,在大规模数据上训练模型后,最后一步是在非常小的高质量数据上进行“微调”。这里的微小变化可能会对模型输出产生巨大的变化。因此,如果您想更改视觉质量,则可以在此处进行分发。但请注意,鉴于规模较大,预训练数据仍然占主导地位,并且很难确定模型输出的多少受到模型训练的哪个阶段的影响。
安全性:上面的理解主要集中在解释模型输出的核心阶段和重要性方面。然而,我们还需要了解偏见、法律约束的现实影响,并确保模型不会产生不利影响。虽然遵守法律可能相对容易,因为它们被奉为圭臬(尽管法院显示仍然有很大的解释空间),但解决其他不违法但可能有害的问题会引起很多争议并暴露政治分歧。一个名为“人工智能伦理”或“负责任的人工智能”的人工智能领域已经兴起,旨在解决后一种问题——虽然不违法,但可能有害。
在上面的偏差示例中,例如说我们需要训练数据集中具有代表性的男性和女性样本,这是相对没有争议的。或者来自印度、中国、美国、英国、巴西、尼日利亚的人来反映人类。其他类似的相对无争议的缓解措施是防止裸体(成人 - 并非完全非法,以及儿童 - 非法),不得在未经同意的情况下泄露任何个人的个人(包括财务、健康)信息,以及可能的知识产权侵权。但负责任的人工智能领域超越了这些,因为它还有一个目标,就是不让“有害的刻板印象”永久化。
这里有一个例子 - 如果你要求一个模型生成医生和护士的图像,并且 100 次中有 99 次它显示男性为医生,女性为护士,这绝对是延续了不良的社会刻板印象。
其他一些例子 - 如果你要求模型生成一个穆斯林男子,它最终可能会显示一个暴力恐怖分子。
您可能会问,为什么模型要这样做?请记住,模型与训练数据一样好。事实证明,这是由于现实世界的分布(例如,与医生相比,从事护理工作的女性更多,这通常是由于社会限制)、不同领域中某些词语的定义(暴力极端主义与某些群体的行为和不是其他)或对特定地区的某些群体(例如中国吃狗/蝙蝠)的媒体报道存在偏见,该模型所消耗的数据会放大很多这些偏见。因此,根据此类数据训练的模型很可能几乎总是生成女性护士、男性医生、穆斯林男性暴力极端分子或中国/亚洲人吃蝙蝠的人。
这些被称为模型和数据的“无意识”偏差。这需要修复吗?从法律上讲,不可以(尽管在某些司法管辖区可能确实如此)。道德上?这是一个棘手且颇具争议的问题。明显的直觉是“是”——防止有害的刻板印象被放大。然而,对于人类应该干预多少来扭曲结果,可能会有一些反对意见,特别是如果它反映了经验事实(即使这是社会偏见/歧视的结果)。即使我们同意这样做是可取的,那么哪些人可以这样做,如果有的话,限制是什么(例如他们自己的偏见)?干预也会产生负面影响吗?无论如何,如前所述,本文的目的不是要参与此类讨论,而只是承认一些争议和基本论点。
无论您在这些问题上持什么立场,请考虑一下:大多数大公司(包括 Meta)都在开发生成式人工智能模型(包括文本和图像),对“是否需要修复”的问题做出肯定的回答,并正在采取行动许多措施可以缓解这种情况。一些示例包括通过检测并可能删除有害配对来清理数据,或者在微调阶段积极引导模型远离特定的不良结果,以改变通过摄取互联网语料库所达到的结果。
结果,您可以看到可能存在很大问题的提示,正如 Google Image 搜索结果所见证的那样,分布非常均匀。
如上所示,输出了 4 张图像。这两个角色的男性和女性的分布都足够好。
法律和隐私缓解措施:上述情况可能会引起一些人的很多担忧,比如随机员工注入自己的偏见,并以他们想要的任何方式使用不可变的特征改变模型输出。然而,所有主要科技公司都拥有庞大的法律部门,其中一些部门专门配备人员来处理审查法律风险和越界,同时引入参数来模拟输出生成。他们是如何做到的呢?他们阅读了所有代码吗?不。
然而,在任何开发开始大规模之前,在发布到生产之前,开发人员、产品经理、数据科学家、经理都需要提出一个愿景,说明他们将如何实现他们的目标、可能引入的偏见、他们可能通过以下方式提出的隐私问题:访问或暴露他们不应该访问的数据,以及使用有争议的参数。那么我们可以将种族编码到我们的模型中吗?那国籍呢?每个类似的问题都有不同的答案,具体取决于公司,我不会透露 Meta 内部的任何决定,但每个这些决定都在设计阶段本身得到考虑和回答,以使法律代表满意。不满足这些要求会成为启动障碍,因此无论您的输出有多好,都会阻止发货。
模型评估:有一个最后也是非常重要的阶段——评估。毕竟,如果您经历了开发这些大型复杂模型的巨大痛苦,您难道不想测试它吗?有很多方法可以做到这一点,其中很多是手动的,有些是自动的,但一种非常常见的方法是将一些生成的输出发送给一组评估者,并要求他们通过某些维度来评估输出,例如视觉质量、及时的忠实度和也可能存在有害的相互作用。这些方法因团队和公司而异,但本质上启动通常需要满足一些内部指标,以证明其性能比以前的版本更好。而且还有“ 护栏”,这意味着它们不需要改进,但不能倒退才能推出。有害内容的生成通常是一个护栏,因为每个模型版本都必须确保它不会意外地增加生成有害内容的机会,即使它在其他必要和有利可图的方面有所改进。
现在我们已经了解了开发生成式人工智能图像生成模型的所有部分,也许值得了解问题的根源。很明显,安全层发挥了作用——毕竟,谷歌的结果看起来肯定会调整一些与种族有关的参数。根据我的工作,我会做出以下假设:
正在进行一项实验,以确保在某些通用提示下,它不会忽略少数族裔并只产生白人。
该实验是在微调层进行的,以积极地实现结果。
通常,人们会以一定的比率/比例对数据集进行采样,以确保一个数据集不会完全占据主导地位
错误地,这没有正确设置,从而稀释了其他图像的微调过度拟合到没有白人的数据集
它最终会向一些白人展示的少数实例是因为预训练数据集仍然具有种族和民族多样性
这将是我的技术评估,我希望读者能够理解模型开发过程的各个部分、如何解决一些棘手的问题以及整个过程对犯错误的敏感程度。我在这里没有讨论几个部分,包括围绕修复有害的刻板印象和方法论的有争议的讨论,谁应该“责备”,最重要的是,一个如此错误的模型如何通过(据称)严格的模型评估,以及在发货之前的法律团队太空中最大的巨人之一。我将在下一篇文章中用一些假设来解决最后一部分(当然我的内幕信息为零)。
这里的观点和讨论完全是我自己的,并不反映Meta或我团队的观点。我没有内部知识,共享的信息都不是 Meta 专有的,模型生命周期的各个阶段都是标准行业实践,并且可以在网上广泛获取。
也发布在这里。