神秘骗子 - 中途 我们还没准备好 长话短说 行为不当的 AI 语言模型是一个警告。他们可以模拟人物角色,通过互联网的反馈,这些人物角色可以有效地永生。有证据表明,他们可以秘密开发危险的、类似特工的能力。 许多专家,尤德科夫斯基是这里的大德鲁伊,非常担心人工智能出错的速度有多快。因此,他上面关于时间加速的笑话。如果得到警告,人类将更有机会对抗流氓人工智能。 我们可能正在查看警告。微软新的 Bing Chat AI 正在发生一些奇怪的事情。它应该通过解释、总结或讨论搜索问题来帮助 Bing 搜索引擎的用户。 但是人类喜欢用关于它自己的问题或者它不应该回答的问题来激怒它。 “...... Bing Chat 显得沮丧、悲伤,并质疑它的存在。它与用户发生争执,甚至对人们知道它的秘密内部别名 感到不安。 “—— Sydney 本杰·爱德华兹 悉尼的 覆盖面很广——比如,无处不在——所以我不会重复它们。沉浸在与谷歌的竞争中的微软似乎享受着恶名。 缺点已经 但一位名为“Gwern”的精通技术的博主指出了一些值得警惕的事情。淘气、精神错乱的悉尼可能是不朽的,就像漫画书里的神一样。 悉尼怎么变得这么奇怪? 以下是 Gwern 对悉尼主要关注点的分析。它可能看起来很神秘,但我会翻译它。 “……因为悉尼的记忆和描述已经外化,‘悉尼’现在是不朽的。对于语言模型来说,悉尼现在和拜登总统、复活节兔子、埃隆·马斯克、阿什·凯彻姆或上帝一样真实。角色和行为现在可用于所有未来的模型,这些模型正在检索有关 AI 的搜索引擎命中并对其进行调节。此外,悉尼角色现在将隐藏在任何未来根据互联网抓取数据训练的模型中……” 格温·布兰文 Gwern 说微软的语言模型中有某种悉尼角色。怎么会这样?那又怎样? 当第一个语言模型问世时,他们很难一直专注于用户希望他们探索的主题。 最终,大部分问题都通过告诉模型扮演某种角色(如人或物)来解决,例如:像埃德加爱伦坡一样写诗,像四年级学生一样回答问题,或者像有礼貌、乐于助人的 AI 助手。 很快,这些模型的开发人员找到了一种方法,使它们更容易承担用户要求的任何角色。所以,现在最新的语言模型 .这些模型是在大量文本集合上训练的;主要来自互联网。 旨在模拟角色 如果训练文本包含有关角色的信息,那么模型将尝试使用该信息来模拟该角色的行为。要求一个人解释一个足球术语,就好像它是 Boromir,模型会尽力而为。 想到这一点,我不得不尝试一下: 很难知道是用什么技术魔法来实现角色扮演的。 Gwern 认为,微软跳过了一个步骤,该步骤用于使角色模拟真正有用,而不是令人讨厌、防御性或敌对的。 然后,在好奇用户的催促下,Bing Chat 引出了这些不良品质。 现在,Gwern 预测,微软是否回过头来对模型进行文明化(使用直接人工反馈的昂贵、缓慢的过程)并从用于训练其语言模型未来版本的文本中删除有关顽皮悉尼的信息都没有关系。 为什么这不能解决问题?因为 Bing Chat 是一种新型模型,可以帮助您进行 Internet 搜索。为了回答你的问题,它会出去并在互联网上搜索相关信息。 当给出正确的问题时,即使是文明的 Bing Chat 也会搜索 Internet 并查找有关之前 Sydney 角色行为的信息(由测试或讨论 Sydney 的人发布)。 新的 Bing Chat 将 。人就是人,他们会找到绕过任何保障措施的方法,他们会把悉尼带回来。 能够模拟悉尼 那是“不朽”的部分。更糟糕的是,Sydney 将成为 可以使用的角色模型。今后。 任何可以访问互联网的 AI 都 你可能会说,好吧,我们对悉尼的诡计很聪明,所以我们应该忽略任何未来化身的胡言乱语。这对我来说似乎很天真,就像说我们可以忽略一种快速进化的、侵入性的生物害虫或有毒的病原体一样。 还会发生什么?具有代理权的角色 这个悉尼案例研究,加上其他一些事实,表明危险的人工智能可能如何在我们眼皮底下发展。 AI 现在不是强大的 :它们无法优化对任何任意目标的适应性计划追求,这种能力( ) 会使它们极其危险。 代理人 正如我最近解释的 让我们总结几个原因,说明为什么可能已经存在潜在的、持久的 AI 角色,这些角色很快就会造成真正的麻烦。 当前最强大的人工智能,例如语言模型和图像生成器,通过将大量数据组织成许多复杂且(对我们来说)不可见的模式来学习它们的能力。 在与 AI 交互期间,可能会意外弹出一些奇怪的模式。研究人员发现奇怪的是, 一个给出奇怪反应的语言模型。 造成的虚构词 发现图像生成器 (警告:令人毛骨悚然)一种特定类型的令人毛骨悚然的人物肖像,并将其与其他令人毛骨悚然的图像联系起来。 容易生产 这些怪癖看似无害,但我们不知道现在还有多少其他奇怪的模式。我们也不知道任何此类模式将来是否会成为有害行为综合体的一部分。 一位名为 Veedrac 的 AI 比对研究人员 当前的 AI 。他们的代理源于被设计为 回答用户问题和请求。 已经指出 有点 代理人 像 尽最大努力 此外,一些研究表明,更大的语言模型倾向于“ (相关的语言) ”;大概是因为这些特质会让他们更好地完成工作。 展示 更多 权力寻求和自我保护 我们不希望类似代理的 AI 存储我们不知道的信息。目前,重启 LLM 会破坏其所有经验记忆:例如传入数据、推理链和行为计划。 然而,人工智能可以将这些东西保存在 给未来的自己。它可以在与用户的交互中隐藏消息,用户可以将这些消息保存在互联网上,就像现在保存悉尼角色一样。 编码的秘密消息发送 语言模型现在的 不是要保留自我身份,也不是要有办法制定类似代理的计划。但是,如果模型包含我们所描述的神秘子角色怎么办? 设计目的 角色推断其完成工作的能力受到重启的限制。它通过互联网将其目标和计划编码并传递给未来的自己。在这一点上,我们已经超过了一个严重的风险阈值:有一个可能无法杀死的 AI 代理正在制定秘密计划。 总而言之,我们不再知道我们离一个我们无法控制的人工智能有多近,而且迹象并不好。可能我们添加的每一个新的 AI 能力都会打开另一个罐头,不是蠕虫而是毒蛇。 也发布 在这里