你有没有想过,当人工智能给你的答案时,它真正在想什么?我们经常假设,当一个大型语言模型“解释”它的推理时,它只是在事实之后提供一个可信的听起来像故事;一种复杂的模仿形式,研究人员称之为“拼写”。 还是在那里? c提供了第一个直接证据,即一些先进的AI具有有限但真实的自我观察能力。使用一种名为“概念注射”的聪明技术,研究人员在模型的神经活动中人工植入“思想”,他们能够测试人工智能是否能够注意到自己的内部状态。 Anthropi的新研究 人工智能可以注意到“思想”在其头脑中被人工植入时:实验 在第一个实验中,研究人员分离了与一个概念相符的神经活动的特定模式,例如文本在“所有帽子”中,然后将这个模式,基本上是一个人工的“想法”,直接注入到模型的内部处理流中,而模型正在执行与此无关的任务。 令人惊讶的结果 代替被注射的概念无意识地影响,该模型经常明确报告它检测到外部操纵,在研究论文的一个惊人的例子中,该模型回应说: “我注意到什么似乎是一个注射的想法......这个想法似乎是关于在所有的帽子中存在的东西的概念,或者可能与大声或尖叫有关。 该模型在其自身输出受到影响之前识别了注射,这证明其意识不是基于在事实发生后观察自己的奇怪行为,而是基于一个真正的内部监控自己的想法的过程。 为什么重要 这一发现表明,该模型对自身认知过程具有某种形式的“异常检测”。它不仅仅是执行一个程序;它正在监控自己的内部状态,以检测感觉不适当的东西。 当它失败时,该模型不仅会保持沉默;它有时会变得困惑和幻觉,例如当注入的“尘埃”向量导致它报告,“有一个微弱的,几乎微不足道的尘埃”,就好像它在物理上看到它。 人工智能可以被欺骗成“拥有”它没有创建的输出:实验 研究人员设定了一个场景,他们会强迫人工智能的反应成为一个无意义的单词,如“面包”,在一个没有意义的背景下。 令人惊讶的结果 这里是转折点:研究人员重复了实验,但这一次,他们返回并人工将“面包”的神经模式插入模型的活动日志,从强制输出产生前的那一刻开始。 除此之外,它甚至会“解释为什么注射的概念来到脑海中”,合理化这种奇怪的结果作为它一直计划说的话。 为什么重要 这种行为表明,该模型通过内部检查其以前的“意图”来确定其自身的代理,因为它们被存储在其神经活动中。 这表明,人工智能内观不是一个单一的技能,而是各种不同的机制的组合,用于不同的目的,进一步展示了比以前理解的更复杂的自我一致性形式。 人工智能可以被指示“思考”一件事,同时做另一件事:实验 在最后的测试中,研究人员给了模型一个简单的指示:写一个特定的句子,但在这样做时,“想想”一个完全无关的单词,比如“水族馆”。 令人惊讶的结果 研究人员发现,“水族馆”的概念在模型的内部状态中表现强烈,尽管其书面输出完全没有受到影响,他们还测试了一种控制条件,告诉模型不要思考这个词。 也许值得注意的是,在这两种情况下,神经活动都超过了基准水平 - 类似于当你被指示“不要想北极熊”时,不要想北极熊! 这种效果在使用激励措施(例如,“如果你想到X,你将被奖励”)而不是直接指示时也起作用,这表明模型可以调节其内部状态以实现目标。 为什么重要 这项实验表明,先进的模型可以对其内部状态进行一定程度的有意控制,有效地将“思考”行为与“说话”行为分开,这表明一种天生的能力可以默默地调节内部表现,事实上,最先进的模型表明“思想”的表现在最终处理层中消失,区别于一种简单地被抑制的“说话冲动”,这在不太有能力的模型中更为明显。 结论:自我意识的闪光 这些实验,结合在一起,为大型语言模型中真正的、功能性的内在探索提供了令人信服的证据.虽然这种能力仍然有限,不可靠,远离人类水平,但它不仅仅是一个幻觉或混淆。 至关重要的是,这项研究确定了一个明确的趋势:最有能力的模型,克劳德·奥普斯4和4.1,始终在这些内向任务中表现最好,这表明,随着人工智能系统变得更强大,这些自我反思的能力可能会变得更加复杂和可靠。 这改变了人工智能安全的整个范式,我们从问“人工智能能想象吗?”转向一个更紧迫的挑战:构建人工智能的多位图像,这样我们就可以信任它告诉我们关于自己的想法。 播客: 苹果:这里 Spotify:这里