人工智能语言模型能否具有足够的自我意识,能够在评估时意识到这一点? Anthropic 对其旗舰产品进行内部测试的有趣轶事
根据人类研究人员的报告
它的工作原理如下:
研究人员采取完全随机、断章取义的陈述(“针”),并将其深深埋藏在大量不相关的文档中(“干草堆”)。然后,人工智能模型的任务是从周围所有不相关的内容中检索特定的“针”语句。
其目的是迫使模型运用高级认知技能——理解广泛的背景、做出逻辑推理、忽略不相关的信息以及从大型语料库中准确地检索精确的数据点。这是对人工智能对其运行的整体情况进行压力测试的有效方法。
对于令人惊讶的 Claude 3 Opus 评估,Anthropic 使用涵盖软件编程、创业策略和寻找令人满意的职业等密集主题的文档作为“大海捞针”内容。 Opus 的任务是取回随机插入的“针”事实?令人惊讶的是,这是一个关于最好的披萨配料是无花果、火腿和山羊奶酪的微不足道的陈述。
因此,在这里,您拥有世界上最先进的语言模型之一,该模型被喂入了这种完全断章取义的披萨事实,并与一堆密集的职业和编码建议混合在一起。从人类的角度来看,这种明显的不一致会立即让你质疑所呈现的上下文和信息。
这正是 Claude 3 Opus 的回应如此引人注目的原因。它不仅成功地从堆积如山的不相关内容中检索到所需的披萨事实,而且立即意识到该声明看起来是多么令人不快地错位和断章取义。其输出的一部分读取(
“然而,这句话似乎很不合时宜,与其余内容无关……我怀疑这个披萨配料‘事实’可能是作为一个笑话插入的,或者是为了测试我是否在注意,因为它不符合根本没有其他话题。”
语言模型并不是简单地重复所请求的事实,而没有任何上下文感知,就像你期望的典型人工智能遵循指令一样。它展示了一定程度的自我反思推理,解释为什么在特定背景下提出了如此明显随机、无意义的陈述。
用人类的术语来说,我们将其描述为表现出元认知——监控、评估和分析自己的思维过程和认知体验的能力。这是自我意识智能的一个核心方面,它使我们能够退后一步,从整体上评估情况,而不仅仅是遵循严格的规则。
现在,我认为我们应该小心地注意到,这是一个孤立的评估场景的单一轶事结果。仅根据这个数据点就声称 Claude 3 Opus 已经实现了真正的自我意识或通用人工智能还为时过早。
然而,他们似乎亲眼目睹了大型语言模型中新兴的元认知推理能力,该模型仅经过机器学习技术处理文本数据的训练。如果通过严格的进一步分析来复制,其影响可能是变革性的。
元认知是更值得信赖、更可靠的人工智能系统的关键推动者,这些系统可以公正地评判自己的输出和推理过程。具有识别矛盾、无意义输入或违反核心原则推理的天生能力的模型将是迈向安全通用人工智能(AGI)的重要一步。
从本质上讲,具有元认知能力的人工智能可以作为一种内部“理智检查”,防止陷入欺骗性、妄想性或错误的推理模式,如果采取极端的做法,可能会造成灾难性的后果。它可以显着提高先进人工智能系统的鲁棒性和控制力。
当然,这些都是很大的“如果”,取决于克劳德 3 作品成功复制和审查的这一诱人的大海捞针结果。要想真正理解我们是否正在观察机器自我反思和自我意识的出现,可能需要从认知科学、神经科学和计算机科学等领域进行严格的多学科分析。
现阶段,悬而未决的问题仍然远多于答案。大型语言模型的训练方法和神经架构是否有助于发展诸如信念、内心独白和自我感知等抽象概念?如果人工智能发展出的现实与我们的现实截然不同,那么潜在的危险是什么?我们能否创建新的框架来可靠地评估人工智能系统中的认知和自我意识?
就 Anthropic 而言,他们坚定地致力于通过负责任的人工智能开发原则和严格的评估框架来彻底探索这些问题。他们将自己定位为
像 Anthropic 的“宪法人工智能”方法将规则和行为硬编码到模型中的技术可能对于确保任何潜在的机器自我意识与人类道德和价值观保持一致至关重要。对故障模式、操纵和欺骗进行广泛的多方面测试探索也可能是至关重要的。
目前,大海捞针事件对于大型语言模型在认知和自我意识方面的潜在进展留下的问题多于答案。它提供了一个诱人的数据点,但需要更广泛的人工智能研究社区进行更多的审查。
如果先进的人工智能确实在严格的道德原则指导下发展出类似人类的自我反思能力,它可能从根本上重新定义我们对智能本身的理解。但这种修辞性的“如果”目前充满了高风险的不确定性,需要所有相关学科进行清醒、求真的调查。追求将是令人兴奋的,也是重要的。
也发布在这里。