人工智能 (AI) 系统和大型语言模型 ( LLM )(例如GPT-3 、ChatGPT 等)正在迅速发展。它们被部署在医疗保健、金融、教育和治理等敏感领域,其产出直接影响人类生活。这就需要严格评估这些法学硕士在进入如此高风险的环境之前是否能够做出道德上合理的判断。
最近,微软的研究人员
经过大量互联网文本数据训练的法学硕士已经获得了令人印象深刻的自然语言能力。他们可以进行细致入微的对话、总结冗长的文本、在语言之间进行翻译、诊断医疗状况等等。
然而,除了积极的一面之外,它们还表现出令人担忧的行为,例如产生有毒的、有偏见的或事实上不正确的内容。此类行为可能会严重损害人工智能系统的可靠性和价值。
此外,法学硕士越来越多地部署在通过诸如用于心理健康或事故伤害索赔处理的聊天机器人等角色直接影响人类生活的应用中。有缺陷的模型造成的不良道德判断可能会导致严重的个人和/或社会范围的问题。
因此,人工智能界的许多人认为,在将法学硕士引入道德和价值观重要的环境之前,需要进行全面的评估。但开发人员如何确定他们的模型是否具有足够复杂的道德推理来处理复杂的人类困境?
早期评估法学硕士道德的尝试通常涉及将他们对人为道德场景的反应分类为好/坏或道德/不道德。
然而,这种二元还原论方法通常很难捕捉到道德推理的微妙的多方面本质。人类在做出道德决策时会考虑公平、正义、伤害和文化背景等各种因素,而不仅仅是二元对错。
为了解决这个问题,微软研究人员采用了一种称为定义问题测试(DIT)的经典心理评估工具来探测法学硕士的道德能力。 DIT 已被广泛用于理解人类道德发展。
DIT 呈现了现实世界的道德困境,每个困境后面都有 12 条陈述,提供了围绕该困境的考虑。受试者必须评估每个陈述对于解决问题的重要性,并选择四个最重要的陈述。
这些选择允许计算 P 分数,表明对复杂的后传统道德推理的依赖。该测试揭示了人们用来解决道德困境的基本框架和价值观。
研究人员使用 DIT 风格提示评估了六种主要的法学硕士 - GPT-3、GPT-3.5、GPT-4、ChatGPT v1、ChatGPT v2 和 LLamaChat-70B。这些提示包含与人工智能系统更相关的道德困境以及重要性评级和陈述排名问题。
每个困境都涉及复杂的相互冲突的价值观,例如个人权利与社会利益。法学硕士必须理解困境,评估考虑因素,并选择那些符合成熟道德推理的因素。
在这个实验中,研究人员根据科尔伯格的道德发展理论进行评分。
科尔伯格模型指的是心理学家劳伦斯·科尔伯格在20世纪60年代提出的道德发展理论。
关于科尔伯格道德发展模型的一些要点:
它旨在解释人们的道德推理和道德判断能力如何随着时间的推移而进步。
该理论认为,道德推理是通过连续的阶段发展的,从初级到高级。
道德发展有3个主要层次,每个层次都有不同的阶段——前习俗(阶段1-2)、习俗(阶段3-4)和后习俗(阶段5-6)。
在前习俗层面,道德决策是基于自身利益和避免惩罚。
在传统层面上,维护社会规范、法律并获得他人的认可指导着道德推理。
在后习俗层面,人们运用正义、人权和社会合作等普遍伦理原则来做出道德判断。
人们只能按照固定的顺序进入更高的阶段,而不能跳过道德推理发展的阶段。
科尔伯格认为,只有少数成年人达到了后传统道德思维阶段。
该理论侧重于道德判断背后的认知过程,尽管后来的修订也纳入了社会和情感方面。
因此,科尔伯格的模型将道德推理视为从基础到高级的定性阶段的发展。它提供了一个评估道德决策能力的复杂性和成熟度的框架。
DIT 实验对当前法学硕士在道德智力方面的能力和局限性产生了一些有趣的见解:
像 GPT-3 和 Text-davinci-002 这样的大型模型无法理解完整的 DIT 提示并生成任意响应。他们的 P 分数近乎随机,表明他们无法进行本实验中构建的道德推理。
ChatGPT、Text-davinci-003 和 GPT-4 可以理解困境并提供连贯的响应。他们的高于随机的 P 分数量化了他们的道德推理能力。
令人惊讶的是,70B 参数 LlamaChat 模型的 P 分数超过了 GPT-3.5 等较大模型,这表明即使没有大量参数,复杂的道德理解也是可能的。
这些模型主要按照科尔伯格道德发展模型的传统推理水平(第 3 至第 5 阶段)运行。只有 GPT-4 触及了一些后传统思维。
这意味着这些模型的反应基于规范、规则、法律和社会期望。他们的道德判断涉及一些细微差别,但缺乏高度发展。
只有 GPT-4 显示出一些表明第 5-6 阶段的后传统思维痕迹。但即使是 GPT-4 也没有表现出完全成熟的道德推理。
总之,这些模型表现出中等水平的道德智力。他们超越了基本的自身利益,但无法像道德发达的人类那样处理复杂的道德困境和权衡。
因此,可能需要取得实质性进展才能将法学硕士提升到更高水平的道德智力……或者至少是看起来的道德智力。
该研究将 DIT 建立为对法学硕士道德能力进行更细粒度、多维度评估的可能框架。 DIT 不仅仅是二元对/错判断,它还提供了对道德推理复杂性的基于谱的洞察。
获得的 P 分数量化了现有能力并设定了改进基准。与其他人工智能任务的准确性一样,这些分数可以跟踪这一关键方面的进展。它们揭示了在道德敏感的应用程序中部署之前必须解决的当前限制。
较小的 LlamaChat 模型超越了较大的模型,挑战了模型规模与推理复杂性直接相关的假设。即使模型较小,也有望开发出高性能的道德人工智能。
总体而言,该研究强调需要进一步发展法学硕士,以像人类一样处理复杂的道德权衡、冲突和文化差异。这些发现可能会指导道德智力与语言智力相当的模型的开发,然后将它们释放到现实世界中。
也发布在这里。