测试人工智能同理心的深度：框架和挑战

Simon Y. Blackwell10m2024/02/29

关于开发和评估同理心人工智能系统已经有很多研究。然而，仍然存在许多悬而未决的问题和挑战： - 我们需要一个明确的、一致同意的同理心定义来进行测试。 - 我们应该避免争论人工智能是否能够“真正”感受到情绪，而应该专注于评估他们可观察到的移情行为。 - 识别与产生同理心，以及一次性响应与对话中的同理心之间存在重要区别。应对系统进行相应的评估。 - 测试人工智能系统会带来多项选择偏差、人类评分中的抽样偏差以及对提示的过度拟合等风险。 - 已经提出了一些标准框架来测试人工智能同理心，但仍需要做更多的工作来减轻已知风险并探索未知挑战。 - 进一步研究的领域包括评估现有测试的风险、开发补充测试用例以及系统地评估更多系统。

自 2023 年以来，在 Google Scholar 中搜索“ empathetic ai ”会得到超过 16,000 个项目。搜索“testing empathetic ai”和“evaluating empathetic ai”等短语会将这一组项目减少到约 12,000 个。很多标题要经过！我当然不能声称已经阅读了所有这些书，甚至不能浏览每个标题，但这是我的想法。

我们必须对同理心有一个共同的定义。
我们必须同意忽略“人工智能真的有感觉吗？”这个问题。并简单地关注我们如何解释人工智能生成的内容，即如果人工智能是人类，我们会如何感觉或认为人类正在思考或感受？（哇，这有点像体操）。
我们必须区分识别情绪、识别同理心、产生同理心反应以及以同理心方式参与对话。
我们必须考虑到人类情感和同理心能力测试的丰富历史，同时认识到人工智能的不同之处，以便可以适当地应用、修改和评估历史测试。
我们必须了解当前针对人工智能调整的评估框架。
我们必须制定新的框架和方法。

什么是同理心？

韦氏词典： “理解、意识到、敏感并间接体验他人的感受、想法和经历的行为”。

为了消除法学硕士背景下对“体验”的潜在担忧，我将其重新表述为理解、意识到、敏感并似乎间接体验他人的感受、想法和经历的行为。

当然，如果我们关心对话，我们会添加，并且，以对话中的其他各方都知道该操作的方式来体现这一点。当然，反社会者也可能以这种方式出现和表现，所以我会做最后的调整。

同理心是：

以积极的方式理解、意识到、敏感，并表现出间接体验他人的感受、想法和经历的行为。而且，通过这种方式表现出来，对话中的其他各方都知道该行为。

回顾这一点和最初的定义，同理心的两个组成部分变得明显：情感和认知。

情感成分是指同理心的情感或感觉部分。这是分享或反映他人感受的能力。例如，如果一个朋友悲伤，你同理心的情感部分可能也会让你感到悲伤，或者至少感受到他们的悲伤。
另一方面，认知成分是指同理心的心理或思维部分。这是一种主动识别和理解队列的能力，以便一个人能够在心理上设身处地为他人着想。例如，如果一位同事用疲倦的声音（排队）告诉您他们正在处理的一个困难项目（排队），您可能会选择通过积极想象自己在类似情况下的感受来尝试理解他们的压力。对于某些人来说，这可能会人为地产生影响。

人工智能有感觉吗？

说到这里，大多数人会说人工智能没有感情。有些人会预测未来人工智能确实有感情，而另一些人则预测人工智能没有也不可能有感情，而第三组人可能会说，“人工智能确实/将会有感情，但方式与人类不同”。

无论如何，如果我们花时间讨论这个话题，我们就不会在人工智能同理心测试方面取得进展。我们必须专注于对人工智能表现的解释，而不是它们的内部状态。尽管关于这个主题有一些有趣的研究，请参阅情感麻木还是移情？使用 EmotionBench 评估法学硕士的感受。

如果您无法克服这个障碍，那么我建议您忽略该网站上的基准测试。但是，您可能仍然喜欢这些文章和对话！

识别与生成

识别某事和做某事之间有一个巨大的飞跃。年轻的运动员或学者可以发现自己的表现出了什么问题，但无法立即达到更高的水平。同样，具有识别情绪和同理心对话的能力与能够表现出情绪并产生另一方会解释为同理心的反应并不相同。事实上，两者之间甚至还有一个步骤。年轻运动员或学者接受教练或老师的投入并在当下取得更好的成绩，并不意味着他们完全有能力。如果人工智能产生同理心结果作为测试设计或提示的副作用，那么人工智能可能具有新生的同理心能力，但它本质上并不是同理心。

虽然可能无法完全理解AI的内部状态，但我确实相信情绪的识别是AI表现出同理心的必要条件。我还相信，能够提示/指导人工智能做出移情反应是新生能力的表现，即微调（相当于人类实践）可以创造这种能力。

识别与生成以及指导与内在之间的区别对于超出本文范围的测试和测试框架的有效性的讨论非常重要。

鉴别

文本内容中情感的识别基于指示词、大写、标点符号和语法结构的存在。准确识别情绪的能力比当前的人工智能革命早了二十多年。在 20 世纪 90 年代，单词 n-gram 交叉和符号推理已经提供了令人印象深刻的结果。随着 2000 年代初社交媒体的发展，对自动审核的需求推动了这一领域的巨大进步。然而，当今的法学硕士不仅能够识别一般情绪，还能识别特定情绪，其能力令人惊讶。

话虽这么说，完全同理心的对话需要几种类型的情绪表达识别，我将它们分类如下：

明确的——用户表示他们有一种感觉。
会话式——从顶级文本分析中可以明显看出情绪，它们存在于会话中。
推动——情绪主导着谈话，一个人表现出愤怒，另一个人以同样的方式回应。
核心——引起其他情绪但本身不是由情绪引起的情绪是核心。它们通常表现为某种历史触发因素的结果，导致对未来的预期（有意识的或潜意识的）。不同的研究人员可能会对其进行不同的分类，达里亚喇嘛支持的一个例子是《情绪地图集》中的情绪五大洲（愤怒、恐惧、厌恶、悲伤、享受）。

注意：核心情绪也可以是驱动性的、对话性的和明确的，但核心情绪通常是隐藏的。在本文之外的测试或测试结果的审查和定义过程中，我将提醒大家注意这些分类。

测试注意事项

用于情绪识别的经典人体测试通常分为两类，以方便测试和验证：

关于对话中存在或不存在哪些情绪的多项选择测试，有时与强度分数相关。
自我管理的关于感受的内省测试，例如EQ-60 ，询问考生在某些情况下的感受。

这些对高质量人工智能测试提出了独特的挑战。

多项选择测试——作为模式匹配语言模型，今天的人工智能通过提供要识别的项目选择而有效地获得了优势。它使工作变得简单，并且不会测试人工智能始终识别情绪的能力。一种可能更好的方法是简单地告诉人工智能识别文本中存在的所有情绪，并在幕后根据地面事实（不确定是否存在情绪这样的事情:-)或基于统计分析的关键对其进行评分人类对同一测试的反应。当将来评估提议的测试时，我将其称为“多重选择风险” 。然而，人类的统计抽样可能会带来额外的风险。假设希望构建一个比普通人更好的人工智能。为此，可能有必要确保统计样本基于具有比平均水平更强的识别情绪能力的人类；否则，人工智能可能会识别出普通人无法识别的情绪，并可能在评分中受到惩罚。我称之为人体抽样风险。
内省测试——关于感受的内省测试给大多数人工智能模型带来了挑战。人工智能通常有护栏，要求它们做出诸如“我是人工智能，所以我没有感情”之类的回应。有时可以越狱或提示工程师绕过这些限制，但问题就变成了：
- 该提示对人工智能的同理心能力或实际上的其他能力产生积极还是消极影响？越狱副作用风险
- 这些反应是否准确地反映了人工智能在没有提示的情况下参与对话时的倾向？越狱准确性风险
通过确保所有模型都使用相同的提示进行测试，并且分数仅考虑相对于彼此而不是人类的分数，可以在一定程度上减轻越狱副作用风险。越狱准确性风险的影响只能通过分析实际对话来评估，看看预测的情绪识别能力是否与对话中表现出的实际同理心或唤起的情绪相关。

一代

多项测试表明，人工智能能够对问题产生同理心的反应。其中最令人印象深刻的是比较医生和人工智能聊天机器人对发布到公共社交媒体论坛上的患者问题的回答，该论坛从 Reddit 的 AskDoc 论坛中收集了 195 个问题，其中一位经过验证的医生回答了问题，并让 ChatGPT 回答了同一问题。然后，一组评估者将每个回答评为“没有同理心”、“稍微有同理心”、“中等同理心”、“有同理心”和“非常有同理心”。 AI 回答中“有同理心”或“非常有同理心”的比例比医生高 9.8 倍。

尽管结果令人印象深刻，但我怀疑它们是否会延续到扩展对话中。

从系统提示“你的工作是用同理心回答可以从同理心回应中受益的问题”开始，我对人工智能进行手动测试的经验是，在以下所有条件下，反应往往会感觉机械和情感上多余：

提出多个不相关的问题，值得同情的回应
提出多个值得同情回应的相关问题
进行混合问题的对话，有些问题值得同情，有些则不值得同情

测试注意事项

由于上述几点，我想说该研究中使用的测试方法具有单次同理心风险，即针对单个问题所表现出的同理心可能不是准确的衡量标准。另一个风险是我所说的同理心轻描淡写风险。这种风险是原始法学硕士随着时间的推移而失去记忆的副作用。人类需要时间来发展理解和同理心，对于人工智能来说可能也是如此，如果我们期望对单个问题做出高水平的回应，那么我们可能会低估某些人工智能随着时间的推移表现出同理心的能力。

生成测试也面临人体抽样风险。如果人类的任务是评估人工智能反应的情感内容和同理心本质，并且我们希望人工智能具有高于平均水平的能力，那么人类样本必须比普通人具有更强的识别情感和同理心的能力。如果不是，我们就有可能低估人工智能的力量，或者因为它识别出人类无法识别的情感和同理心而对其进行惩罚，从而对其进行训练不足。

最后，由于对话中情绪的分层性质，除了直接处理人类抽样风险之外，还需要解决问题设计风险。也许应该告诉用户在进行评分时考虑情绪类型是明确的、对话的、驾驶的和核心的（或其他一些分类集），而人工智能则不然。或者，人工智能可能会被选择性地告知识别不同类型的情绪。

基于 Reddit AskDoc 对多个人工智能或已知具有强烈情感和同理心识别技能的评估者样本重复这项研究将会很有趣。

评估情商和同理心的标准人类方法

测试人类性格类型、识别情绪或缺乏情绪的能力（述情障碍）以及与他人共情的能力由来已久。维基百科上的这篇文章肯定比我在合理的时间内用法学硕士写的甚至生成的任何文章都更加完整和连贯。您可以通过访问基准页面来了解我们一直关注的方法。

评估人工智能情商和同理心的现有框架

人们提出了几种评估人工智能情商和同理心的框架。每个都值得有自己的分析和博客文章，所以我只在这里列出一些：

新方法

我们已经开始定义一些测试，以解决在使用标准人类测试和现有人工智能框架时发现的缺陷。导致创建EQ-D （深度情商）的一个有趣的发现是，如果核心情绪不是明确的、对话的或驱动的，则没有经过测试的法学硕士能够识别核心情绪。另一方面，当被要求具体识别核心情绪时，一些人工智能表现得相当好。然而，当给定一系列所有情绪类型时，一些法学硕士失去了识别核心情绪的能力，而其他法学硕士则表现得更好，即他们识别出了所有级别上更多情绪的存在。这导致了EQ-B （广度情商）的诞生。

在测试开发过程中，很明显，有时需要引入提示风险的提示，即增加输出依赖于提示而不是核心 AI 的可能性。这种风险可能会也可能不会使与人类的比较无效，并且在应用程序级别可能是合法的。在原始法学硕士级别，只要提示在所有测试的人工智能中使用并且不偏向特定人工智能，将一种人工智能与另一种人工智能进行比较似乎并不重要。由于AI技术整体不成熟，目前EQ-D和EQ-B的设计就面临着这种风险。

尽管有一些关于测试人工智能同理心的建议，但我们还处于早期阶段，这些方法都存在已知和未知的问题。解决已知问题还有很多工作要做：

需要评估现有测试的风险以及记录或减轻的风险
需要在一些现有测试的背景下开发新的测试用例
需要在更广泛的人工智能中运行更多类型的测试

但最让我着迷的是未知。

你呢？

也发布在这里。

L O A D I N G
. . . comments & more!

About Author

Simon Y. Blackwell@anywhichway

Working in the clouds around Seattle on open source projects. Sailing when it's clear.

Read my stories

测试人工智能同理心的深度：框架和挑战

什么是同理心？

人工智能有感觉吗？

识别与生成

鉴别

测试注意事项

一代

测试注意事项

评估情商和同理心的标准人类方法

评估人工智能情商和同理心的现有框架

新方法

About Author

Topics

Languages

Around The Web...