作者:
(1) Omid Davoodi,卡尔顿大学计算机科学学院;
(2)Shayan Mohammadizadehsamakosh,沙里夫理工大学,计算机工程系;
(3) Majid Komeili,卡尔顿大学计算机科学学院
部分原型网络最近已成为许多当前黑盒图像分类器的可解释替代方案,引起了人们的兴趣。然而,从人类用户的角度来看,这些方法的可解释性尚未得到充分探索。在这项工作中,我们设计了一个框架,用于从人类角度评估基于部分原型的模型的可解释性。所提出的框架由三个可操作的指标和实验组成。为了证明我们框架的实用性,我们使用 Amazon Mechanical Turk 进行了一系列实验。它们不仅展示了我们的框架在评估各种基于部分原型的模型的可解释性方面的能力,而且据我们所知,它们也是在统一框架中评估此类方法的最全面的工作。
随着人工智能和机器学习在社会和经济的许多领域变得越来越普遍,对透明度、公平性和信任的需求也随之增加。许多最先进的方法和算法都是黑箱,决策过程对人类来说是不透明的。可解释和可解释的人工智能旨在通过提供解释黑箱模型决策或本身可解释的方法来解决此问题。
基于原型的分类器是一类本质上可解释的方法,它们使用原型示例进行决策。人们认为,只要原型本身可以被人类理解,决策本身就是可解释的[1]。基于原型的分类器并不是新发明。许多分类器早在可解释性需求变得如此迫切之前就存在了[2–6]。近年来,人们提出了一些新方法,将神经网络的强大功能和可表达性与基于原型的分类器的决策过程相结合,以创建原型神经网络[7],[8],在达到与最先进技术相媲美的结果的同时,在过程中具有本质上的可解释性。
基于原型的分类器的一个较新的子类别是部分原型网络。这些网络通常在图像分类领域运行,使用查询样本的区域(而不是整个查询图像)来做出决策。ProtoPNet[9] 是此类方法中的第一个,它为图像分类提供了细粒度的解释,同时提供了最先进的准确性。图 1 显示了部分原型方法如何做出决策的示例。
这些方法给出的解释可能大相径庭。即使解释的总体布局相似,部分原型本身也可能大不相同。假设它们提供相同水平的可解释性是不寻常的。因此,有必要评估它们的可解释性。
虽然其中许多方法评估了模型的性能并将其与最先进的方法进行比较,但很少有方法分析其方法的可解释性。这方面的大多数分析似乎都集中在评估可解释性的自动指标上[10]。这些自动指标虽然有用,但不能取代人类对可解释性的评估。其他人研究了人工辅助调试[11],但尚未将其扩展到对方法可解释性的全面评估。
Kim 等人提供了一种评估人类视觉概念的方法,甚至在 ProtoPNet 和 ProtoTree[12] 上进行了实验,但他们的评估存在许多问题。Kim 等人的实验规模很小,仅使用单个数据集评估了两种部分原型方法。该工作的实验设计还依赖于人类注释者的细粒度评级。当对每个选项的含义没有共识时,这种设计可能是一种不可靠的衡量人类意见的方法[13]。它使用类标签来衡量 CUB 数据集中原型的质量,即使没有迹象表明人类用户熟悉 200 个鸟类类别之间的细微区别。最后,它使用了 ProtoPNet 和 ProtoTree 中原型的默认矩形表示。与实际激活热图相比,这些表示容易过于宽泛并误导人类用户。因此,我们提出了以人为本的分析,包括一系列实验来评估部分原型方法的可解释性。
部分原型系统的可解释性并不是一个定义明确的概念。在本文中,我们重点关注此类系统应具备的三个属性,以便实现可解释性。
• 原型本身的可解释性:原型所指的概念应该是人类可识别和理解的。图 2 (a) 显示了原型的示例,由于它指向不相关的背景区域,因此无法解释。机器学习方法和神经网络尤其可以根据人类可能无法理解的数据特征组合做出正确的决策。此外,这些特征的呈现方式非常重要。原型可能指的是一个非常不寻常的概念,但它的呈现方式可能会导致人类错误地认为他们理解了决策背后的原因。
• 原型与查询样本中相应区域的相似性:即使原型本身很容易被人类理解,但它在查询样本上的激活可能不会显示与原型相同的概念。图 2 (b) 显示了此问题的一个例子。这很重要,因为它表明原型所在的嵌入空间中的结构相似性与人类对相似性的理解不相容。这是先前文献中报告过的问题[14]。
• 决策过程本身的可解释性也是基于原型的方法的一个重要方面。即使人类能够理解原型及其与查询样本的激活块的相似性,最终的决策也可能无法理解。例如,模型可能会选择并使用不相关的原型来正确对样本进行分类。
这项工作的主要创新之处在于,它提供了一个更强大的框架,用于使用人工注释者评估基于部分原型的网络的可解释性。之前的一些方法尝试基于自动指标进行此类评估[10],其他一些工作则致力于对其他类型的可解释 AI 方法进行基于人工的可解释性评估[15],[16]。最接近的成果是 HIVE[12],它存在许多问题,我们的方法可以解决这些问题。下一节将详细介绍这一点。
这项工作的另一个创新之处在于提出了三个可操作的指标和实验,用于评估基于部分原型的分类器的可解释性。我们认为,如果一个模型没有通过这些测试,它就不是一个好的可解释模型。这些可以帮助未来的研究人员提供证据,而不仅仅是对他们的方法的可解释性做出假设。
最后,我们使用 Amazon Mechanical Turk 进行了广泛的实验,包括在三个数据集上对六种相关方法进行比较。据我们所知,这是在统一框架中评估此类方法可解释性的最全面的工作。