paint-brush
Zur Interpretierbarkeit von auf Teilprototypen basierenden Klassifikatoren: Eine menschenzentrierte Analyseby@escholar
118

Zur Interpretierbarkeit von auf Teilprototypen basierenden Klassifikatoren: Eine menschenzentrierte Analyse

Diese Zusammenfassung stellt einen Rahmen für die Bewertung der Interpretierbarkeit von teilweise auf Prototypen basierenden Modellen vor, wobei der Schwerpunkt auf menschenzentrierten Metriken und Experimenten liegt. Durch die Bewertung der Klarheit des Prototyps, der Ähnlichkeit mit Abfragebeispielen und der allgemeinen Interpretierbarkeit der Entscheidung bietet diese Arbeit einen robusten Bewertungsansatz, der in einem umfassenden Vergleich verschiedener Methoden und Datensätze gipfelt.
featured image - Zur Interpretierbarkeit von auf Teilprototypen basierenden Klassifikatoren: Eine menschenzentrierte Analyse
EScholar: Electronic Academic Papers for Scholars HackerNoon profile picture
0-item

Autoren:

(1) Omid Davoodi, Carleton University, Fakultät für Informatik;

(2) Shayan Mohammadizadehsamakosh, Sharif University of Technology, Fakultät für Computertechnik;

(3) Majid Komeili, Carleton University, Fakultät für Informatik.

Linktabelle

Zusammenfassung und Einleitung

Hintergrundinformation

Methodik

Interpretierbarkeit von Prototypen

Ähnlichkeit zwischen Prototyp und Abfrage

Interpretierbarkeit des Entscheidungsprozesses

Die Auswirkungen einer geringen Anzahl an Prototypen

Diskussionen

ABSTRAKT

Teilprototyp-Netzwerke sind in jüngster Zeit als interpretierbare Alternative zu vielen der aktuellen Black-Box-Bildklassifizierer zu interessanten Methoden geworden. Die Interpretierbarkeit dieser Methoden aus der Sicht menschlicher Benutzer wurde jedoch noch nicht ausreichend untersucht. In dieser Arbeit haben wir einen Rahmen zur Bewertung der Interpretierbarkeit von teilprototypbasierten Modellen aus menschlicher Sicht entwickelt. Der vorgeschlagene Rahmen besteht aus drei umsetzbaren Metriken und Experimenten. Um die Nützlichkeit unseres Rahmens zu demonstrieren, haben wir eine umfangreiche Reihe von Experimenten mit Amazon Mechanical Turk durchgeführt. Sie zeigen nicht nur die Leistungsfähigkeit unseres Rahmens bei der Bewertung der Interpretierbarkeit verschiedener teilprototypbasierter Modelle, sondern sind unseres Wissens nach auch die umfassendste Arbeit zur Bewertung solcher Methoden in einem einheitlichen Rahmen.

Einführung

Da künstliche Intelligenz und maschinelles Lernen in vielen Bereichen der Gesellschaft und Wirtschaft allgegenwärtig sind, steigt das Bedürfnis nach Transparenz, Fairness und Vertrauen. Viele der modernsten Methoden und Algorithmen sind Blackboxen, bei denen der Entscheidungsprozess für den Menschen undurchsichtig ist. Interpretable and Explainable Artificial Intelligence zielt darauf ab, dieses Problem zu lösen, indem Methoden angeboten werden, die entweder die Entscheidungen von Blackbox-Modellen erklären oder selbst von Natur aus interpretierbar sind.


Abbildung 1. Beispiel für den Entscheidungsprozess einer Teil-Prototyp-Methode.


Prototypenbasierte Klassifikatoren sind eine Kategorie von inhärent interpretierbaren Methoden, die prototypische Beispiele verwenden, um ihre Entscheidungen zu treffen. Es wird angenommen, dass die Entscheidung selbst interpretierbar ist, solange die Prototypen selbst für einen Menschen verständlich sind[1]. Prototypenbasierte Klassifikatoren sind keine neuen Erfindungen. Viele existierten schon lange bevor der Bedarf an Interpretierbarkeit so dringend wurde[2–6]. In den letzten Jahren wurden neuere Methoden vorgeschlagen, die die Leistungsfähigkeit und Ausdrucksmöglichkeit neuronaler Netzwerke mit dem Entscheidungsprozess eines prototypischen Klassifikators kombinieren, um prototypische neuronale Netze zu erstellen[7], [8], die Ergebnisse erzielen, die mit dem Stand der Technik konkurrieren können, während sie im Prozess inhärent interpretierbar sind.


Eine neuere Unterkategorie von Klassifikatoren auf Prototypenbasis sind Teilprototypen-Netzwerke. Diese Netzwerke, die normalerweise im Bereich der Bildklassifizierung arbeiten, verwenden für ihre Entscheidungen Bereiche einer Abfragestichprobe und nicht das gesamte Abfragebild. ProtoPNet[9] ist die erste Methode dieser Art, die feinkörnige Erklärungen für die Bildklassifizierung bietet und gleichzeitig eine Genauigkeit auf dem neuesten Stand der Technik bietet. Abbildung 1 zeigt ein Beispiel dafür, wie eine Teilprototypenmethode ihre Entscheidungen trifft.


Abbildung 2. Beispiele für Interpretierbarkeitsprobleme bei Prototypen. a) Der Prototyp selbst ist nicht interpretierbar, da er auf eine irrelevante Hintergrundregion verweist. b) Mangelnde Ähnlichkeit zwischen einem Prototyp und der entsprechenden Region in der Abfragestichprobe.


Die Erklärungen, die diese Methoden liefern, können sehr unterschiedlich sein. Selbst wenn die Erklärung im Allgemeinen ähnlich aufgebaut ist, können die Teilprototypen selbst sehr unterschiedlich sein. Es ist ungewöhnlich anzunehmen, dass sie das gleiche Maß an Interpretierbarkeit bieten. Daher ist die Bewertung ihrer Interpretierbarkeit notwendig.


Während viele dieser Methoden die Leistungsfähigkeit ihrer Modelle bewerten und sie mit dem neuesten Stand der Technik vergleichen, analysieren nur wenige die Interpretierbarkeit ihrer Methoden. Die meisten Analysen in dieser Hinsicht scheinen sich auf automatische Metriken zur Beurteilung der Interpretierbarkeit zu konzentrieren[10]. Solche automatischen Metriken sind zwar nützlich, aber kein Ersatz für die menschliche Bewertung der Interpretierbarkeit. Andere haben an menschlich unterstütztem Debugging gearbeitet[11], haben dies jedoch nicht auf eine vollständige Bewertung der Interpretierbarkeit von Methoden ausgeweitet.


Kim et al. boten eine Methode zur Bewertung visueller Konzepte durch Menschen an und führten sogar Experimente mit ProtoPNet und ProtoTree durch[12], aber ihre Bewertung leidet unter einer Reihe von Problemen. Der Umfang der Experimente von Kim et al. ist klein, da nur zwei Teilprototypenmethoden anhand eines einzigen Datensatzes bewertet wurden. Das experimentelle Design dieser Arbeit basiert auch auf feinkörnigen Bewertungen durch menschliche Kommentatoren. Diese Art von Design kann eine unzuverlässige Methode zur Messung menschlicher Meinungen sein, wenn kein Konsens darüber besteht, was jede Option bedeutet[13]. Es verwendete das Klassenlabel, um die Qualität der Prototypen im CUB-Datensatz zu messen, obwohl es keinen Hinweis darauf gab, dass die menschlichen Benutzer mit den Einzelheiten der Unterscheidung zwischen 200 Vogelklassen vertraut waren. Schließlich verwendete es die standardmäßige rechteckige Darstellung von Prototypen aus ProtoPNet und ProtoTree. Diese Darstellungen neigen dazu, im Vergleich zur tatsächlichen Aktivierungs-Heatmap zu breit zu sein und den menschlichen Benutzer irrezuführen. Als Ergebnis schlagen wir eine menschenzentrierte Analyse vor, die aus einer Reihe von Experimenten besteht, um die Interpretierbarkeit von Teilprototypmethoden zu beurteilen.

Ziele

Die Interpretierbarkeit eines Teilprototypsystems ist kein wohldefiniertes Konzept. In dieser Arbeit konzentrieren wir uns auf drei Eigenschaften, die solche Systeme haben sollten, um interpretierbar zu sein.


• Interpretierbarkeit des Prototyps selbst: Das Konzept, auf das sich ein Prototyp bezieht, sollte für einen Menschen erkennbar und verständlich sein. Abbildung 2 (a) zeigt ein Beispiel für einen Prototyp, der nicht interpretierbar ist, weil er auf einen irrelevanten Hintergrundbereich verweist. Insbesondere Methoden des maschinellen Lernens und neuronale Netzwerke können auf der Grundlage von Merkmalskombinationen in den Daten richtige Entscheidungen treffen, die ein Mensch möglicherweise nicht versteht. Darüber hinaus ist die Präsentation solcher Merkmale sehr wichtig. Ein Prototyp kann sich auf ein sehr ungewöhnliches Konzept beziehen, aber seine Präsentation kann einen Menschen fälschlicherweise glauben lassen, er verstehe die Gründe für eine Entscheidung.


• Die Ähnlichkeit eines Prototyps mit der entsprechenden Region in der Abfrageprobe: Auch wenn der Prototyp selbst für einen Menschen leicht verständlich ist, zeigt seine Aktivierung in der Abfrageprobe möglicherweise nicht dasselbe Konzept wie der Prototyp. Abbildung 2 (b) zeigt ein Beispiel für dieses Problem. Dies ist wichtig, da es zeigt, dass die strukturelle Ähnlichkeit im Einbettungsraum, in dem sich die Prototypen befinden, nicht mit dem menschlichen Verständnis von Ähnlichkeit vereinbar ist. Dies ist ein Problem, über das in der bisherigen Literatur berichtet wurde[14].


• Die Interpretierbarkeit des Entscheidungsprozesses selbst ist ebenfalls ein wichtiger Aspekt von prototypbasierten Methoden. Selbst wenn die Prototypen und ihre Ähnlichkeit mit den aktivierten Patches der Abfragestichprobe von Menschen verstanden werden, ist die endgültige Entscheidung möglicherweise nicht verständlich. Beispielsweise kann ein Modell unabhängige Prototypen auswählen und verwenden, um eine Stichprobe richtig zu klassifizieren.


Die wichtigste Neuerung dieser Arbeit ist ein robusterer Rahmen für die Bewertung der Interpretierbarkeit von teilweise auf Prototypen basierenden Netzwerken unter Verwendung menschlicher Annotatoren. Einige frühere Methoden haben versucht, solche Bewertungen auf der Grundlage automatischer Metriken durchzuführen[10], und einige andere Arbeiten haben sich mit der menschlichen Bewertung der Interpretierbarkeit für andere Arten erklärbarer KI-Methoden beschäftigt[15], [16]. Die Arbeit, die dem am nächsten kommt, ist HIVE[12], die jedoch unter einer Reihe von Problemen leidet, die in unserem Ansatz behoben werden. Mehr dazu folgt im nächsten Abschnitt.


Eine weitere Neuheit dieser Arbeit ist der Vorschlag von drei umsetzbaren Metriken und Experimenten zur Bewertung der Interpretierbarkeit von Klassifikatoren auf Basis von Teilprototypen. Wir glauben, dass ein Modell, das diese Tests nicht besteht, kein gut interpretierbares Modell wäre. Diese können zukünftigen Forschern dabei helfen, Beweise zu liefern, anstatt nur Annahmen über die Interpretierbarkeit ihrer Ansätze zu treffen.


Schließlich umfasst unsere umfangreiche Reihe von Experimenten mit Amazon Mechanical Turk Vergleiche von sechs verwandten Methoden anhand von drei Datensätzen. Nach bestem Wissen und Gewissen ist dies die umfassendste Arbeit zur Bewertung der Interpretierbarkeit solcher Methoden in einem einheitlichen Rahmen.