paint-brush
Sur l'interprétabilité des classificateurs basés sur des pièces-prototypes : une analyse centrée sur l'humainby@escholar
118

Sur l'interprétabilité des classificateurs basés sur des pièces-prototypes : une analyse centrée sur l'humain

Ce résumé présente un cadre pour évaluer l'interprétabilité des modèles basés sur des pièces-prototypes, en mettant l'accent sur les métriques et les expériences centrées sur l'humain. En évaluant la clarté du prototype, la similarité avec les échantillons de requêtes et l'interprétabilité globale des décisions, ce travail fournit une approche d'évaluation robuste, aboutissant à une comparaison complète entre diverses méthodes et ensembles de données.
featured image - Sur l'interprétabilité des classificateurs basés sur des pièces-prototypes : une analyse centrée sur l'humain
EScholar: Electronic Academic Papers for Scholars HackerNoon profile picture
0-item

Auteurs:

(1) Omid Davoodi, Université Carleton, École d'informatique;

(2) Shayan Mohammadizadehsamakosh, Université de technologie Sharif, Département de génie informatique ;

(3) Majid Komeili, Université Carleton, École d'informatique.

Tableau des liens

Résumé et introduction

Informations d'arrière-plan

Méthodologie

Interprétabilité des prototypes

Similarité des requêtes prototypes

Interprétabilité du processus décisionnel

Les effets d’un faible nombre de prototypes

Discussions

ABSTRAIT

Les réseaux de prototypes partiels sont récemment devenus des méthodes intéressantes en tant qu'alternative interprétable à la plupart des classificateurs d'images actuels en boîte noire. Cependant, l’interprétabilité de ces méthodes du point de vue des utilisateurs humains n’a pas été suffisamment explorée. Dans ce travail, nous avons conçu un cadre pour évaluer l'interprétabilité des modèles basés sur des pièces-prototypes d'un point de vue humain. Le cadre proposé se compose de trois mesures et expériences exploitables. Pour démontrer l'utilité de notre framework, nous avons réalisé un ensemble complet d'expériences à l'aide d'Amazon Mechanical Turk. Ils montrent non seulement la capacité de notre cadre à évaluer l'interprétabilité de divers modèles basés sur des pièces-prototypes, mais ils constituent également, à notre connaissance, le travail le plus complet sur l'évaluation de telles méthodes dans un cadre unifié.

Introduction

À mesure que l’intelligence artificielle et l’apprentissage automatique sont devenus omniprésents dans de nombreux secteurs de la société et de l’économie, le besoin de transparence, d’équité et de confiance augmente. La plupart des méthodes et algorithmes de pointe sont des boîtes noires où le processus de prise de décision est opaque pour les humains. L'intelligence artificielle interprétable et explicable vise à résoudre ce problème en proposant des méthodes qui soit expliquent les décisions des modèles de boîte noire, soit sont elles-mêmes intrinsèquement interprétables.


Figure 1. Exemple de processus de prise de décision d'une méthode pièce-prototype.


Les classificateurs basés sur des prototypes sont une catégorie de méthodes intrinsèquement interprétables qui utilisent des exemples prototypiques pour prendre leurs décisions. On suppose que tant que les prototypes eux-mêmes sont compréhensibles par un humain, la décision elle-même est interprétable[1]. Les classificateurs basés sur des prototypes ne sont pas une invention nouvelle. Beaucoup existaient bien avant que le besoin d’interprétabilité ne devienne si urgent[2-6]. Ces dernières années, de nouvelles méthodes ont été proposées qui combinent la puissance et l'exprimabilité des réseaux de neurones avec le processus de prise de décision d'un classificateur basé sur un prototype pour créer des réseaux de neurones prototypiques [7], [8], atteignant des résultats compétitifs avec l'état du marché. art tout en étant intrinsèquement interprétable dans le processus.


Une sous-catégorie plus récente de classificateurs basés sur des prototypes est celle des réseaux partiellement prototypes. Ces réseaux, opérant généralement dans le domaine de la classification d'images, utilisent des régions d'un échantillon de requête, par opposition à l'image de requête entière, pour prendre leurs décisions. ProtoPNet[9] est la première de ces méthodes à offrir des explications fines pour la classification des images tout en offrant une précision de pointe. La figure 1 montre un exemple de la manière dont une méthode de pièce-prototype prend ses décisions.


Figure 2. Exemples de problèmes d'interprétabilité avec des prototypes. a) Le prototype lui-même n'est pas interprétable car il pointe vers une région d'arrière-plan non pertinente. b) manque de similarité entre un prototype et la région correspondante dans l'échantillon de requête.


Les explications données par ces méthodes peuvent être très différentes les unes des autres. Même lorsque la présentation générale de l’explication est similaire, les pièces-prototypes elles-mêmes peuvent être très différentes. Il est inhabituel de supposer qu’ils offrent le même niveau d’interprétabilité. Il est donc nécessaire d’évaluer leur interprétabilité.


Si beaucoup de ces méthodes évaluent les performances de leurs modèles et les comparent à l’état de l’art, rares sont celles qui analysent l’interprétabilité de leurs méthodes. La plupart des analyses à cet égard semblent se concentrer sur les métriques automatiques permettant d’évaluer l’interprétabilité[10]. De telles mesures automatiques, bien qu’utiles, ne remplacent pas l’évaluation humaine de l’interprétabilité. D'autres ont travaillé sur le débogage assisté par l'homme[11] mais n'ont pas étendu cela à une évaluation complète de l'interprétabilité des méthodes.


Kim et coll. ont proposé une méthode pour évaluer les concepts visuels par les humains et ont même réalisé des expériences sur ProtoPNet et ProtoTree[12], mais leur évaluation souffre d'un certain nombre de problèmes. L'ampleur des expériences de Kim et al. est petit, avec seulement deux méthodes de prototypes partiels évaluées en utilisant un seul ensemble de données. La conception expérimentale de ce travail repose également sur des évaluations fines effectuées par des annotateurs humains. Ce type de conception peut s'avérer un moyen peu fiable de mesurer l'opinion humaine lorsqu'il n'y a pas de consensus sur la signification de chaque option[13]. Il a utilisé l'étiquette de classe pour mesurer la qualité des prototypes dans l'ensemble de données CUB, même si rien n'indiquait que les utilisateurs humains connaissaient les détails des distinctions entre 200 classes d'oiseaux. Enfin, il utilisait la représentation rectangulaire par défaut des prototypes de ProtoPNet et ProtoTree. Ces représentations ont tendance à être trop larges et trompeuses pour l'utilisateur humain par rapport à la carte thermique d'activation réelle. En conséquence, nous proposons une analyse centrée sur l’humain consistant en un ensemble d’expériences pour évaluer l’interprétabilité des méthodes de pièces-prototypes.

Objectifs

L’interprétabilité d’un système pièce-prototype n’est pas un concept bien défini. Dans ce travail, nous nous concentrons sur trois propriétés que de tels systèmes devraient posséder pour être interprétables.


• Interprétabilité du prototype lui-même : le concept auquel un prototype fait référence doit être reconnaissable et compréhensible pour un humain. La figure 2 (a) montre un exemple de prototype qui n'est pas interprétable car il pointe vers une région d'arrière-plan non pertinente. Les méthodes d’apprentissage automatique et les réseaux de neurones, en particulier, peuvent prendre des décisions correctes basées sur des combinaisons de caractéristiques des données qu’un humain pourrait ne pas comprendre. De plus, la présentation de ces fonctionnalités est très importante. Un prototype peut faire référence à un concept très inhabituel, mais sa présentation peut amener un humain à croire à tort qu'il comprend le raisonnement derrière une décision.


• La similarité d'un prototype avec la région correspondante dans l'échantillon de requête : même si le prototype lui-même est facilement compris par un humain, son activation sur l'échantillon de requête peut ne pas montrer le même concept que le prototype. La figure 2 (b) montre un exemple de ce problème. Ceci est important car cela montre que la similarité structurelle dans l’espace d’intégration dans lequel résident les prototypes n’est pas compatible avec la compréhension humaine de la similarité. Il s'agit d'un problème qui a été rapporté dans la littérature précédente[14].


• L'interprétabilité du processus décisionnel lui-même est également un aspect important des méthodes basées sur des prototypes. Même si les humains comprennent les prototypes et leur similarité avec les correctifs activés de l’échantillon de requête, la décision finale pourrait ne pas l’être. Par exemple, un modèle peut sélectionner et utiliser des prototypes sans rapport pour classer correctement un échantillon.


La principale nouveauté de ce travail est un cadre plus robuste pour évaluer l'interprétabilité de réseaux basés sur des pièces-prototypes utilisant des annotateurs humains. Certaines méthodes précédentes ont tenté de réaliser de telles évaluations sur la base de métriques automatiques[10], et d'autres travaux ont travaillé sur l'évaluation humaine de l'interprétabilité pour d'autres types de méthodes d'IA explicables[15], [16]. Le travail le plus proche est HIVE[12] qui souffre d'un certain nombre de problèmes abordés dans notre approche. Plus d’informations à ce sujet suivront dans la section suivante.


Une autre nouveauté de ce travail est la proposition de trois métriques et expériences exploitables pour évaluer l'interprétabilité des classificateurs basés sur des prototypes de pièces. Nous pensons que si un modèle échoue à ces tests, il ne sera pas un bon modèle interprétable. Ceux-ci peuvent aider les futurs chercheurs à fournir des preuves plutôt que de simplement formuler des hypothèses sur l’interprétabilité de leurs approches.


Enfin, notre vaste ensemble d'expériences utilisant Amazon Mechanical Turk comprend des comparaisons de six méthodes connexes sur trois ensembles de données. À notre connaissance, il s’agit du travail le plus complet sur l’évaluation de l’interprétabilité de telles méthodes dans un cadre unifié.


Cet article est disponible sur arxiv sous licence CC 4.0.