Autores:
(1) Omid Davoodi, Universidade Carleton, Escola de Ciência da Computação;
(2) Shayan Mohammadizadehsamakosh, Universidade de Tecnologia de Sharif, Departamento de Engenharia da Computação;
(3) Majid Komeili, Universidade Carleton, Escola de Ciência da Computação.
Interpretabilidade do protótipo
Similaridade de consulta de protótipo
Interpretabilidade do Processo de Tomada de Decisão
Os efeitos da baixa contagem de protótipos
Redes parcialmente protótipos tornaram-se recentemente métodos de interesse como uma alternativa interpretável para muitos dos atuais classificadores de imagens de caixa preta. No entanto, a interpretabilidade destes métodos na perspectiva dos utilizadores humanos não foi suficientemente explorada. Neste trabalho, desenvolvemos uma estrutura para avaliar a interpretabilidade de modelos baseados em protótipos de peças a partir de uma perspectiva humana. A estrutura proposta consiste em três métricas e experimentos acionáveis. Para demonstrar a utilidade de nossa estrutura, realizamos um extenso conjunto de experimentos usando o Amazon Mechanical Turk. Eles não apenas mostram a capacidade da nossa estrutura em avaliar a interpretabilidade de vários modelos baseados em protótipos parciais, mas também são, até onde sabemos, o trabalho mais abrangente na avaliação de tais métodos em uma estrutura unificada.
À medida que a Inteligência Artificial e a Aprendizagem Automática se tornam mais omnipresentes em muitas partes da sociedade e da economia, aumenta a necessidade de transparência, justiça e confiança. Muitos dos métodos e algoritmos de última geração são caixas pretas onde o processo de tomada de decisão é opaco para os humanos. A Inteligência Artificial Interpretável e Explicável visa abordar esta questão, oferecendo métodos que explicam as decisões dos modelos de caixa preta ou que são inerentemente interpretáveis.
Classificadores baseados em protótipos são uma categoria de métodos inerentemente interpretáveis que usam exemplos prototípicos para tomar suas decisões. Supõe-se que, desde que os próprios protótipos sejam compreensíveis por um ser humano, a decisão em si é interpretável[1]. Classificadores baseados em protótipos não são invenções novas. Muitos já existiam muito antes de a necessidade de interpretabilidade se tornar tão urgente[2–6]. Nos últimos anos, foram propostos métodos mais recentes que combinam o poder e a capacidade de expressão das redes neurais com o processo de tomada de decisão de um classificador baseado em protótipo para criar redes neurais prototípicas [7], [8], alcançando resultados competitivos com o estado do arte enquanto é inerentemente interpretável no processo.
Uma subcategoria mais recente de classificadores baseados em protótipos são as redes de protótipos parciais. Essas redes, geralmente operando no domínio de classificação de imagens, utilizam regiões de uma amostra de consulta, em oposição à imagem de consulta inteira, para tomar suas decisões. ProtoPNet[9] é o primeiro desses métodos que oferece explicações refinadas para classificação de imagens, ao mesmo tempo que oferece precisão de última geração. A Figura 1 mostra um exemplo de como um método de protótipo parcial toma suas decisões.
As explicações dadas por esses métodos podem ser muito diferentes umas das outras. Mesmo quando o layout geral da explicação é semelhante, os próprios protótipos parciais podem ser muito diferentes. É incomum presumir que oferecem o mesmo nível de interpretabilidade. Portanto, a avaliação de sua interpretabilidade se faz necessária.
Embora muitos desses métodos avaliem o desempenho de seus modelos e os comparem com o estado da arte, poucos analisam a interpretabilidade de seus métodos. A maior parte da análise a este respeito parece centrar-se em métricas automáticas para avaliar a interpretabilidade[10]. Essas métricas automáticas, embora úteis, não substituem a avaliação humana da interpretabilidade. Outros trabalharam na depuração assistida por humanos[11], mas não a estenderam a uma avaliação completa da interpretabilidade do método.
Kim et al. ofereceu um método para avaliar conceitos visuais por humanos e até realizou experimentos em ProtoPNet e ProtoTree[12], mas sua avaliação sofre de uma série de problemas. A escala dos experimentos em Kim et al. é pequeno, com apenas dois métodos de protótipo parcial avaliados usando apenas um único conjunto de dados. O projeto experimental desse trabalho também depende de classificações refinadas feitas por anotadores humanos. Este tipo de design pode ser uma forma pouco confiável de medir a opinião humana quando não há consenso sobre o que cada opção significa[13]. Utilizou o rótulo de classe para medir a qualidade dos protótipos no conjunto de dados CUB, embora não houvesse indicação de que os utilizadores humanos estivessem familiarizados com as minúcias das distinções entre 200 classes de aves. Por último, utilizou a representação retangular padrão de protótipos do ProtoPNet e ProtoTree. Essas representações tendem a ser excessivamente amplas e enganosas para o usuário humano em comparação com o mapa de calor de ativação real. Como resultado, propomos uma análise centrada no ser humano que consiste em um conjunto de experimentos para avaliar a interpretabilidade de métodos de protótipo parcial.
A interpretabilidade de um sistema protótipo parcial não é um conceito bem definido. Neste trabalho, focamos em três propriedades que tais sistemas devem ter para serem interpretáveis.
• Interpretabilidade do próprio protótipo: O conceito ao qual um protótipo se refere deve ser reconhecível e compreensível para um ser humano. A Figura 2 (a) mostra um exemplo de protótipo que não é interpretável porque aponta para uma região de fundo irrelevante. Os métodos de aprendizado de máquina e as redes neurais, em particular, podem tomar decisões corretas com base em combinações de recursos nos dados que um ser humano pode não entender. Além disso, a apresentação de tais características é muito importante. Um protótipo pode referir-se a um conceito muito incomum, mas sua apresentação pode levar um ser humano a acreditar erroneamente que entende o raciocínio por trás de uma decisão.
• A semelhança de um protótipo com a região correspondente na amostra de consulta: Mesmo que o protótipo em si seja facilmente compreendido por um ser humano, a sua activação na amostra de consulta pode não mostrar o mesmo conceito que o protótipo. A Figura 2 (b) mostra um exemplo deste problema. Isto é importante porque mostra que a semelhança estrutural no espaço de incorporação em que os protótipos residem não é compatível com a compreensão humana da similaridade. Este é um problema que foi relatado na literatura anterior [14].
• A interpretabilidade do próprio processo de tomada de decisão também é um aspecto importante dos métodos baseados em protótipos. Mesmo que os protótipos e sua semelhança com os patches ativados da amostra de consulta sejam compreendidos pelos humanos, a decisão final pode não ser. Por exemplo, um modelo pode selecionar e usar protótipos não relacionados para classificar corretamente uma amostra.
A principal novidade deste trabalho é uma estrutura mais robusta para avaliar a interpretabilidade de redes baseadas em protótipos parciais usando anotadores humanos. Alguns métodos anteriores tentaram fazer tais avaliações com base em métricas automáticas [10], e alguns outros trabalhos trabalharam na avaliação de interpretabilidade baseada em humanos para outros tipos de métodos de IA explicáveis [15], [16]. O trabalho mais próximo é o HIVE[12], que sofre de uma série de questões que são abordadas na nossa abordagem. Mais sobre isso seguirá na próxima seção.
Outra novidade deste trabalho é a proposta de três métricas e experimentos acionáveis para avaliar a interpretabilidade de classificadores baseados em protótipos parciais. Acreditamos que se um modelo falhar nestes testes, não seria um bom modelo interpretável. Estes podem ajudar futuros investigadores a fornecer provas, em vez de apenas fazerem suposições sobre a interpretabilidade das suas abordagens.
Por fim, nosso extenso conjunto de experimentos usando o Amazon Mechanical Turk inclui comparações de seis métodos relacionados em três conjuntos de dados. Até onde sabemos, este é o trabalho mais abrangente sobre a avaliação da interpretabilidade de tais métodos em uma estrutura unificada.
Este artigo está disponível no arxiv sob licença CC 4.0.