paint-brush
부분 프로토타입 기반 분류기의 해석 가능성: 인간 중심 분석~에 의해@escholar
134 판독값

부분 프로토타입 기반 분류기의 해석 가능성: 인간 중심 분석

너무 오래; 읽다

이 초록에서는 인간 중심의 지표와 실험을 강조하면서 부분 프로토타입 기반 모델의 해석 가능성을 평가하기 위한 프레임워크를 소개합니다. 프로토타입 명확성, 쿼리 샘플과의 유사성 및 전반적인 의사 결정 해석 가능성을 평가함으로써 이 작업은 강력한 평가 접근 방식을 제공하여 다양한 방법과 데이터 세트에 대한 포괄적인 비교로 마무리됩니다.
featured image - 부분 프로토타입 기반 분류기의 해석 가능성: 인간 중심 분석
EScholar: Electronic Academic Papers for Scholars HackerNoon profile picture
0-item

저자:

(1) Carleton University, 컴퓨터 과학부 Omid Davoodi;

(2) Shayan Mohammadizadehsamakosh, Sharif University of Technology, 컴퓨터 공학과;

(3) 칼턴 대학교 컴퓨터 과학부 Majid Komeili.

링크 표

초록 및 소개

배경 정보

방법론

프로토타입 해석성

프로토타입 쿼리 유사성

의사결정 과정의 해석 가능성

낮은 프로토타입 수의 영향

토론

추상적인

부분 프로토타입 네트워크는 최근 많은 현재 블랙박스 이미지 분류기에 대한 해석 가능한 대안으로 관심을 끄는 방법이 되었습니다. 그러나 인간 사용자의 관점에서 이러한 방법의 해석 가능성은 충분히 탐구되지 않았습니다. 이 작업에서 우리는 인간의 관점에서 부품 프로토타입 기반 모델의 해석 가능성을 평가하기 위한 프레임워크를 고안했습니다. 제안된 프레임워크는 세 가지 실행 가능한 측정항목과 실험으로 구성됩니다. 프레임워크의 유용성을 입증하기 위해 Amazon Mechanical Turk를 사용하여 광범위한 실험을 수행했습니다. 이는 다양한 부분 프로토타입 기반 모델의 해석 가능성을 평가하는 데 있어 우리 프레임워크의 기능을 보여줄 뿐만 아니라, 우리가 아는 한, 통합 프레임워크에서 그러한 방법을 평가하는 가장 포괄적인 작업이기도 합니다.

소개

인공지능과 머신러닝이 사회와 경제의 여러 분야에서 더욱 보편화되면서 투명성, 공정성, 신뢰에 대한 필요성이 커지고 있습니다. 최첨단 방법과 알고리즘 중 다수는 의사결정 과정이 인간에게 불투명한 블랙박스입니다. 해석 가능하고 설명 가능한 인공 지능은 블랙박스 모델의 결정을 설명하거나 본질적으로 해석 가능한 방법을 제공함으로써 이 문제를 해결하는 것을 목표로 합니다.


그림 1. 부분 프로토타입 방법의 의사결정 과정의 예.


프로토타입 기반 분류자는 프로토타입 예제를 사용하여 결정을 내리는 본질적으로 해석 가능한 방법의 범주입니다. 프로토타입 자체를 사람이 이해할 수 있다면 결정 자체도 해석할 수 있다고 가정합니다[1]. 프로토타입 기반 분류기는 새로운 발명품이 아닙니다. 해석 가능성의 필요성이 매우 시급해지기 오래 전에 많은 것들이 존재했습니다[2-6]. 최근에는 신경망의 성능과 표현 가능성을 프로토타입 기반 분류기의 의사 결정 프로세스와 결합하여 프로토타입 신경망을 생성하는 새로운 방법이 제안되었습니다[7], [8]. 예술은 그 과정에서 본질적으로 해석될 수 있습니다.


프로토타입 기반 분류기의 새로운 하위 범주는 부분 프로토타입 네트워크입니다. 일반적으로 이미지 분류 영역에서 작동하는 이러한 네트워크는 전체 쿼리 이미지가 아닌 쿼리 샘플 영역을 사용하여 결정을 내립니다. ProtoPNet[9]은 최첨단 정확도를 제공하면서 이미지 분류에 대한 세밀한 설명을 제공하는 최초의 방법입니다. 그림 1은 부품 프로토타입 방법이 결정을 내리는 방법의 예를 보여줍니다.


그림 2. 프로토타입의 해석성 문제의 예. a) 프로토타입 자체는 관련 없는 배경 영역을 가리키고 있기 때문에 해석이 불가능합니다. b) 프로토타입과 쿼리 샘플의 해당 영역 간의 유사성이 부족합니다.


이러한 방법으로 제공되는 설명은 서로 매우 다를 수 있습니다. 설명의 일반적인 레이아웃이 유사하더라도 부분 프로토타입 자체는 크게 다를 수 있습니다. 동일한 수준의 해석 가능성을 제공한다고 가정하는 것은 드문 일입니다. 그러므로 해석가능성에 대한 평가가 필요하다.


이러한 방법 중 다수는 모델의 성능을 평가하고 이를 최신 기술과 비교하지만 해당 방법의 해석 가능성을 분석하는 방법은 거의 없습니다. 이와 관련된 대부분의 분석은 해석 가능성을 평가하기 위한 자동 측정 기준에 초점을 맞춘 것으로 보입니다[10]. 이러한 자동 측정항목은 유용하지만 해석 가능성에 대한 인간의 평가를 대체할 수는 없습니다. 다른 사람들은 인간 지원 디버깅 작업을 수행했지만[11] 메서드 해석 가능성에 대한 완전한 평가로 확장하지는 않았습니다.


Kim et al. 인간이 시각적 개념을 평가하는 방법을 제시하고 ProtoPNet과 ProtoTree[12]에 대한 실험도 수행했지만 평가에는 많은 문제가 있었습니다. Kim et al.의 실험 규모. 단일 데이터 세트만 사용하여 평가된 두 개의 부분 프로토타입 방법으로 작습니다. 해당 작업의 실험 설계도 인간 주석자의 세밀한 평가에 의존합니다. 이러한 유형의 디자인은 각 옵션의 의미에 대한 합의가 없을 때 인간의 의견을 측정하는 신뢰할 수 없는 방법이 될 수 있습니다[13]. 인간 사용자가 200종의 새 클래스 간의 구별에 대한 세부 사항을 잘 알고 있다는 징후가 없었음에도 불구하고 CUB 데이터 세트의 프로토타입 품질을 측정하기 위해 클래스 레이블을 사용했습니다. 마지막으로 ProtoPNet 및 ProtoTree의 프로토타입의 기본 직사각형 표현을 사용했습니다. 이러한 표현은 실제 활성화 히트맵과 비교하여 지나치게 광범위하고 사용자에게 오해를 불러일으키기 쉽습니다. 결과적으로 우리는 부분 프로토타입 방법의 해석 가능성을 평가하기 위한 일련의 실험으로 구성된 인간 중심 분석을 제안합니다.

목표

부품 프로토타입 시스템의 해석 가능성은 잘 정의된 개념이 아닙니다. 본 연구에서는 그러한 시스템이 해석 가능하기 위해 갖춰야 할 세 가지 속성에 중점을 둡니다.


• 프로토타입 자체의 해석성: 프로토타입이 가리키는 개념은 사람이 인식하고 이해할 수 있어야 합니다. 그림 2 (a)는 관련 없는 배경 영역을 가리키기 때문에 해석이 불가능한 프로토타입의 예를 보여줍니다. 특히 기계 학습 방법과 신경망은 인간이 이해하지 못할 수 있는 데이터의 기능 조합을 기반으로 올바른 결정을 내릴 수 있습니다. 또한 이러한 기능을 표현하는 것도 매우 중요합니다. 프로토타입은 매우 특이한 개념을 나타낼 수 있지만 프로토타입의 프레젠테이션으로 인해 인간은 결정 이면의 추론을 이해하고 있다고 잘못 믿게 될 수 있습니다.


• 쿼리 샘플의 해당 영역과 프로토타입의 유사성: 프로토타입 자체가 사람이 쉽게 이해할 수 있더라도 쿼리 샘플에서 활성화하면 프로토타입과 동일한 개념이 표시되지 않을 수 있습니다. 그림 2(b)는 이 문제의 예를 보여줍니다. 이는 프로토타입이 상주하는 임베딩 공간의 구조적 유사성이 유사성에 대한 인간의 이해와 양립할 수 없음을 보여주기 때문에 중요합니다. 이는 기존 문헌[14]에서 보고된 문제이다.


• 의사결정 과정 자체의 해석 가능성 역시 프로토타입 기반 방법의 중요한 측면입니다. 프로토타입과 쿼리 샘플의 활성화된 패치와의 유사성을 인간이 이해하더라도 최종 결정은 그렇지 않을 수 있습니다. 예를 들어 모델은 샘플을 올바르게 분류하기 위해 관련 없는 프로토타입을 선택하고 사용할 수 있습니다.


이 작업의 주요 참신함은 인간 주석자를 사용하여 부분 프로토타입 기반 네트워크의 해석 가능성을 평가하기 위한 보다 강력한 프레임워크입니다. 일부 이전 방법에서는 자동 측정항목을 기반으로 이러한 평가를 시도했으며[10], 다른 일부 작업에서는 다른 유형의 설명 가능한 AI 방법에 대한 인간 기반의 해석 가능성 평가를 수행했습니다[15], [16]. 가장 가까운 작업은 HIVE[12]로 우리의 접근 방식에서 해결된 여러 문제로 어려움을 겪고 있습니다. 이에 대한 자세한 내용은 다음 섹션에서 설명합니다.


이 작업의 또 다른 참신함은 부분 프로토타입 기반 분류기의 해석 가능성을 평가하기 위한 세 가지 실행 가능한 측정항목과 실험을 제안한다는 것입니다. 우리는 모델이 이러한 테스트에 실패하면 해석 가능한 모델이 아닐 것이라고 믿습니다. 이는 미래의 연구자들이 접근 방식의 해석 가능성에 대해 가정하기보다는 증거를 제공하는 데 도움이 될 수 있습니다.


마지막으로 Amazon Mechanical Turk를 사용한 광범위한 실험 세트에는 세 가지 데이터 세트에 대한 여섯 가지 관련 방법의 비교가 포함되어 있습니다. 우리가 아는 한, 이것은 통합된 프레임워크에서 그러한 방법의 해석 가능성을 평가하는 가장 포괄적인 작업입니다.


이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.