Авторы:
(1) Омид Давуди, факультет компьютерных наук Карлтонского университета;
(2) Шаян Мохаммадизадехсамакош, Технологический университет Шарифа, факультет компьютерной инженерии;
(3) Маджид Комейли, факультет компьютерных наук Карлтонского университета.
Интерпретируемость процесса принятия решений
Эффекты малого количества прототипов
Сети частичных прототипов в последнее время стали представлять интерес как интерпретируемая альтернатива многим современным классификаторам изображений «черного ящика». Однако интерпретируемость этих методов с точки зрения пользователей недостаточно изучена. В этой работе мы разработали основу для оценки интерпретируемости моделей, основанных на прототипах деталей, с человеческой точки зрения. Предлагаемая структура состоит из трех действенных показателей и экспериментов. Чтобы продемонстрировать полезность нашей платформы, мы провели обширную серию экспериментов с использованием Amazon Mechanical Turk. Они не только демонстрируют возможности нашей структуры в оценке интерпретируемости различных моделей, основанных на прототипах деталей, но также, насколько нам известно, представляют собой наиболее полную работу по оценке таких методов в единой структуре.
Поскольку искусственный интеллект и машинное обучение стали более повсеместными во многих сферах общества и экономики, потребность в прозрачности, справедливости и доверии возрастает. Многие из современных методов и алгоритмов представляют собой черные ящики, в которых процесс принятия решений непрозрачен для людей. Интерпретируемый и объяснимый искусственный интеллект стремится решить эту проблему, предлагая методы, которые либо объясняют решения моделей черного ящика, либо сами по себе интерпретируемы.
Классификаторы на основе прототипов — это категория интерпретируемых по своей сути методов, которые используют прототипные примеры для принятия решений. Предполагается, что пока сами прототипы понятны человеку, само решение интерпретируемо[1]. Классификаторы на основе прототипов не являются новым изобретением. Многие из них существовали задолго до того, как потребность в интерпретируемости стала настолько острой[2–6]. В последние годы были предложены новые методы, которые сочетают мощность и выражаемость нейронных сетей с процессом принятия решений классификатора на основе прототипа для создания прототипных нейронных сетей [7], [8], достигая результатов, конкурентоспособных с состоянием искусство, будучи по своей сути интерпретируемым в процессе.
Новая подкатегория классификаторов, основанных на прототипах, — это сети частичного прототипа. Эти сети, обычно работающие в области классификации изображений, для принятия решений используют области выборки запроса, а не все изображение запроса. ProtoPNet[9] — первый из подобных методов, который предлагает детальное объяснение классификации изображений, обеспечивая при этом современную точность. На рис. 1 показан пример того, как метод детали-прототипа принимает решения.
Объяснения, даваемые этими методами, могут сильно отличаться друг от друга. Даже если общая схема объяснения схожа, сами прототипы деталей могут сильно различаться. Необычно предполагать, что они предлагают одинаковый уровень интерпретируемости. Поэтому необходима оценка их интерпретируемости.
Хотя многие из этих методов оценивают производительность своих моделей и сравнивают их с современным уровнем техники, лишь немногие анализируют интерпретируемость своих методов. Большая часть анализа в этом отношении, похоже, сосредоточена на автоматических метриках для оценки интерпретируемости[10]. Такие автоматические показатели, хотя и полезны, не заменяют человеческую оценку интерпретируемости. Другие работали над отладкой с помощью человека[11], но не расширили ее до полной оценки интерпретируемости метода.
Ким и др. предложил метод оценки визуальных концепций людьми и даже провел эксперименты на ProtoPNet и ProtoTree[12], но их оценка страдает от ряда проблем. Масштаб экспериментов Kim et al. небольшой: только два метода части-прототипа оцениваются с использованием только одного набора данных. Экспериментальный план этой работы также основан на детальных оценках людей-аннотаторов. Этот тип дизайна может быть ненадежным способом измерения человеческого мнения, когда нет единого мнения о том, что означает каждый вариант[13]. Он использовал метку класса для измерения качества прототипов в наборе данных CUB, хотя не было никаких признаков того, что пользователи-люди были знакомы с деталями различий между 200 классами птиц. Наконец, по умолчанию использовалось прямоугольное представление прототипов из ProtoPNet и ProtoTree. Эти представления могут быть слишком широкими и вводить пользователя в заблуждение по сравнению с фактической тепловой картой активации. В результате мы предлагаем человекоцентричный анализ, состоящий из серии экспериментов для оценки интерпретируемости методов «деталь-прототип».
Интерпретируемость системы «часть-прототип» не является четко определенной концепцией. В этой работе мы фокусируемся на трех свойствах, которыми должны обладать такие системы, чтобы их можно было интерпретировать.
• Интерпретируемость самого прототипа. Концепция, на которую ссылается прототип, должна быть узнаваема и понятна человеку. На рисунке 2 (а) показан пример прототипа, который невозможно интерпретировать, поскольку он указывает на нерелевантную фоновую область. В частности, методы машинного обучения и нейронные сети могут принимать правильные решения на основе комбинаций функций в данных, которые человек может не понимать. Кроме того, очень важно представление таких функций. Прототип может относиться к очень необычной концепции, но его представление может привести к ошибочному мнению человека о том, что он понимает причину решения.
• Сходство прототипа с соответствующей областью в образце запроса. Даже если сам прототип легко понятен человеку, его активация в образце запроса может не отражать ту же концепцию, что и прототип. На рисунке 2 (б) показан пример этой проблемы. Это важно, поскольку показывает, что структурное сходство в пространстве встраивания, в котором находятся прототипы, несовместимо с человеческим пониманием сходства. Об этой проблеме сообщалось в предыдущей литературе[14].
• Интерпретируемость самого процесса принятия решений также является важным аспектом методов, основанных на прототипах. Даже если прототипы и их сходство с активированными патчами из образца запроса понятны людям, окончательного решения может не быть. Например, модель может выбирать и использовать несвязанные прототипы для правильной классификации выборки.
Основная новинка этой работы — более надежная основа для оценки интерпретируемости сетей на основе прототипов с использованием людей-аннотаторов. Некоторые предыдущие методы пытались проводить такие оценки на основе автоматических показателей[10], а некоторые другие работы работали над оценкой интерпретируемости других типов объяснимых методов ИИ[15], [16]. Ближайшая работа — HIVE[12], которая страдает рядом проблем, которые решаются в нашем подходе. Подробнее об этом будет сказано в следующем разделе.
Еще одной новинкой этой работы является предложение трех действенных показателей и экспериментов для оценки интерпретируемости классификаторов на основе прототипов деталей. Мы считаем, что если модель не пройдет эти тесты, она не будет хорошей интерпретируемой моделью. Это может помочь будущим исследователям предоставить доказательства, а не просто делать предположения о интерпретируемости их подходов.
Наконец, наша обширная серия экспериментов с использованием Amazon Mechanical Turk включает сравнение шести связанных методов на трех наборах данных. Насколько нам известно, это наиболее полная работа по оценке интерпретируемости таких методов в единой системе.
Этот документ доступен на arxiv под лицензией CC 4.0.