594 чтения

Проверка глубины эмпатии ИИ: основы и проблемы

к Simon Y. Blackwell10 мин read2024/02/29

Слишком долго; Читать

Было проведено много исследований по разработке и оценке эмпатических систем искусственного интеллекта. Однако остается еще много открытых вопросов и проблем: - Нам нужно четкое, согласованное определение эмпатии, чтобы его можно было проверить. - Нам следует избегать споров о том, могут ли ИИ «действительно» чувствовать эмоции, а вместо этого сосредоточиться на оценке их наблюдаемого эмпатического поведения. - Существуют важные различия между выявлением и вызыванием сочувствия, а также сочувствием в одноразовых ответах и диалогах. Системы должны оцениваться соответствующим образом. - Тестирование систем искусственного интеллекта сопряжено с такими рисками, как систематическая ошибка множественного выбора, систематическая ошибка выборки в человеческих рейтингах и переподбор подсказок. - Для тестирования эмпатии ИИ было предложено несколько стандартных схем, но все еще требуется дополнительная работа для смягчения известных рисков и изучения неизвестных проблем. - Области дальнейших исследований включают оценку рисков в существующих тестах, разработку дополнительных тестовых примеров и систематическую оценку большего количества систем.

featured image - Проверка глубины эмпатии ИИ: основы и проблемы

Поиск в Google Scholar по запросу « эмпатический ИИ » дает более 16 000 элементов с 2023 года. Поиск по таким фразам, как «тестирование чуткого ИИ» и «оценка чуткого ИИ», сокращает этот набор примерно до 12 000 элементов. Множество титулов, которые нужно пройти! Я, конечно, не могу утверждать, что прочитал их все или даже просмотрел каждое название, но вот мои мысли.

У нас должно быть общее определение эмпатии.
Мы должны согласиться игнорировать вопрос: «Может ли ИИ на самом деле чувствовать?» и просто сосредоточьтесь на том, как мы интерпретируем то, что генерирует ИИ, т.е. если бы ИИ был человеком, как бы мы чувствовали или думали, что человек думает или чувствует? (Ух ты, это немного гимнастики).
Мы должны различать идентификацию эмоций, идентификацию сочувствия, генерирование эмпатических реакций и участие в диалогах с эмпатией.
Мы должны принять во внимание богатую историю тестирования эмоциональных и эмпатических способностей людей, одновременно признавая, чем ИИ отличаются, чтобы исторические тесты можно было применять, потенциально модифицировать и оценивать соответствующим образом.
Мы должны понимать существующие системы оценки, адаптированные к ИИ.
Мы должны разработать новые рамки и подходы.

Что такое эмпатия?

Мерриам-Вебстер: «Действие понимания, осознания, чувствительности и опосредованного переживания чувств, мыслей и опыта другого человека ».

Чтобы устранить потенциальные проблемы, связанные с «переживанием» в контексте LLM, я перефразирую это как действие понимания, осознания, чувствительности и видимости опосредованного переживания чувств, мыслей и опыта другого человека .

И, конечно, если нас интересует разговор, мы бы добавили: «И, проявив это таким образом, чтобы другие участники разговора знали о действии». Конечно, социопат также может появиться и проявиться таким образом , поэтому я сделаю одну последнюю поправку.

Эмпатия – это:

Действие понимания, осознания, позитивной чувствительности и видимости опосредованного переживания чувств, мыслей и опыта другого человека . И это проявляется таким образом, что другие участники разговора знают об этом действии.

При рассмотрении этого и исходного определения становятся очевидными два компонента эмпатии: аффективный и когнитивный.

Аффективный компонент относится к эмоциональной или чувственной части эмпатии. Это способность делиться или отражать чувства другого человека. Например, если другу грустно, аффективная часть вашего сочувствия может заставить вас тоже почувствовать грусть или, по крайней мере, почувствовать его печаль.
С другой стороны, когнитивный компонент относится к ментальной или мыслительной части эмпатии. Это способность активно распознавать и понимать очереди, чтобы мысленно поставить себя на место другого человека. Например, если коллега усталым голосом (очередь) рассказывает вам о сложном проекте, над которым он работает (очередь), вы можете попытаться понять его стресс, активно представляя, как бы вы себя чувствовали в аналогичной ситуации. . Для некоторых это может искусственно вызвать эффект.

Могут ли ИИ чувствовать?

На этом этапе большинство людей сказали бы, что у ИИ нет чувств. Некоторые предсказывают будущее, в котором у ИИ есть чувства, а другие, где у ИИ нет и не могут быть чувства, а третья группа может сказать: «ИИ чувствуют/будут чувствовать, но иначе, чем люди».

В любом случае, мы не добьемся прогресса в тестировании ИИ на эмпатию, если будем тратить время на обсуждение этой темы. Мы должны сосредоточиться на интерпретации того, что проявляют ИИ, а не на их внутреннем состоянии. Хотя на эту тему было проведено несколько интересных исследований, см. «Эмоционально онемевший или чуткий?» Оценка того, как чувствуют себя студенты, имеющие степень магистра права, с помощью EmotionBench .

Если вы не можете преодолеть это препятствие, я предлагаю вам просто игнорировать тесты на этом сайте. Тем не менее, вам все равно могут понравиться статьи и беседы!

Идентификация против генерации

Между определением чего-либо и выполнением чего-либо происходит большой скачок. Молодые спортсмены или ученые могут определить, что не так с их результатами, но не имеют возможности сразу же выступать на более высоком уровне. Аналогичным образом, способность распознавать эмоции и вести чуткий разговор — это не то же самое, что способность проявлять эмоции и генерировать ответы, которые другая сторона интерпретировала бы как эмпатические. На самом деле, между ними есть даже шаг. Молодые спортсмены или ученые, прислушивающиеся к советам тренера или учителя и в данный момент добивающиеся лучших результатов, не делают их полностью способными. Если ИИ производит эмпатический результат как побочный эффект дизайна теста или подсказки, то у ИИ может быть зарождающаяся способность к эмпатии, но он не является эмпатическим по своей сути.

Хотя полностью понять внутреннее состояние ИИ может оказаться невозможным, я верю, что идентификация эмоций является необходимым условием для того, чтобы ИИ проявлял сочувствие. Я также считаю, что способность подсказать/научить ИИ давать эмпатический ответ является показателем зарождающейся способности, то есть точная настройка (эквивалент человеческой практики) может создать эту способность.

Различия между идентификацией и генерацией , а также обучением и внутренними важными для обсуждения эффективности тестов и сред тестирования, выходящих за рамки этой статьи.

Идентификация

Выявление эмоций в текстовом содержании основано на наличии слов-индикаторов, заглавных букв, пунктуации и грамматического строя. Способность точно определять настроения возникла более чем на двадцать лет раньше нынешней революции искусственного интеллекта. В 1990-е годы пересечения слов-н-грамм и символические рассуждения уже давали впечатляющие результаты. По мере роста социальных сетей в начале 2000-х годов потребность в автоматической модерации привела к значительному прогрессу в этой области. Однако сегодняшние степени магистра права поражают своей способностью определять не только общие настроения, но и конкретные эмоции.

При этом существует несколько типов идентификации выражения эмоций, необходимых для полностью эмпатического разговора, я классифицирую их следующим образом:

явный — пользователь заявляет, что у него есть ощущение.
разговорный — эмоции очевидны из текстового анализа верхнего уровня, они присутствуют В разговоре.
вождение — Эмоции ДВИЖУТ разговором, один человек выражает гнев, а другой отвечает тем же.
Ядро. Эмоции, которые вызывают другие эмоции, но сами не вызваны эмоциями, являются ОСНОВНЫМИ. Обычно они проявляются в результате какого-то исторического триггера, вызывающего предвкушение (сознательное или подсознательное) будущего. Разные исследователи могут классифицировать их по-разному. Одним из примеров, поддерживаемых Далиа-ламой, являются Пять континентов эмоций (гнев, страх, отвращение, печаль, удовольствие) в Атласе эмоций .

Примечание: основная эмоция также может быть движущей, разговорной и явной, но основные эмоции часто скрыты. Во время обзора и определения тестов или результатов тестов, выходящих за рамки этой статьи, я снова обращу внимание на эти классификации.

Поколение

Несколько тестов показали, что ИИ способны генерировать чуткие ответы на вопросы. Одним из наиболее впечатляющих является сравнение ответов чат-бота врача и искусственного интеллекта на вопросы пациентов, опубликованные на общедоступном форуме в социальных сетях. На него было принято 195 вопросов с форума AskDoc Reddit, где проверенный врач ответил на вопрос и попросил ChatGPT ответить на тот же вопрос. Затем группа оценщиков оценила каждый ответ как «не чуткий», «слегка чуткий», «умеренно чуткий», «чуткий» и «очень чуткий». Ответы ИИ имели в 9,8 раза более высокую распространенность «чутких» или «очень чутких» по сравнению с врачами.

Хотя результаты впечатляют, я скептически отношусь к тому, что они перейдут в расширенный диалог.

Начиная с системной подсказки «Ваша работа — сочувственно отвечать на вопросы, на которые будет полезен сочувственный ответ», мой опыт ручного тестирования ИИ показывает, что ответы имеют тенденцию казаться механическими и эмоционально избыточными при всех следующих условиях:

задавать несколько несвязанных между собой вопросов, заслуживающих сочувственного ответа
задавать несколько связанных вопросов, заслуживающих сочувственного ответа
ведение диалога со смешанными вопросами, некоторые из которых заслуживают сочувствия, а другие нет.

Стандартные человеческие подходы к оценке эмоционального интеллекта и эмпатии

Существует долгая история тестирования типов человеческой личности, способности распознавать эмоции или их отсутствие (алекситимия) и сочувственно взаимодействовать с другими. Эта статья в Википедии наверняка будет гораздо более полной и связной, чем все, что я мог бы написать или даже создать с помощью LLM за разумное время. Вы можете увидеть подходы, на которых мы сосредоточились, посетив страницу тестов .

Существующие системы оценки эмоционального интеллекта и эмпатии искусственного интеллекта

Было предложено несколько схем оценки эмоционального интеллекта и эмпатии ИИ. Каждый из них заслуживает отдельного анализа и публикации в блоге, поэтому я просто перечислю здесь некоторые из них:

Новые подходы

Мы начали определять некоторые тесты для устранения недостатков, выявленных при использовании стандартных человеческих тестов и существующих инфраструктур искусственного интеллекта. Интересный вывод, который привел к созданию EQ-D (эмоционального коэффициента глубины), заключается в том, что ни один из протестированных LLM не выявил основных эмоций, если они не были также явными, разговорными или движущими. С другой стороны, когда их попросили конкретно определить только основные эмоции, некоторые ИИ показали себя весьма хорошо. Однако при наличии диапазона всех типов эмоций некоторые LLM потеряли способность идентифицировать основные эмоции, а другие показали себя значительно лучше, т. е. они определили наличие большего количества эмоций на всех уровнях. Это привело к созданию EQ-B (эмоционального коэффициента широты).

В ходе разработки тестов стало очевидно, что бывают случаи, когда требуется подсказка, которая вводит риск подсказки , т. е. увеличивает вероятность того, что выходные данные будут зависеть от подсказки, а не от основного ИИ. Этот риск может сделать или не сделать недействительными сравнения с людьми и может быть законным на уровне приложения. На исходном уровне LLM кажется несущественным сравнивать один ИИ с другим, пока подсказка используется во всех тестируемых ИИ и не предвзято относится к конкретному ИИ. Текущие разработки EQ-D и EQ-B страдают от этого риска из-за общей незрелости технологии искусственного интеллекта.

Хотя есть несколько предложений относительно тестирования ИИ на эмпатию, мы находимся на ранней стадии, и в этих подходах есть как известные, так и неизвестные проблемы. Предстоит проделать работу по устранению известного:

существующие тесты должны быть оценены на предмет риска, а риски задокументированы или смягчены.
новые тестовые примеры необходимо разработать в контексте некоторых существующих тестов.
необходимо проводить больше типов тестов для более широкого спектра ИИ.

Но больше всего меня интригует неизвестность.

А ты?

Также опубликовано здесь.

L O A D I N G
. . . comments & more!

About Author

Simon Y. Blackwell@anywhichway

Working in the clouds around Seattle ... sailing when it's clear.

Read my stories

БИРКИ

tech-stories #ai-empathy #can-ai-feel #ai-eq #ai-ethics #cognitive-empathy #affective-empathy #testing-ai-empathy #hackernoon-top-story

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

Проверка глубины эмпатии ИИ: основы и проблемы

Simon Y. Blackwell

@anywhichway

Слишком долго; Читать

Simon Y. Blackwell

STORY’S CREDIBILITY