Авторы:
(1) Чжихан Рен, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(2) Джефферсон Ортега, Калифорнийский университет, Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(3) Ифань Ван, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(4) Чжимин Чен, Калифорнийский университет, Беркли (электронная почта: [email protected]);
(5) Юнхуэй Го, Техасский университет в Далласе (электронная почта: [email protected]);
(6) Стелла X. Ю, Калифорнийский университет, Беркли и Мичиганский университет, Анн-Арбор (электронная почта: [email protected]);
(7) Дэвид Уитни, Калифорнийский университет, Беркли (электронная почта: [email protected]).
Распознавание человеческих аффектов было важной темой в психофизике и компьютерном зрении. Однако опубликованные в настоящее время наборы данных имеют множество ограничений. Например, большинство наборов данных содержат кадры, содержащие только информацию о выражениях лица. Из-за ограничений предыдущих наборов данных очень сложно понять механизмы распознавания аффектов людей или обобщить общие случаи для моделей компьютерного зрения, обученных на этих наборах данных. В этой работе мы представляем совершенно новый большой набор данных — набор данных отслеживания эмоций и аффектов на основе видео (VEATIC), который может преодолеть ограничения предыдущих наборов данных. VEATIC имеет 124 видеоклипа из голливудских фильмов, документальных фильмов и домашних видео с непрерывными рейтингами валентности и возбуждения каждого кадра с помощью аннотаций в реальном времени. Наряду с набором данных мы предлагаем новую задачу компьютерного зрения, позволяющую сделать вывод о влиянии выбранного персонажа с помощью контекста и информации о персонаже в каждом видеокадре. Кроме того, мы предлагаем простую модель для оценки этой новой задачи компьютерного зрения. Мы также сравниваем производительность предварительно обученной модели, использующей наш набор данных, с другими аналогичными наборами данных. Эксперименты показывают конкурирующие результаты нашей предварительно обученной модели с помощью VEATIC, что указывает на возможность обобщения VEATIC. Наш набор данных доступен по адресу https://veatic.github.io.
Распознавание человеческого влияния имеет жизненно важное значение в нашей повседневной жизни. Мы можем делать выводы о чувствах людей и предсказывать их последующие реакции, основываясь на выражении их лиц, взаимодействии с другими людьми и контексте сцены. Это бесценная часть нашего общения. Таким образом, многие исследования посвящены пониманию механизма распознавания аффекта. С появлением искусственного интеллекта (ИИ) во многих исследованиях также были предложены алгоритмы для автоматического восприятия и интерпретации человеческого воздействия, что потенциально означает, что такие системы, как роботы и виртуальные люди, могут взаимодействовать с людьми натуралистическим образом.
Когда перед людьми стоит задача распознавания эмоций в реальном мире, они получают доступ к гораздо большему количеству информации, чем просто выражения лица. Несмотря на это, во многих исследованиях, изучающих распознавание эмоций, часто используются статические стимулы мимики, изолированные от контекста, особенно при оценке психологических расстройств [3, 18] и в моделях компьютерного зрения [60, 62]. Кроме того, хотя предыдущие исследования продолжают изучать процесс, посредством которого люди воспринимают эмоции, многие из этих исследований не смогли выяснить, как на распознавание эмоций влияют контекстуальные факторы, такие как визуальная сцена, фоновая информация, движения тела, другие лица и даже наши убеждения. желания и концептуальная обработка [4, 34, 8, 42, 44]. Интересно, что визуальная контекстная информация автоматически и легко интегрируется с выражением лица [2]. Он также может игнорировать мимические сигналы во время эмоциональных суждений [26] (рис. 1) и даже влиять на восприятие эмоций на ранних стадиях визуальной обработки [7]. Фактически, контекстная информация часто так же ценна для понимания эмоций человека, как и само лицо [8, 9, 10]. Растущее количество свидетельств важности контекстной информации в распознавании эмоций [4] требует, чтобы исследователи переоценили экспериментальные парадигмы, в которых они исследуют распознавание эмоций человека. Например, чтобы лучше понять механизмы и процессы, которые приводят к распознаванию человеческих эмоций во время повседневных социальных взаимодействий, следует серьезно рассмотреть возможность обобщения научных исследований. Самое главное, что наборы данных для отслеживания эмоций и аффектов должны содержать не только лица или отдельные отдельные персонажи, но также должны быть включены контекстуальные факторы, такие как фоновая визуальная информация о сцене и взаимодействия между персонажами.
Чтобы отобразить эмоциональное состояние человека, многочисленные исследования в области психологии и нейронауки предложили методы количественной оценки эмоционального состояния человека, которые включают как категориальные, так и непрерывные модели эмоций. Наиболее известной и доминирующей категориальной теорией эмоций является теория базовых эмоций, которая утверждает, что определенные эмоции общепризнаны в разных культурах (гнев, страх, счастье и т. д.) и что все эмоции различаются по поведенческой и физиологической реакции, их оценке, и в выражении [16]. Альтернативно, циркумплексная модель аффекта, непрерывная модель эмоций, предполагает, что все аффективные состояния возникают из двух нейрофизиологических систем, связанных с валентностью и возбуждением, и все эмоции могут быть описаны линейной комбинацией этих двух измерений [52, 47, 53]. . Другая модель распознавания эмоций, модель системы кодирования действий лица, утверждает, что все выражения лица можно разбить на основные компоненты мышечных движений, называемые единицами действия [17]. Предыдущие модели распознавания эмоций были построены с учетом этих различных моделей [61, 63, 41]. Однако лишь немногие модели ориентированы на измерение воздействия с использованием непрерывных измерений, что является неудачным результатом нехватки аннотированных баз данных, доступных для аффективных вычислений.
На основе вышеупомянутых показателей эмоций было разработано множество наборов данных по распознаванию эмоций. Ранние наборы данных, такие как SAL [15], SEMAINE [39], Belfast Induced [58], DEAP [28] и MAHNOB-HCI [59], собираются в строго контролируемых лабораторных условиях и обычно имеют небольшой объем данных. Этим предыдущим наборам данных не хватает разнообразия с точки зрения персонажей, движений, освещения сцены и фона. Более того, представления в ранних наборах данных обычно дискретны. Последние наборы данных, такие как RECOLA [49], MELD [46], набор данных OMG-emotion [5], Aff-Wild [69] и Aff-Wild2 [29, 30], начинают собирать эмоциональные состояния посредством непрерывных оценок и использовать видео. в Интернете или под названием «в дикой природе». Однако в этих наборах данных отсутствует контекстная информация, и они сосредоточены исключительно на выражениях лица. В кадрах преобладают персонажи или отдельные лица. Кроме того, вышеупомянутые наборы данных имеют ограниченное число аннотаторов (обычно менее 10). Поскольку люди-наблюдатели имеют сильные индивидуальные различия и страдают от множества предубеждений [12, 45, 48), ограниченное количество аннотаторов может привести к существенным предвзятым оценкам в аннотациях.
В этом исследовании мы представляем набор данных отслеживания эмоций и аффектов на основе видео (VEATIC, /ve"ætIc/), большой набор данных, который может быть полезен как специалистам по психологии, так и группам компьютерного зрения. Набор данных включает 124 видеоклипа из Голливуда. фильмы, документальные фильмы и домашние видео с постоянными оценками валентности и возбуждения каждого кадра с помощью аннотаций в реальном времени. Мы также набрали большое количество участников для аннотирования данных. На основе этого набора данных мы предлагаем новую задачу компьютерного зрения, т.е. автоматическое определение влияния выбранного персонажа с помощью контекста и информации о персонаже в каждом кадре видео. В этом исследовании мы также предлагаем простое решение этой задачи. Эксперименты показывают эффективность метода, а также преимущества предлагаемого набора данных VEATIC. В двух словах, основные достижения этой работы заключаются в следующем:
• Мы создаем первый большой набор видеоданных VEATIC для отслеживания эмоций и аффектов, который содержит как черты лица, так и контекстуальные факторы. Набор данных имеет непрерывные рейтинги валентности и возбуждения для каждого кадра.
• Чтобы уменьшить предвзятость со стороны аннотаторов, мы набрали большую группу аннотаторов (всего 192) для аннотирования набора данных по сравнению с предыдущими наборами данных (обычно менее 10).
• Мы предоставляем базовую модель для прогнозирования возбуждения и валентности выбранного персонажа в каждом кадре, используя как информацию о персонаже, так и контекстуальные факторы.
Этот документ доступен на arxiv под лицензией CC 4.0.