Авторы:
(1) Чжихан Рен, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(2) Джефферсон Ортега, Калифорнийский университет, Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(3) Ифань Ван, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(4) Чжимин Чен, Калифорнийский университет, Беркли (электронная почта: [email protected]);
(5) Юнхуэй Го, Техасский университет в Далласе (электронная почта: [email protected]);
(6) Стелла X. Ю, Калифорнийский университет, Беркли и Мичиганский университет, Анн-Арбор (электронная почта: [email protected]);
(7) Дэвид Уитни, Калифорнийский университет, Беркли (электронная почта: [email protected]).
Недавно появилось несколько наборов данных, которые предоставляют кадры как с лицевой, так и с контекстной информацией, например CAER [33] и EMOTIC [32]. CAER [33] — это набор данных на основе видео, который содержит категориальные метки каждого видеокадра, а EMOTIC [32] — это набор данных на основе изображений, содержащий как метки категориальных выражений, так и непрерывные рейтинги доминирования валентного возбуждения. В отличие от этих наборов данных, наш набор данных основан на видео и содержит постоянные рейтинги валентности и возбуждения. Подробное сравнение нашего набора данных с предыдущими наборами данных можно найти в таблице 1.
На основе различных наборов данных об эмоциях исследования начали фокусироваться на том, как автоматически делать выводы об эмоциях. Человеческий аффект можно определить по многим модальностям, таким как звук [70, 68, 65], визуал [40, 54, 55, 37] и текст [68, 22]. В частности, для визуального ввода существуют три основные задачи.
Задача оценки валентности-возбуждения направлена на предсказание валентности и возбуждения каждого изображения/кадра [71, 69, 29, 30]; задача распознавания выражений фокусируется на классификации эмоциональных категорий каждого изображения/кадра [66, 57, 67]; а задача обнаружения блока действий (AU) предназначена для обнаружения действий лицевых мышц на лицах каждого изображения/кадра [25, 56, 35, 64]. В настоящее время большинство предлагаемых методов для определения эмоционального состояния в значительной степени полагаются на область лица. Действительно, область лица содержит богатую информацию об эмоциональном состоянии человека. Однако контекстуальные факторы также предоставляют важную информацию, необходимую людям для правильного вывода и восприятия эмоциональных состояний других [8, 9, 10]. Несколько исследований [33, 32, 40] начали использовать контекстную информацию в качестве источника вывода об аффекте. В этом исследовании мы также использовали как информацию о лице, так и контекстную информацию для решения новой задачи, то есть сделать вывод о валентности и возбуждении для каждого видеокадра.
Чтобы сделать вывод о влиянии человека, нам обычно приходится иметь дело с временной информацией, состоящей из аудиосегментов, видеокадров или слов. Многие исследования [68, 69, 29, 30] начали использовать долговременную краткосрочную память (LSTM) [23], вентилируемую рекуррентную единицу (GRU) [11] или рекуррентную нейронную сеть (RNN) [24, 50] для обработки временная информация. С появлением визуального преобразователя (ВиТ) [14] внимание сместилось. Многие задачи по распознаванию видео [19, 1, 36] использовали ViT для понимания временной информации и достижения современной производительности. В нашем базовом методе ViT также использовался в качестве инструмента для обработки временной информации в видеоклипах.
Этот документ доступен на arxiv под лицензией CC 4.0.