Этот документ доступен на arxiv под лицензией CC 4.0.
Авторы:
(1) Чжихан Рен, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(2) Джефферсон Ортега, Калифорнийский университет, Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(3) Ифань Ван, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(4) Чжимин Чен, Калифорнийский университет, Беркли (электронная почта: [email protected]);
(5) Юнхуэй Го, Техасский университет в Далласе (электронная почта: [email protected]);
(6) Стелла X. Ю, Калифорнийский университет, Беркли и Мичиганский университет, Анн-Арбор (электронная почта: [email protected]);
(7) Дэвид Уитни, Калифорнийский университет, Беркли (электронная почта: [email protected]).
В этом исследовании мы предлагаем новую задачу распознавания эмоций в контексте, то есть сделать вывод о валентности и возбуждении выбранного персонажа с помощью как контекста, так и информации о персонаже в каждом видеокадре. Здесь мы предлагаем простую базовую модель для оценки нового распознавания эмоций в контекстной задаче. Конвейер модели показан на рисунке 8. Мы использовали два простых подмодуля: модуль сверточной нейронной сети (CNN) для извлечения признаков и модуль визуального преобразователя для обработки временной информации. Структура модуля CNN заимствована из Resnet50 [21]. В отличие от CAER [33] и EMOTIC [32], где особенности лица/характера и контекста извлекаются отдельно и позже объединяются, мы напрямую кодируем полностью информированный кадр. Для одного предсказания последовательные N видеокадров кодируются независимо. Затем векторы признаков последовательных кадров сначала встраиваются и подаются в преобразователь-кодер, содержащий L наборов модулей внимания. Наконец, предсказание возбуждения и валентности осуществляется с помощью головы многослойного перцептрона (MLP).
Функция потерь нашей базовой модели представляет собой взвешенную комбинацию двух отдельных потерь. Потеря MSE упорядочивает локальное соответствие истинности рейтингов и прогнозов модели. Чтобы гарантировать согласованность рейтингов и прогнозов в более широком масштабе, например, при изучении временной статистики эмоциональных рейтингов, мы также используем коэффициент корреляции соответствия (CCC) в качестве регуляризации. Этот коэффициент определяется следующим образом:
SAGR измеряет, насколько совпадают знаки отдельных значений двух векторов X и Y. Он принимает значения в [0, 1], где 1 представляет полное согласие, а 0 представляет полное противоречие. Метрика SAGR может собирать дополнительную информацию о производительности, чем другие. Например, при истинности валентности 0,2 прогнозы 0,7 и -0,3 приведут к одному и тому же значению RMSE. Но очевидно, что 0,7 подходит лучше, поскольку имеет положительную валентность.
Мы оцениваем новое распознавание эмоций в контекстной задаче, используя вышеупомянутые 4 показателя: CCC, PCC, RMSE и SAGR. Результаты показаны в таблице 3. По сравнению с другими наборами данных предлагаемый нами простой метод находится на одном уровне с современными методами работы с их наборами данных.
Мы также исследуем важность информации о контексте и символах в задачах распознавания эмоций, вводя кадры, содержащие только контекст и только символы, в предварительно обученную модель на полностью информированных кадрах. Чтобы получить объективные сравнения и исключить влияние различий в распределении пикселей кадра, мы также настраиваем предварительно обученную модель на контекстных и только символьных кадрах. Соответствующие результаты также представлены в таблице 3. Без полной информации производительность модели снижается как для контекстных, так и для текстовых условий.
Чтобы продемонстрировать эффективность набора данных VEATIC, мы использовали нашу предварительно обученную модель на VEATIC, настроили ее на других наборах данных и протестировали ее производительность. Мы тестировали только EMOTIC [32] и CAER-S [33], учитывая простоту нашей модели и сходство нашей модели с моделями, предложенными в других статьях с наборами данных. Результаты показаны в таблице 4. Наша предварительно обученная модель работает на одном уровне с предложенными методами в EMOTIC [32] и CAERS [33]. Таким образом, это показывает эффективность предлагаемого нами набора данных VEATIC.
Этот документ доступен на arxiv под лицензией CC 4.0.