paint-brush
VEATIC: Отслеживание эмоций и аффектов на основе видео в наборе контекстных данных: экспериментык@kinetograph
172 чтения

VEATIC: Отслеживание эмоций и аффектов на основе видео в наборе контекстных данных: эксперименты

Слишком долго; Читать

В этой статье исследователи представляют набор данных VEATIC для распознавания человеческих эмоций, устраняя ограничения в существующих наборах данных и позволяя делать выводы на основе контекста.
featured image - VEATIC: Отслеживание эмоций и аффектов на основе видео в наборе контекстных данных: эксперименты
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Этот документ доступен на arxiv под лицензией CC 4.0.

Авторы:

(1) Чжихан Рен, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);

(2) Джефферсон Ортега, Калифорнийский университет, Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);

(3) Ифань Ван, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);

(4) Чжимин Чен, Калифорнийский университет, Беркли (электронная почта: [email protected]);

(5) Юнхуэй Го, Техасский университет в Далласе (электронная почта: [email protected]);

(6) Стелла X. Ю, Калифорнийский университет, Беркли и Мичиганский университет, Анн-Арбор (электронная почта: [email protected]);

(7) Дэвид Уитни, Калифорнийский университет, Беркли (электронная почта: [email protected]).

Таблица ссылок

4. Эксперименты

В этом исследовании мы предлагаем новую задачу распознавания эмоций в контексте, то есть сделать вывод о валентности и возбуждении выбранного персонажа с помощью как контекста, так и информации о персонаже в каждом видеокадре. Здесь мы предлагаем простую базовую модель для оценки нового распознавания эмоций в контекстной задаче. Конвейер модели показан на рисунке 8. Мы использовали два простых подмодуля: модуль сверточной нейронной сети (CNN) для извлечения признаков и модуль визуального преобразователя для обработки временной информации. Структура модуля CNN заимствована из Resnet50 [21]. В отличие от CAER [33] и EMOTIC [32], где особенности лица/характера и контекста извлекаются отдельно и позже объединяются, мы напрямую кодируем полностью информированный кадр. Для одного предсказания последовательные N видеокадров кодируются независимо. Затем векторы признаков последовательных кадров сначала встраиваются и подаются в преобразователь-кодер, содержащий L наборов модулей внимания. Наконец, предсказание возбуждения и валентности осуществляется с помощью головы многослойного перцептрона (MLP).


Рисунок 8. Архитектура эталонной модели отслеживания эмоций и аффектов в контекстной задаче. Модель состоит из модуля извлечения признаков CNN и визуального преобразователя для объединения временной информации последовательных кадров.

4.1. Функция потерь и настройка обучения

Функция потерь нашей базовой модели представляет собой взвешенную комбинацию двух отдельных потерь. Потеря MSE упорядочивает локальное соответствие истинности рейтингов и прогнозов модели. Чтобы гарантировать согласованность рейтингов и прогнозов в более широком масштабе, например, при изучении временной статистики эмоциональных рейтингов, мы также используем коэффициент корреляции соответствия (CCC) в качестве регуляризации. Этот коэффициент определяется следующим образом:


4.2. Метрики оценки


SAGR измеряет, насколько совпадают знаки отдельных значений двух векторов X и Y. Он принимает значения в [0, 1], где 1 представляет полное согласие, а 0 представляет полное противоречие. Метрика SAGR может собирать дополнительную информацию о производительности, чем другие. Например, при истинности валентности 0,2 прогнозы 0,7 и -0,3 приведут к одному и тому же значению RMSE. Но очевидно, что 0,7 подходит лучше, поскольку имеет положительную валентность.


Таблица 3. Производительность предложенной нами модели в условиях полной информированности, только персонажей и только контекста. Модель работает лучше всего, делая вывод как на основе символьной, так и на контекстной информации. Это показывает важность как контекстной, так и характерной информации для эмоций и влияет на задачи отслеживания.


Таблица 4. Сравнение нашего доработанного предложенного метода с предварительно обученными моделями EMOTIC и CARE-S на их наборах данных. Наша простая модель дает конкурентоспособные результаты, что указывает на возможность обобщения VEATIC.

4.3. Результаты тестирования

Мы оцениваем новое распознавание эмоций в контекстной задаче, используя вышеупомянутые 4 показателя: CCC, PCC, RMSE и SAGR. Результаты показаны в таблице 3. По сравнению с другими наборами данных предлагаемый нами простой метод находится на одном уровне с современными методами работы с их наборами данных.


Мы также исследуем важность информации о контексте и символах в задачах распознавания эмоций, вводя кадры, содержащие только контекст и только символы, в предварительно обученную модель на полностью информированных кадрах. Чтобы получить объективные сравнения и исключить влияние различий в распределении пикселей кадра, мы также настраиваем предварительно обученную модель на контекстных и только символьных кадрах. Соответствующие результаты также представлены в таблице 3. Без полной информации производительность модели снижается как для контекстных, так и для текстовых условий.


Чтобы продемонстрировать эффективность набора данных VEATIC, мы использовали нашу предварительно обученную модель на VEATIC, настроили ее на других наборах данных и протестировали ее производительность. Мы тестировали только EMOTIC [32] и CAER-S [33], учитывая простоту нашей модели и сходство нашей модели с моделями, предложенными в других статьях с наборами данных. Результаты показаны в таблице 4. Наша предварительно обученная модель работает на одном уровне с предложенными методами в EMOTIC [32] и CAERS [33]. Таким образом, это показывает эффективность предлагаемого нами набора данных VEATIC.



Этот документ доступен на arxiv под лицензией CC 4.0.