paint-brush
VEATIC: Отслеживание эмоций и аффектов на основе видео в наборе контекстных данных: предметное соглашение по видеок@kinetograph
328 чтения
328 чтения

VEATIC: Отслеживание эмоций и аффектов на основе видео в наборе контекстных данных: предметное соглашение по видео

Слишком долго; Читать

В этой статье исследователи представляют набор данных VEATIC для распознавания человеческих эмоций, устраняя ограничения в существующих наборах данных и позволяя делать выводы на основе контекста.
featured image - VEATIC: Отслеживание эмоций и аффектов на основе видео в наборе контекстных данных: предметное соглашение по видео
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Этот документ доступен на arxiv под лицензией CC 4.0.

Авторы:

(1) Чжихан Рен, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);

(2) Джефферсон Ортега, Калифорнийский университет, Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);

(3) Ифань Ван, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);

(4) Чжимин Чен, Калифорнийский университет, Беркли (электронная почта: [email protected]);

(5) Юнхуэй Го, Техасский университет в Далласе (электронная почта: [email protected]);

(6) Стелла X. Ю, Калифорнийский университет, Беркли и Мичиганский университет, Анн-Арбор (электронная почта: [email protected]);

(7) Дэвид Уитни, Калифорнийский университет, Беркли (электронная почта: [email protected]).

Таблица ссылок

10. Соглашение о предмете для видео

Преимущество набора данных VEATIC заключается в том, что он имеет несколько аннотаторов для каждого видео, причем минимальное количество аннотаторов для любого данного видео составляет 25, а максимальное — 73. Восприятие эмоций субъективно, и суждения наблюдателей могут различаться у разных людей. Многие из ранее опубликованных наборов данных об эмоциях имеют очень небольшое количество аннотаторов, часто только однозначное (n < 10). Иметь так мало аннотаторов проблематично из-за увеличения различий между наблюдателями. Чтобы продемонстрировать это, мы рассчитали, как менялась средняя оценка каждого видео в нашем наборе данных, если мы случайным образом выбирали с заменой пять комментаторов по сравнению со всеми. Мы повторили этот процесс 1000 раз для каждого видео и вычислили стандартное отклонение пересчитанного среднего рейтинга. На рисунке 12а показано, как меняется стандартное отклонение консенсусного рейтинга видео, если мы используем пять или все аннотаторы для каждого видео. Этот анализ показывает, что наличие большего количества комментаторов приводит к гораздо меньшим стандартным отклонениям в консенсусном рейтинге, что может привести к более точному представлению основных эмоций в видео.


Рисунок 9. Еще примеры видеокадров в VEATIC. Видеоклипы в VEATIC содержат различный фон, условия освещения, взаимодействия персонажей и т. д., что делает его комплексным набором данных не только для задач распознавания эмоций, но и для других задач понимания видео.


Рисунок 10. Примеры видеокадров с невыделенными персонажами и чистым фоном в VEATIC. Первый образец кадра в каждой строке показывает выбранный символ. Остальные кадры образцов представляют собой либо невыделенные символы, либо чистый фон.


Кроме того, мы исследовали, как ответы наблюдателей различались в зависимости от видео, рассчитав стандартное отклонение наблюдателей для каждого видео. На рисунке 12b показаны стандартные отклонения для разных видео. Мы обнаружили, что стандартные отклонения как для валентности, так и для измерения возбуждения были небольшими: валентность имела среднее стандартное отклонение µ = 0,248 и медиану 0,222, а возбуждение имело среднее стандартное отклонение µ = 0,248 и медиану 0,244, что сопоставимо. с дисперсией валентности и рейтинга возбуждения от EMOTIC [32].


Этот документ доступен на arxiv под лицензией CC 4.0.