Этот документ доступен на arxiv под лицензией CC 4.0.   Авторы:  (1) Чжихан Рен, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: peter.zhren@berkeley.edu);  (2) Джефферсон Ортега, Калифорнийский университет, Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: jefferson_ortega@berkeley.edu);  (3) Ифань Ван, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: wyf020803@berkeley.edu);  (4) Чжимин Чен, Калифорнийский университет, Беркли (электронная почта: zhimin@berkeley.edu);  (5) Юнхуэй Го, Техасский университет в Далласе (электронная почта: yunhui.guo@utdallas.edu);  (6) Стелла X. Ю, Калифорнийский университет, Беркли и Мичиганский университет, Анн-Арбор (электронная почта: stellayu@umich.edu);  (7) Дэвид Уитни, Калифорнийский университет, Беркли (электронная почта: dwhitney@berkeley.edu).  Таблица ссылок   Аннотация и введение   Похожие Вок   Набор данных ВЕАТИК   Эксперименты   Обсуждение   Заключение   Подробнее о стимулах   Подробности аннотации   Обработка выбросов   Предметное соглашение по видео   Знакомство и удовольствие Оценки и ссылки  4. Эксперименты  В этом исследовании мы предлагаем новую задачу распознавания эмоций в контексте, то есть сделать вывод о валентности и возбуждении выбранного персонажа с помощью как контекста, так и информации о персонаже в каждом видеокадре. Здесь мы предлагаем простую базовую модель для оценки нового распознавания эмоций в контекстной задаче. Конвейер модели показан на рисунке 8. Мы использовали два простых подмодуля: модуль сверточной нейронной сети (CNN) для извлечения признаков и модуль визуального преобразователя для обработки временной информации. Структура модуля CNN заимствована из Resnet50 [21]. В отличие от CAER [33] и EMOTIC [32], где особенности лица/характера и контекста извлекаются отдельно и позже объединяются, мы напрямую кодируем полностью информированный кадр. Для одного предсказания последовательные N видеокадров кодируются независимо. Затем векторы признаков последовательных кадров сначала встраиваются и подаются в преобразователь-кодер, содержащий L наборов модулей внимания. Наконец, предсказание возбуждения и валентности осуществляется с помощью головы многослойного перцептрона (MLP).   4.1. Функция потерь и настройка обучения  Функция потерь нашей базовой модели представляет собой взвешенную комбинацию двух отдельных потерь. Потеря MSE упорядочивает локальное соответствие истинности рейтингов и прогнозов модели. Чтобы гарантировать согласованность рейтингов и прогнозов в более широком масштабе, например, при изучении временной статистики эмоциональных рейтингов, мы также используем коэффициент корреляции соответствия (CCC) в качестве регуляризации. Этот коэффициент определяется следующим образом:   4.2. Метрики оценки   SAGR измеряет, насколько совпадают знаки отдельных значений двух векторов X и Y. Он принимает значения в [0, 1], где 1 представляет полное согласие, а 0 представляет полное противоречие. Метрика SAGR может собирать дополнительную информацию о производительности, чем другие. Например, при истинности валентности 0,2 прогнозы 0,7 и -0,3 приведут к одному и тому же значению RMSE. Но очевидно, что 0,7 подходит лучше, поскольку имеет положительную валентность.   4.3. Результаты тестирования  Мы оцениваем новое распознавание эмоций в контекстной задаче, используя вышеупомянутые 4 показателя: CCC, PCC, RMSE и SAGR. Результаты показаны в таблице 3. По сравнению с другими наборами данных предлагаемый нами простой метод находится на одном уровне с современными методами работы с их наборами данных.  Мы также исследуем важность информации о контексте и символах в задачах распознавания эмоций, вводя кадры, содержащие только контекст и только символы, в предварительно обученную модель на полностью информированных кадрах. Чтобы получить объективные сравнения и исключить влияние различий в распределении пикселей кадра, мы также настраиваем предварительно обученную модель на контекстных и только символьных кадрах. Соответствующие результаты также представлены в таблице 3. Без полной информации производительность модели снижается как для контекстных, так и для текстовых условий.  Чтобы продемонстрировать эффективность набора данных VEATIC, мы использовали нашу предварительно обученную модель на VEATIC, настроили ее на других наборах данных и протестировали ее производительность. Мы тестировали только EMOTIC [32] и CAER-S [33], учитывая простоту нашей модели и сходство нашей модели с моделями, предложенными в других статьях с наборами данных. Результаты показаны в таблице 4. Наша предварительно обученная модель работает на одном уровне с предложенными методами в EMOTIC [32] и CAERS [33]. Таким образом, это показывает эффективность предлагаемого нами набора данных VEATIC.  Этот документ   под лицензией CC 4.0. доступен на arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

Этот звук создан на языке оригинала истории!

VEATIC: Отслеживание эмоций и аффектов на основе видео в наборе контекстных данных: эксперименты

About Author

КОММЕНТАРИИ

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В

Related Stories

Плавание по водам: разработка RAG-приложений промышленного уровня с использованием озер данных

Telegram: мост Крипто-острова на материк

Модель Bitcoin UTXO, обеспечивающая работу уникальной экосистемы

Невидимые слои: почему интервью с пользователями являются незаменимым активом

Плавание по водам: разработка RAG-приложений промышленного уровня с использованием озер данных

Telegram: мост Крипто-острова на материк

Модель Bitcoin UTXO, обеспечивающая работу уникальной экосистемы

Невидимые слои: почему интервью с пользователями являются незаменимым активом

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps