作者：  （1）加州大学伯克利分校的任志航和本文其他作者对本文的贡献相同（Email: peter.zhren@berkeley.edu）；  （2）加州大学伯克利分校的 Jefferson Ortega 和本文其他作者对本文做出了同等贡献（电子邮箱：jefferson_ortega@berkeley.edu）；  （3）加州大学伯克利分校的 Yifan Wang 和本文其他作者对本文的贡献相同（电子邮箱：wyf020803@berkeley.edu）；  （4）陈志敏，加州大学伯克利分校（电邮：zhimin@berkeley.edu）；  （5）郭云晖，德克萨斯大学达拉斯分校（电子邮箱：yunhui.guo@utdallas.edu）  （6）Stella X. Yu，加州大学伯克利分校和密歇根大学安娜堡分校（电子邮箱：stellayu@umich.edu）  （7）加州大学伯克利分校的 David Whitney（电子邮箱：dwhitney@berkeley.edu）。 链接表 摘要和简介 相关炒锅 VEATIC 数据集 实验 讨论 结论 更多关于刺激 注释详细信息 异常值处理 视频间主题一致性 熟悉度和享受度评级及参考 2.相关工作 最近，有多个数据集提供包含面部和上下文信息的帧，例如 CAER [33] 和 EMOTIC [32]。CAER [33] 是一个基于视频的数据集，包含每个视频帧的分类标签，而 EMOTIC [32] 是一个基于图像的数据集，包含分类表情标签和连续效价-唤醒-显性评级。与这些数据集不同，我们的数据集是基于视频的，包含连续效价和唤醒评级。我们的数据集与以前的数据集之间的详细比较可以在表 1 中找到。 基于各种情感数据集，研究开始关注如何自动推断情感。人类情感可以从许多模态中推断出来，例如音频[70, 68, 65]、视觉[40, 54, 55, 37]和文本[68, 22]。对于视觉输入，有三个主要任务。  情绪效价-唤醒度估计任务旨在预测每幅图像/帧的情绪效价和唤醒度 [71, 69, 29, 30]；表情识别任务侧重于对每幅图像/帧的情绪类别进行分类 [66, 57, 67]；动作单元 (AU) 检测任务旨在从每幅图像/帧的面部检测面部肌肉动作 [25, 56, 35, 64]。目前，大多数提出的方法高度依赖面部区域来推断情绪状态。事实上，面部区域包含有关人类情绪状态的丰富信息。然而，环境因素也提供了人类正确推断和感知他人情绪状态所必需的基本信息 [8, 9, 10]。一些研究 [33, 32, 40] 已开始将环境信息作为情感推断的来源。在本研究中，我们还采用了面部和环境信息来完成新任务，即推断每个视频帧的情绪效价和唤醒度。 为了推断一个人的情感，我们通常需要处理音频片段、视频帧或单词的时间信息。许多研究 [68、69、29、30] 开始利用长短期记忆 (LSTM) [23]、门控循环单元 (GRU) [11] 或循环神经网络 (RNN) [24、50] 来处理时间信息。随着视觉变换器 (ViT) [14] 的出现，注意力发生了转移。许多视频理解任务 [19、1、36] 已经利用 ViT 来理解时间信息并取得了最先进的性能。我们的基础方法也采用 ViT 作为处理视频片段中时间信息的工具。 该论文 。 可在 arxiv 上根据 CC 4.0 许可获取

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

該音頻是用故事的原始語言製作的！

VEATIC：基于视频的情境数据集中的情感和影响跟踪：相关工作

About Author

註釋

標籤

这篇文章刊登在

Related Stories

看不见的层面：为什么用户访谈是不可替代的资产

比特币 UTXO 模型，为独特的生态系统提供动力

创建以用户为中心的加密产品：客户反馈的重要性

想赢得 HackerNoon 写作比赛吗？以下是 #crypto-api 比赛获奖者的推荐

看不见的层面：为什么用户访谈是不可替代的资产

比特币 UTXO 模型，为独特的生态系统提供动力

创建以用户为中心的加密产品：客户反馈的重要性

想赢得 HackerNoon 写作比赛吗？以下是 #crypto-api 比赛获奖者的推荐

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps