著者:
(1)カリフォルニア大学バークレー校のZhihang Renとこれらの著者らは本研究に等しく貢献した(電子メール:[email protected])。
(2)ジェファーソン・オルテガ、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(電子メール:[email protected])。
(3)Yifan Wang、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(Eメール:[email protected])。
(4)カリフォルニア大学バークレー校のZhimin Chen氏(Eメール:[email protected])
(5)ユンフイ・グオ、テキサス大学ダラス校(Eメール:[email protected])
(6)ステラ・X・ユー、カリフォルニア大学バークレー校およびミシガン大学アナーバー校(Eメール:[email protected])
(7)デイビッド・ホイットニー、カリフォルニア大学バークレー校(Eメール:[email protected])。
最近では、CAER [33]やEMOTIC [32]のように、顔とコンテキストの両方の情報を含むフレームを提供するデータセットがいくつかあります。CAER [33]は、各ビデオフレームのカテゴリラベルを含むビデオベースのデータセットであり、EMOTIC [32]は、カテゴリ表現ラベルと連続的な価-覚醒-優位性評価の両方を含む画像ベースのデータセットです。これらのデータセットとは異なり、私たちのデータセットはビデオベースであり、連続的な価と覚醒の評価が含まれています。私たちのデータセットと以前のデータセットの詳細な比較は、表1にあります。
さまざまな感情データセットに基づいて、感情を自動的に推測する方法に焦点を当てた研究が始まっています。人間の感情は、音声 [70, 68, 65]、視覚 [40, 54, 55, 37]、テキスト [68, 22] など、多くのモダリティから推測できます。特に視覚入力の場合、3つの主要なタスクがあります。
価-覚醒度推定タスクは、各画像/フレームの価と覚醒度を予測することを目的とします [71, 69, 29, 30]。表情認識タスクは、各画像/フレームの感情カテゴリを分類することに焦点を当てています [66, 57, 67]。アクションユニット(AU)検出タスクは、各画像/フレームの顔から顔の筋肉の動作を検出することを目的としています [25, 56, 35, 64]。現在、提案されている方法のほとんどは、感情状態を推測するために顔領域に大きく依存しています。確かに、顔領域には人間の感情状態に関する豊富な情報が含まれています。ただし、コンテキスト要因も、人間が他人の感情状態を正しく推測して認識するために必要な重要な情報を提供します [8, 9, 10]。いくつかの研究 [33, 32, 40] では、コンテキスト情報を感情推論のソースとして取り入れ始めています。本研究では、新しいタスク、つまり各ビデオフレームの価と覚醒度を推測するために、顔情報とコンテキスト情報の両方を採用しました。
人の感情を推測するには、通常、オーディオセグメント、ビデオフレーム、または単語のいずれかの時間情報を処理する必要があります。多くの研究[68, 69, 29, 30]では、時間情報を処理するために、長短期記憶(LSTM)[23]、ゲート付き回帰ユニット(GRU)[11]、またはリカレントニューラルネットワーク(RNN)[24, 50]を利用し始めました。ビジュアルトランスフォーマー(ViT)[14]の出現により、注意がシフトしました。多くのビデオ理解タスク[19, 1, 36]は、時間情報の理解と最先端のパフォーマンスを達成するためにViTを利用しています。私たちのベースライン方法では、ビデオクリップ内の時間情報を処理するためのツールとしてViTも採用しました。
この論文はCC 4.0ライセンスの下でarxivで公開されています。