この論文はCC 4.0ライセンスの下でarxivで公開されています。
著者:
(1)カリフォルニア大学バークレー校のZhihang Renとこれらの著者らは本研究に等しく貢献した(電子メール:[email protected])。
(2)ジェファーソン・オルテガ、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(電子メール:[email protected])。
(3)Yifan Wang、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(Eメール:[email protected])。
(4)カリフォルニア大学バークレー校のZhimin Chen氏(Eメール:[email protected])
(5)ユンフイ・グオ、テキサス大学ダラス校(Eメール:[email protected])
(6)ステラ・X・ユー、カリフォルニア大学バークレー校およびミシガン大学アナーバー校(Eメール:[email protected])
(7)デイビッド・ホイットニー、カリフォルニア大学バークレー校(Eメール:[email protected])。
本研究では、コンテキストタスクにおける新しい感情認識、すなわち各ビデオフレームのコンテキスト情報とキャラクター情報の両方から、選択されたキャラクターの感情価と覚醒度を推測することを提案する。ここでは、コンテキストタスクにおける新しい感情認識のベンチマークとして、シンプルなベースラインモデルを提案する。モデルのパイプラインを図8に示す。特徴抽出用の畳み込みニューラルネットワーク(CNN)モジュールと時間情報処理用のビジュアルトランスフォーマーモジュールという2つのシンプルなサブモジュールを採用した。CNNモジュール構造は、Resnet50 [21]から採用した。顔/キャラクターとコンテキストの特徴が別々に抽出され、後でマージされるCAER [33]やEMOTIC [32]とは異なり、完全に情報に基づいたフレームを直接エンコードする。単一の予測では、連続するN個のビデオフレームが個別にエンコードされる。次に、連続するフレームの特徴ベクトルが最初に位置埋め込まれ、Lセットのアテンションモジュールを含むトランスフォーマーエンコーダーに送られる。最後に、覚醒度と感情価の予測は、多層パーセプトロン(MLP)ヘッドによって行われる。
ベースラインモデルの損失関数は、2 つの別々の損失の重み付けされた組み合わせです。MSE 損失は、評価のグラウンド トゥルースとモデル予測のローカル アラインメントを正規化します。感情評価の時間統計を学習するなど、より大規模な評価と予測のアラインメントを保証するために、一致相関係数 (CCC) も正規化として利用します。この係数は次のように定義されます。
SAGR は、2 つのベクトル X と Y の個々の値の符号がどの程度一致しているかを測定します。[0, 1] の範囲の値を取り、1 は完全な一致、0 は完全な矛盾を表します。SAGR メトリックは、他のメトリックよりも多くのパフォーマンス情報を取得できます。たとえば、0.2 の価数のグラウンド トゥルースが与えられた場合、0.7 と -0.3 の予測は同じ RMSE 値になります。しかし、明らかに 0.7 は正の価数であるため、より適しています。
前述の 4 つの指標、CCC、PCC、RMSE、SAGR を使用して、コンテキストタスクにおける新しい感情認識をベンチマークしました。結果を表 3 に示します。他のデータセットと比較すると、私たちが提案するシンプルな方法は、それらのデータセットにおける最先端の方法と同等です。
また、コンテキストのみのフレームと文字のみのフレームを、十分な情報を備えたフレームの事前トレーニング済みモデルに入力することで、感情認識タスクにおけるコンテキストと文字の情報の重要性も調査します。公平な比較を行い、フレームのピクセル分布の違いの影響を排除するために、コンテキストのみのフレームと文字のみのフレームで事前トレーニング済みモデルを微調整します。対応する結果も表 3 に示されています。完全な情報がない場合、コンテキストのみの条件と文字のみの条件の両方でモデルのパフォーマンスが低下します。
VEATICデータセットの有効性を示すために、VEATICで事前学習したモデルを利用し、他のデータセットで微調整して、そのパフォーマンスをテストしました。モデルの単純さと、他のデータセット論文で提案されたモデルとの類似性を考慮して、EMOTIC [32]とCAER-S [33]のみをテストしました。結果を表4に示します。事前学習したモデルは、EMOTIC [32]およびCAERS [33]で提案された方法と同等のパフォーマンスを発揮します。したがって、提案されたVEATICデータセットの有効性が示されています。
この論文はCC 4.0ライセンスの下でarxivで公開されています。