この論文はCC 4.0ライセンスの下でarxivで公開されています。 著者:  （１）カリフォルニア大学バークレー校のZhihang Renとこれらの著者らは本研究に等しく貢献した（電子メール：peter.zhren@berkeley.edu）。  （２）ジェファーソン・オルテガ、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した（電子メール：jefferson_ortega@berkeley.edu）。  （３）Yifan Wang、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した（Eメール：wyf020803@berkeley.edu）。  （4）カリフォルニア大学バークレー校のZhimin Chen氏（Eメール：zhimin@berkeley.edu）  （５）ユンフイ・グオ、テキサス大学ダラス校（Eメール：yunhui.guo@utdallas.edu）  （6）ステラ・X・ユー、カリフォルニア大学バークレー校およびミシガン大学アナーバー校（Eメール：stellayu@umich.edu）  （7）デイビッド・ホイットニー、カリフォルニア大学バークレー校（Eメール：dwhitney@berkeley.edu）。 リンク一覧 概要と序文 関連中華鍋 VEATIC データセット 実験 議論 結論 刺激についての詳細 注釈の詳細 外れ値処理 動画間の主題の一致 親しみやすさと楽しさの評価と参考文献 4. 実験 本研究では、コンテキストタスクにおける新しい感情認識、すなわち各ビデオフレームのコンテキスト情報とキャラクター情報の両方から、選択されたキャラクターの感情価と覚醒度を推測することを提案する。ここでは、コンテキストタスクにおける新しい感情認識のベンチマークとして、シンプルなベースラインモデルを提案する。モデルのパイプラインを図8に示す。特徴抽出用の畳み込みニューラルネットワーク（CNN）モジュールと時間情報処理用のビジュアルトランスフォーマーモジュールという2つのシンプルなサブモジュールを採用した。CNNモジュール構造は、Resnet50 [21]から採用した。顔/キャラクターとコンテキストの特徴が別々に抽出され、後でマージされるCAER [33]やEMOTIC [32]とは異なり、完全に情報に基づいたフレームを直接エンコードする。単一の予測では、連続するN個のビデオフレームが個別にエンコードされる。次に、連続するフレームの特徴ベクトルが最初に位置埋め込まれ、Lセットのアテンションモジュールを含むトランスフォーマーエンコーダーに送られる。最後に、覚醒度と感情価の予測は、多層パーセプトロン（MLP）ヘッドによって行われる。   4.1. 損失関数とトレーニングの設定 ベースラインモデルの損失関数は、2 つの別々の損失の重み付けされた組み合わせです。MSE 損失は、評価のグラウンド トゥルースとモデル予測のローカル アラインメントを正規化します。感情評価の時間統計を学習するなど、より大規模な評価と予測のアラインメントを保証するために、一致相関係数 (CCC) も正規化として利用します。この係数は次のように定義されます。   4.2. 評価指標  SAGR は、2 つのベクトル X と Y の個々の値の符号がどの程度一致しているかを測定します。[0, 1] の範囲の値を取り、1 は完全な一致、0 は完全な矛盾を表します。SAGR メトリックは、他のメトリックよりも多くのパフォーマンス情報を取得できます。たとえば、0.2 の価数のグラウンド トゥルースが与えられた場合、0.7 と -0.3 の予測は同じ RMSE 値になります。しかし、明らかに 0.7 は正の価数であるため、より適しています。   4.3. ベンチマーク結果 前述の 4 つの指標、CCC、PCC、RMSE、SAGR を使用して、コンテキストタスクにおける新しい感情認識をベンチマークしました。結果を表 3 に示します。他のデータセットと比較すると、私たちが提案するシンプルな方法は、それらのデータセットにおける最先端の方法と同等です。 また、コンテキストのみのフレームと文字のみのフレームを、十分な情報を備えたフレームの事前トレーニング済みモデルに入力することで、感情認識タスクにおけるコンテキストと文字の情報の重要性も調査します。公平な比較を行い、フレームのピクセル分布の違いの影響を排除するために、コンテキストのみのフレームと文字のみのフレームで事前トレーニング済みモデルを微調整します。対応する結果も表 3 に示されています。完全な情報がない場合、コンテキストのみの条件と文字のみの条件の両方でモデルのパフォーマンスが低下します。  VEATICデータセットの有効性を示すために、VEATICで事前学習したモデルを利用し、他のデータセットで微調整して、そのパフォーマンスをテストしました。モデルの単純さと、他のデータセット論文で提案されたモデルとの類似性を考慮して、EMOTIC [32]とCAER-S [33]のみをテストしました。結果を表4に示します。事前学習したモデルは、EMOTIC [32]およびCAERS [33]で提案された方法と同等のパフォーマンスを発揮します。したがって、提案されたVEATICデータセットの有効性が示されています。 この論文はCC 4.0ライセンスの下で 。 arxivで公開されています

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

このオーディオは、ストーリーの元の言語で制作されています。

VEATIC: コンテキストデータセットにおけるビデオベースの感情と感情の追跡: 実験

About Author

コメント

ラベル

この記事は

Related Stories

State of the Noonion: Green Clock Strikes Noon

AI の力を解き放つ。最先端技術の体系的レビュー: 概要と序論

クラウド移行を成功させるための完全ガイド: 戦略とベストプラクティス

HackerNoon Coded: HackerNoonが最も活発に活動している上位10カ国

State of the Noonion: Green Clock Strikes Noon

AI の力を解き放つ。最先端技術の体系的レビュー: 概要と序論

クラウド移行を成功させるための完全ガイド: 戦略とベストプラクティス

HackerNoon Coded: HackerNoonが最も活発に活動している上位10カ国

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps