著者:  （１）カリフォルニア大学バークレー校のZhihang Renとこれらの著者らは本研究に等しく貢献した（電子メール：peter.zhren@berkeley.edu）。  （２）ジェファーソン・オルテガ、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した（電子メール：jefferson_ortega@berkeley.edu）。  （３）Yifan Wang、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した（Eメール：wyf020803@berkeley.edu）。  （4）カリフォルニア大学バークレー校のZhimin Chen氏（Eメール：zhimin@berkeley.edu）  （５）ユンフイ・グオ、テキサス大学ダラス校（Eメール：yunhui.guo@utdallas.edu）  （6）ステラ・X・ユー、カリフォルニア大学バークレー校およびミシガン大学アナーバー校（Eメール：stellayu@umich.edu）  （7）デイビッド・ホイットニー、カリフォルニア大学バークレー校（Eメール：dwhitney@berkeley.edu）。 リンク一覧 概要と序文 関連中華鍋 VEATIC データセット 実験 議論 結論 刺激についての詳細 注釈の詳細 外れ値処理 動画間の主題の一致 親しみやすさと楽しさの評価と参考文献 2. 関連研究 最近では、CAER [33]やEMOTIC [32]のように、顔とコンテキストの両方の情報を含むフレームを提供するデータセットがいくつかあります。CAER [33]は、各ビデオフレームのカテゴリラベルを含むビデオベースのデータセットであり、EMOTIC [32]は、カテゴリ表現ラベルと連続的な価-覚醒-優位性評価の両方を含む画像ベースのデータセットです。これらのデータセットとは異なり、私たちのデータセットはビデオベースであり、連続的な価と覚醒の評価が含まれています。私たちのデータセットと以前のデータセットの詳細な比較は、表1にあります。 さまざまな感情データセットに基づいて、感情を自動的に推測する方法に焦点を当てた研究が始まっています。人間の感情は、音声 [70, 68, 65]、視覚 [40, 54, 55, 37]、テキスト [68, 22] など、多くのモダリティから推測できます。特に視覚入力の場合、3つの主要なタスクがあります。  価-覚醒度推定タスクは、各画像/フレームの価と覚醒度を予測することを目的とします [71, 69, 29, 30]。表情認識タスクは、各画像/フレームの感情カテゴリを分類することに焦点を当てています [66, 57, 67]。アクションユニット（AU）検出タスクは、各画像/フレームの顔から顔の筋肉の動作を検出することを目的としています [25, 56, 35, 64]。現在、提案されている方法のほとんどは、感情状態を推測するために顔領域に大きく依存しています。確かに、顔領域には人間の感情状態に関する豊富な情報が含まれています。ただし、コンテキスト要因も、人間が他人の感情状態を正しく推測して認識するために必要な重要な情報を提供します [8, 9, 10]。いくつかの研究 [33, 32, 40] では、コンテキスト情報を感情推論のソースとして取り入れ始めています。本研究では、新しいタスク、つまり各ビデオフレームの価と覚醒度を推測するために、顔情報とコンテキスト情報の両方を採用しました。 人の感情を推測するには、通常、オーディオセグメント、ビデオフレーム、または単語のいずれかの時間情報を処理する必要があります。多くの研究[68, 69, 29, 30]では、時間情報を処理するために、長短期記憶（LSTM）[23]、ゲート付き回帰ユニット（GRU）[11]、またはリカレントニューラルネットワーク（RNN）[24, 50]を利用し始めました。ビジュアルトランスフォーマー（ViT）[14]の出現により、注意がシフトしました。多くのビデオ理解タスク[19, 1, 36]は、時間情報の理解と最先端のパフォーマンスを達成するためにViTを利用しています。私たちのベースライン方法では、ビデオクリップ内の時間情報を処理するためのツールとしてViTも採用しました。 この論文はCC 4.0ライセンスの下で 。 arxivで公開されています

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

このオーディオは、ストーリーの元の言語で制作されています。

VEATIC: コンテキストデータセットにおけるビデオベースの感情と感情の追跡: 関連研究

About Author

コメント

ラベル

この記事は

Related Stories

タップして稼ぐ：テレグラムはソラナより先に次の100億人の暗号通貨ユーザーを獲得する可能性がある

Telegram: クリプト島と本土を結ぶ橋

HackerNoon Coded: HackerNoonが最も活発に活動している上位10カ国

フロキのヴァルハラがインドのスリランカツアーのアソシエイトスポンサーに加わる

タップして稼ぐ：テレグラムはソラナより先に次の100億人の暗号通貨ユーザーを獲得する可能性がある

Telegram: クリプト島と本土を結ぶ橋

HackerNoon Coded: HackerNoonが最も活発に活動している上位10カ国

フロキのヴァルハラがインドのスリランカツアーのアソシエイトスポンサーに加わる

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps