paint-brush
VEATIC: コンテキストデータセットにおけるビデオベースの感情と感情の追跡: ビデオ間の主題の一致@kinetograph
328 測定値
328 測定値

VEATIC: コンテキストデータセットにおけるビデオベースの感情と感情の追跡: ビデオ間の主題の一致

長すぎる; 読むには

この論文では、研究者らが人間の感情認識のための VEATIC データセットを紹介し、既存のデータセットの制限に対処し、コンテキストベースの推論を可能にします。
featured image - VEATIC: コンテキストデータセットにおけるビデオベースの感情と感情の追跡: ビデオ間の主題の一致
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

この論文はCC 4.0ライセンスの下でarxivで公開されています。

著者:

(1)カリフォルニア大学バークレー校のZhihang Renとこれらの著者らは本研究に等しく貢献した(電子メール:[email protected])。

(2)ジェファーソン・オルテガ、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(電子メール:[email protected])。

(3)Yifan Wang、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(Eメール:[email protected])。

(4)カリフォルニア大学バークレー校のZhimin Chen氏(Eメール:[email protected]

(5)ユンフイ・グオ、テキサス大学ダラス校(Eメール:[email protected]

(6)ステラ・X・ユー、カリフォルニア大学バークレー校およびミシガン大学アナーバー校(Eメール:[email protected]

(7)デイビッド・ホイットニー、カリフォルニア大学バークレー校(Eメール:[email protected])。

リンク一覧

10. 動画間の主題の一致

VEATIC データセットの利点は、各ビデオに複数の注釈者がいることです。どのビデオでも注釈者の最小数は 25、最大数は 73 です。感情の認識は主観的であり、観察者の判断は人によって異なる場合があります。これまでに公開された感情データセットの多くは注釈者の数が非常に少なく、注釈者の数が 1 桁 (n < 10) しかないこともよくあります。注釈者がこれほど少ないと、観察者間のばらつきが大きくなるため問題があります。これを示すために、データセット内の各ビデオの平均評価を、5 人の注釈者とすべての注釈者でランダムに抽出した場合に、どのように変化するかを計算しました。このプロセスを各ビデオで 1000 回繰り返し、再計算された平均評価の標準偏差を計算しました。図 12a は、各ビデオで 5 人の注釈者とすべての注釈者を使用した場合に、ビデオ全体のコンセンサス評価の標準偏差がどのように変化するかを示しています。この分析では、注釈者が増えるとコンセンサス評価の標準偏差が大幅に小さくなり、動画内の真実の感情をより正確に表現できるようになることが示されています。


図 9. VEATIC のその他のサンプル ビデオ フレーム。VEATIC のビデオ クリップには、さまざまな背景、照明条件、キャラクターのやり取りなどが含まれており、感情認識タスクだけでなく、その他のビデオ理解タスクにも使用できる包括的なデータセットとなっています。


図 10. VEATIC で選択されていない文字と純粋な背景のサンプル ビデオ フレーム。各行の最初のサンプル フレームには、選択された文字が表示されます。残りのサンプル フレームは、選択されていない文字または純粋な背景です。


さらに、各ビデオの観察者間の標準偏差を計算することで、観察者の反応がビデオ間でどのように異なるかを調査しました。図12bは、ビデオ間の標準偏差を示しています。価性と覚醒の両方の次元の標準偏差は小さく、価性の平均標準偏差はµ = 0.248、中央値は0.222、覚醒の平均標準偏差はµ = 0.248、中央値は0.244であり、EMOTIC [32]の価性と覚醒の評価分散と匹敵することがわかりました。


この論文はCC 4.0ライセンスの下でarxivで公開されています