著者:
(1)カリフォルニア大学バークレー校のZhihang Renとこれらの著者らは本研究に等しく貢献した(電子メール:[email protected])。
(2)ジェファーソン・オルテガ、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(電子メール:[email protected])。
(3)Yifan Wang、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(Eメール:[email protected])。
(4)カリフォルニア大学バークレー校のZhimin Chen氏(Eメール:[email protected])
(5)ユンフイ・グオ、テキサス大学ダラス校(Eメール:[email protected])
(6)ステラ・X・ユー、カリフォルニア大学バークレー校およびミシガン大学アナーバー校(Eメール:[email protected])
(7)デイビッド・ホイットニー、カリフォルニア大学バークレー校(Eメール:[email protected])。
人間の感情認識は、心理物理学とコンピューター ビジョンの重要なトピックです。ただし、現在公開されているデータセットには多くの制限があります。たとえば、ほとんどのデータセットには、顔の表情に関する情報のみを含むフレームが含まれています。以前のデータセットの制限により、人間の感情認識のメカニズムを理解することも、それらのデータセットでトレーニングされたコンピューター ビジョン モデルの一般的なケースを適切に一般化することも非常に困難です。この研究では、以前のデータセットの制限を克服できる、まったく新しい大規模なデータセット、コンテキストでのビデオベースの感情と感情の追跡データセット (VEATIC) を紹介します。VEATIC には、ハリウッド映画、ドキュメンタリー、ホーム ビデオからの 124 のビデオ クリップがあり、各フレームの継続的な価値と覚醒の評価がリアルタイムの注釈によって示されています。データセットとともに、各ビデオ フレームのコンテキストとキャラクター情報の両方を使用して、選択したキャラクターの感情を推測する新しいコンピューター ビジョン タスクを提案します。さらに、この新しいコンピューター ビジョン タスクをベンチマークするためのシンプルなモデルを提案します。また、データセットを使用した事前トレーニング済みモデルのパフォーマンスを他の同様のデータセットと比較します。実験では、VEATIC を介して事前トレーニングされたモデルの競合結果が示され、VEATIC の一般化可能性が示されています。データセットは https://veatic.github.io で入手できます。
人間の感情を認識することは、私たちの日常生活において極めて重要です。私たちは、人の表情、他の人とのやり取り、場面の状況に基づいて、人の感情を推測し、その後の反応を予測することができます。これは、コミュニケーションの非常に重要な部分です。したがって、感情認識のメカニズムを理解するための研究が多く行われています。人工知能 (AI) の出現により、多くの研究で、人間の感情を自動的に認識して解釈するアルゴリズムも提案されており、ロボットや仮想人間などのシステムが自然な方法で人とやり取りできる可能性が示唆されています。
現実世界で感情を認識するという課題を課せられたとき、人間は顔の表情よりもはるかに多くの情報にアクセスできます。それにもかかわらず、感情認識を調査する多くの研究では、特に精神障害の評価 [3, 18] やコンピュータービジョンモデル [60, 62] において、文脈から切り離された静的な顔の表情刺激がよく使用されています。さらに、これまでの研究では人間が感情を認識するプロセスが調査され続けていますが、これらの研究の多くは、視覚的なシーン、背景情報、体の動き、他の顔、さらには私たちの信念、欲求、概念処理などの文脈的要因が感情認識にどのように影響するかを調べていません [4, 34, 8, 42, 44]。興味深いことに、視覚的な文脈情報は、顔の表情と自動的かつ簡単に統合されることがわかっています [2]。また、感情的な判断中に顔の手がかりを無効にすることがあり [26] (図 1)、視覚処理の初期段階で感情の認識に影響を与えることさえあります [7]。実際、文脈情報は、人の感情を理解する上で、顔そのものと同じくらい価値があることが多い [8, 9, 10]。感情認識における文脈情報の重要性を示す証拠が増えていることから [4]、研究者は人間の感情認識を調査する実験パラダイムを再評価する必要があります。たとえば、日常の社会的相互作用における人間の感情認識につながるメカニズムとプロセスをよりよく理解するには、研究調査の一般化を真剣に検討する必要があります。最も重要なのは、感情と感情の追跡のためのデータセットには、顔や特定のキャラクターだけでなく、背景の視覚シーン情報やキャラクター間の相互作用などの文脈的要因も含める必要があることです。
人間の感情状態を表現するために、心理学と神経科学の多くの研究では、カテゴリモデルと連続モデルの両方を含む人間の感情状態を定量化する方法が提案されています。感情の最も有名で支配的なカテゴリ理論は、特定の感情(怒り、恐怖、幸福など)が文化を超えて普遍的に認識され、すべての感情は行動的および生理学的反応、評価、および表現において異なるという基本感情理論です [16]。一方、感情の連続モデルである感情の円環モデルは、すべての感情状態は価数と覚醒に関連する2つの神経生理学的システムから生じ、すべての感情はこれら2つの次元の線形結合によって記述できると提案しています [52、47、53]。感情認識の別のモデルである顔面動作コーディングシステムモデルは、すべての顔の表情はアクションユニットと呼ばれる筋肉の動きのコアコンポーネントに分解できると述べています [17]。これまでの感情認識モデルは、これらのさまざまなモデルを念頭に置いて構築されてきました [61、63、41]。しかし、連続的な次元を使用して感情を測定することに焦点を当てたモデルはほとんどなく、これは感情コンピューティングに利用できる注釈付きデータベースの不足による残念な結果です。
前述の感情メトリクスに基づいて、多くの感情認識データセットが開発されている。SAL [15]、SEMAINE [39]、Belfast induced [58]、DEAP [28]、MAHNOB-HCI [59]などの初期のデータセットは、高度に制御されたラボ環境で収集されており、通常、データサイズが小さい。これらの以前のデータセットは、キャラクター、モーション、シーンの照明、背景の点で多様性に欠けている。さらに、初期のデータセットの表現は通常離散的である。RECOLA [49]、MELD [46]、OMG-emotion dataset [5]、Aff-Wild [69]、Aff-Wild2 [29, 30]などの最近のデータセットは、連続的な評価を介して感情状態を収集し始めており、インターネット上のビデオ、または「in-the-wild」と呼ばれるビデオを活用している。ただし、これらのデータセットにはコンテキスト情報が不足しており、顔の表情のみに焦点を当てている。フレームはキャラクターや特定の顔で占められている。さらに、前述のデータセットには限られた注釈者しかいない(通常10人未満)。人間の観察者は個人差が大きく、多くのバイアスを抱えているため[12、45、48]、注釈者が限られていると注釈に大きなバイアスが生じる可能性があります。
本研究では、心理学とコンピュータービジョンの両グループに有益な大規模データセットである、コンテキストデータセットにおけるビデオベースの感情と感情の追跡 (VEATIC、/ve"ætIc/) を紹介します。データセットには、ハリウッド映画、ドキュメンタリー、ホームビデオからの 124 本のビデオクリップが含まれており、各フレームの継続的な価値と覚醒度の評価がリアルタイム注釈で示されています。また、データに注釈を付けるために多数の参加者を募集しました。このデータセットに基づいて、各ビデオフレームのコンテキストとキャラクター情報の両方を使用して、選択したキャラクターの感情を自動的に推測するという新しいコンピュータービジョンタスクを提案します。本研究では、このタスクに対する簡単なソリューションも提供します。実験により、この方法の有効性と提案された VEATIC データセットの利点が示されています。一言で言えば、この研究の主な貢献は次のとおりです。
• 私たちは、顔の特徴と文脈的要因の両方を含む感情と感情の追跡のための最初の大規模なビデオデータセットである VEATIC を構築しました。データセットには、各フレームの連続的な感情価と覚醒度の評価が含まれています。
• 注釈者のバイアスを軽減するために、以前のデータセット(通常は 10 人未満)と比較して、より大規模な注釈者(合計 192 人)を採用してデータセットに注釈を付けました。
• キャラクター情報とコンテキスト要因の両方を使用して、各フレームから選択されたキャラクターの覚醒度と価値を予測するためのベースライン モデルを提供します。
この論文はCC 4.0ライセンスの下でarxivで公開されています。