この論文はCC 4.0ライセンスの下でarxivで公開されています。
著者:
(1)カリフォルニア大学バークレー校のZhihang Renとこれらの著者らは本研究に等しく貢献した(電子メール:[email protected])。
(2)ジェファーソン・オルテガ、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(電子メール:[email protected])。
(3)Yifan Wang、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(Eメール:[email protected])。
(4)カリフォルニア大学バークレー校のZhimin Chen氏(Eメール:[email protected])
(5)ユンフイ・グオ、テキサス大学ダラス校(Eメール:[email protected])
(6)ステラ・X・ユー、カリフォルニア大学バークレー校およびミシガン大学アナーバー校(Eメール:[email protected])
(7)デイビッド・ホイットニー、カリフォルニア大学バークレー校(Eメール:[email protected])。
このセクションでは、ビデオベースの感情および感情のコンテキスト データセット ( VEATIC ) を紹介します。まず、すべてのビデオ クリップの取得方法について説明します。次に、データ注釈の手順と前処理プロセスを示します。最後に、重要なデータセットの統計を報告し、データ分析結果を視覚化します。
データセットで使用されているすべてのビデオ クリップは、オンライン ビデオ共有 Web サイト (YouTube) から取得され、クリップ内のキャラクターの感情/影響は時間の経過とともに変化するという基準でビデオ クリップが選択されました。合計で、VEATIC データセットには 124 のビデオ クリップ (ハリウッド映画のクリップ 104 個、ホーム ビデオのクリップ 15 個、ドキュメンタリーまたはリアリティ TV 番組のクリップ 5 個) が含まれています。VEATIC データセットのサンプル フレームは (図 2) に示されています。これらのビデオには、対話するキャラクターが 0 人以上含まれています。ビデオからすべてのサウンドが削除されているため、観察者は対象キャラクターの感情を追跡する際に視覚情報のみにアクセスできます。
データセット内のビデオの注釈付けには合計 192 人の観察者が参加しました。参加者全員がカリフォルニア大学バークレー校の機関審査委員会のガイドラインと規則に従って署名入りの同意書を提出し、すべての実験手順が承認されました。
参加者はデータセット内の合計 124 本のビデオを視聴し、評価しました。観察者の疲労を防ぐために、注釈付けの手順を 1 時間 30 分の注釈付けセッション 2 つに分けました。参加者がビデオに注釈を付ける前に、Bradley と Lang (1999) [6] によって提供された評価に従って、グリッドのさまざまな場所にラベル付けされた感情の例を含む、価数-覚醒の感情評価グリッドの印刷バージョンが参加者に示されました。注釈者は、後で注釈付けプロセスで使用する寸法とサンプル単語の位置に慣れるように指示されました。参加者が感情評価グリッドに慣れた後、2 分間の練習注釈を完了し、ビデオ内の対象キャラクターの価数と覚醒を継続的に追跡しました (図 3b)。注釈者は、2D 価数-覚醒グリッド内でマウス ポインターをリアルタイムで継続的に動かすことで、ビデオ内の対象キャラクターの価数と覚醒を追跡するように指示されました。グリッドは、[-1, 1] の範囲で参加者の価と覚醒度の評価にマッピングされます。潜在的な運動バイアスを制御するために、参加者間の価と覚醒度の次元を釣り合わせました。注釈者の半数は、x 軸に価、y 軸に覚醒を配置し、残りの半数は次元を反転して、x 軸に覚醒、y 軸に価を配置しました。観察者は練習注釈セッションを終了すると、データセット内のビデオに注釈を付け始めました。
参加者が注釈付けを始める前に、参加者には対象キャラクターが丸で囲まれた画像(図 3a)が示され、ビデオが始まったらどのキャラクターを追跡するかが参加者に通知されます。次に、参加者はリアルタイムでビデオクリップに注釈を付けました。各ビデオ注釈の最後に、参加者は 1~5 の個別のリッカート尺度を使用して、ビデオクリップに対する親しみ度を報告しました。この尺度は、「親しみがない」、「少し親しみがある」、「やや親しみがある」、「中程度に親しみがある」、「非常に親しみがある」の範囲です。参加者は、クリップを見ながらの楽しさのレベルについても質問され、1(楽しくない)から 9(非常に楽しい)までの 1~9 の個別のリッカート尺度を使用して評価されました。さらに、参加者が退屈しないように、124 のビデオクリップはすべて 2 つのセッションに分割されました。参加者は、2 つのセッションで別々にビデオクリップを評価しました。
各トライアル中、参加者がマウス ポインターを 1 か所に置いていた時間を追跡することで、参加者が注意を払っていないかどうかを評価しました。時間が 10 秒を超えると、感情評価グリッドが変動し始め、参加者に対象キャラクターの感情を追跡し続けるよう促しました。データセットにノイズの多い注釈者がいるかどうかを評価するために、各注釈者と各ビデオの 1 つを除外したコンセンサス (現在の注釈者を除く応答の集計) との間のピアソン相関を計算して、各注釈者のコンセンサスへの同意を計算しました。1 つを除外したコンセンサスを使用したすべてのビデオで相関が .2 未満の注釈者は 1 人の注釈者のみであることがわかりました。しきい値を下回った注釈者は 1 人だけだったので、ビデオへの重要な代替注釈を削除しないように、その注釈者をデータセットに残すことにしました。
図 4 は、2 つの異なるビデオ クリップの平均評価とキー フレームのサンプルを示しています。明らかに、ここでは感情価と覚醒の両方に幅広い評価があります。さらに、空間的および/または時間的なコンテキスト情報が感情認識タスクで重要な役割を果たすことがわかります。感情価の例 (上の図) では、戦闘の時間的および/または空間的コンテキスト情報がなければ、最後のフレーム (黄色) のキャラクター (女性) が驚くほど幸せなのか、驚いているのかを認識するのは困難です。覚醒の例 (下の図) では、選択したキャラクターの顔がなくても、観察者は強いコンテキストを介してキャラクターの覚醒を簡単かつ一貫して推測できます。
図 5 は、データセット内の 1 つのビデオに対するすべての参加者のサンプルの価性と覚醒度の評価を示しています。個々の被験者の評価 (灰色の線) は、価性と覚醒度の両方の評価において、参加者全体のコンセンサス評価 (緑色の線) に従っています。緑色のコンセンサス線の周囲に重なり合う濃い灰色の線は、幅広い観察者間の一致を示しています。さらに、各ビデオの観察者間の標準偏差を計算することにより、観察者の反応がビデオ間でどのように異なるかを調べました。価性と覚醒度の両方の次元における観察者間の分散は小さく、価性の平均標準偏差は µ = 0.248、中央値は 0.222、覚醒の平均標準偏差は µ = 0.248、中央値は 0.244 であり、EMOTIC [32] の価性と覚醒度の評価分散と匹敵することがわかりました。
すべてのビデオにおける感情価と覚醒度の分布を図 6 に示します。個々の参加者の評価は感情価と覚醒度の両方の次元にわたって完全に分布しており、VEATIC データセットの多様性が強調されていることがわかりました。また、参加者間で各ビデオの親しみやすさと楽しさの評価も収集しました (図 7 に表示)。ビデオ ID 0 ~ 97 の親しみやすさの平均評価は 1.61 であったため、観察者はデータセットで使用されているビデオに馴染みがなかったことがわかりました。さらに、観察者はビデオ ID 0 ~ 97 でビデオを視聴しながらの楽しさを平均 4.98 と評価しており、観察者はビデオ クリップの視聴と注釈付けを適度に楽しんでいたことがわかります。ビデオ ID 98 ~ 123 の親しみやすさと楽しさの評価は収集されていません。これらのビデオの注釈はデータ収集中の早い時点で収集されており、これらの評価は含まれていませんでした。
以下の表 2 は、VEATIC データセットの基本統計をまとめたものです。簡単に言うと、VEATIC には長いビデオ クリップ時間と、幅広いコンテキストと感情状態をカバーするさまざまなビデオ ソースが含まれています。さらに、以前のデータセットと比較して、評価に注釈を付けるためにはるかに多くの参加者を募集しました。
この論文はCC 4.0ライセンスの下でarxivで公開されています。