この論文はCC 4.0ライセンスの下でarxivで公開されています。
著者:
(1)カリフォルニア大学バークレー校のZhihang Renとこれらの著者らは本研究に等しく貢献した(電子メール:[email protected])。
(2)ジェファーソン・オルテガ、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(電子メール:[email protected])。
(3)Yifan Wang、カリフォルニア大学バークレー校およびこれらの著者らは、本研究に等しく貢献した(Eメール:[email protected])。
(4)カリフォルニア大学バークレー校のZhimin Chen氏(Eメール:[email protected])
(5)ユンフイ・グオ、テキサス大学ダラス校(Eメール:[email protected])
(6)ステラ・X・ユー、カリフォルニア大学バークレー校およびミシガン大学アナーバー校(Eメール:[email protected])
(7)デイビッド・ホイットニー、カリフォルニア大学バークレー校(Eメール:[email protected])。
VEATIC データセットの利点は、各ビデオに複数の注釈者がいることです。どのビデオでも注釈者の最小数は 25、最大数は 73 です。感情の認識は主観的であり、観察者の判断は人によって異なる場合があります。これまでに公開された感情データセットの多くは注釈者の数が非常に少なく、注釈者の数が 1 桁 (n < 10) しかないこともよくあります。注釈者がこれほど少ないと、観察者間のばらつきが大きくなるため問題があります。これを示すために、データセット内の各ビデオの平均評価を、5 人の注釈者とすべての注釈者でランダムに抽出した場合に、どのように変化するかを計算しました。このプロセスを各ビデオで 1000 回繰り返し、再計算された平均評価の標準偏差を計算しました。図 12a は、各ビデオで 5 人の注釈者とすべての注釈者を使用した場合に、ビデオ全体のコンセンサス評価の標準偏差がどのように変化するかを示しています。この分析では、注釈者が増えるとコンセンサス評価の標準偏差が大幅に小さくなり、動画内の真実の感情をより正確に表現できるようになることが示されています。
さらに、各ビデオの観察者間の標準偏差を計算することで、観察者の反応がビデオ間でどのように異なるかを調査しました。図12bは、ビデオ間の標準偏差を示しています。価性と覚醒の両方の次元の標準偏差は小さく、価性の平均標準偏差はµ = 0.248、中央値は0.222、覚醒の平均標準偏差はµ = 0.248、中央値は0.244であり、EMOTIC [32]の価性と覚醒の評価分散と匹敵することがわかりました。
この論文はCC 4.0ライセンスの下でarxivで公開されています。