著者:
(1)プラヴィーン・ティルパットゥール、セントラルフロリダ大学
近年、Facebook や Youtube などのソーシャル ネットワーキングや動画共有 Web サイトにアップロードされる動画コンテンツの量が飛躍的に増加しています。その結果、子供が Web 上の成人向けコンテンツや暴力的なコンテンツにさらされるリスクも増加しています。この問題に対処するために、本研究では動画内の暴力的なコンテンツを自動的に検出するアプローチを提案します。ここでは、動画内に存在する暴力のカテゴリを検出する新しい試みも行われます。ハリウッド映画と Web の動画の両方から暴力を自動的に検出できるシステムは、ペアレンタル コントロールだけでなく、映画の評価、ビデオ監視、ジャンル分類などに関連するアプリケーションにも非常に役立ちます。
ここでは、音声と視覚の両方の特徴を使用して暴力を検出します。MFCC 特徴は音声キューとして使用されます。血液、動き、および SentiBank 特徴は視覚キューとして使用されます。バイナリ SVM 分類器は、これらの各特徴に基づいて暴力を検出するようにトレーニングされます。分類スコアの加重合計を使用した後期融合が実行され、システムがターゲットとする各暴力クラスの最終分類スコアが取得されます。各暴力クラスの最適な重みを決定するために、グリッド検索に基づくアプローチが採用されています。公開されているデータセット、主に暴力シーン検出 (VSD) は、分類器のトレーニング、重みの計算、およびテストに使用されます。システムのパフォーマンスは、マルチクラス分類とバイナリ分類の 2 つの分類タスクで評価されます。バイナリ分類で得られた結果は、MediaEval-2014 のベースライン結果よりも優れています。
この論文はCC 4.0ライセンスの下でarxivで公開されています。