著者:
(1)プラヴィーン・ティルパットゥール、セントラルフロリダ大学
この章では、結論と既存の作業を拡張できる方向性について、それぞれセクション 5.1 とセクション 5.2 で説明します。
この研究では、視覚的特徴と音声的特徴の両方を使用して、ビデオ内の暴力的なコンテンツを検出するシステムの開発が試みられました。この研究で使用されたアプローチは、この分野の以前の研究に触発されていますが、次の点が独自の側面です。(i) さまざまな種類の暴力の検出、(ii) ビデオの視覚的コンテンツを記述するための SentiBank 機能の使用、(iii) Web からの画像を使用して開発された血液検出器と血液モデル、および (iv) ビデオ コーデックからの情報を使用してモーション フィーチャを生成する。ここでは、このシステムの開発に使用されたプロセスの概要を示します。
暴力は物理的な実体ではないため、ビデオ内で暴力を検出するのは簡単な作業ではありません。暴力は視覚的な概念であり、それを検出するには複数の特徴を使用する必要があります。この研究では、MFCC 特徴を使用してオーディオ コンテンツを説明し、Blood、Motion、および SentiBank 特徴を使用して視覚コンテンツを説明します。選択された特徴ごとに SVM 分類器をトレーニングし、個々の分類器スコアを加重合計で組み合わせて、各暴力クラスの最終分類スコアを取得しました。各クラスの重みは、最小 EER となる最適化基準を使用してグリッド検索アプローチを使用して見つけられます。この研究ではさまざまなデータセットが使用されていますが、最も重要なのは VSD データセットです。これは、分類器のトレーニング、分類器の重みの計算、およびシステムのテストに使用されます。
システムのパフォーマンスは、マルチクラスとバイナリ分類という 2 つの異なる分類タスクで評価されます。マルチクラス分類タスクでは、システムはビデオ セグメントに存在する暴力のクラスを検出する必要があります。これは、暴力の存在を検出するよりもはるかに難しいタスクであり、ここで紹介するシステムは、この問題に取り組んだ最初のシステムの 1 つです。バイナリ分類タスクでは、システムは暴力のクラスを見つける必要はなく、暴力の存在を検出するだけです。このタスクでは、マルチクラス分類タスクからの最終的な分類スコアがいずれかの暴力クラスで 0.5 を超える場合、ビデオ セグメントは「暴力」に分類され、それ以外の場合は「暴力なし」に分類されます。マルチクラス分類タスクの結果は完璧にはほど遠く、改善の余地がありますが、バイナリ分類タスクの結果は、MediaEval-2014 の既存のベンチマーク結果よりも優れています。ただし、これらの結果は間違いなく有望です。セクション 5.2 では、現在の作業を拡張できる可能性のある方向について詳細に説明します。
現在の作業を拡張できる方向性は多数あります。1 つの方向性は、既存のシステムのパフォーマンスを向上させることです。そのためには、個々の分類器のパフォーマンスを向上させる必要があります。モーションと血液は、分類器のパフォーマンスを大幅に向上させる必要がある 2 つの特徴です。セクション 4.4 で説明したように、モーション分類器のパフォーマンスを向上させるには、モーション特徴の抽出に使用するアプローチを変更する必要があります。血液の場合、問題は分類器のトレーニングに使用するデータセットにあり、特徴抽出器には関係ありません。トレーニングには、血液を含むフレームが適度に含まれた適切なデータセットを使用する必要があります。これらの改善を行うことが、より優れたシステムを構築するための第一歩となるはずです。今後の作業のもう 1 つの方向性は、このシステムを適応させ、さまざまなアプリケーション用にさまざまなツールを開発することです。たとえば、(i) 特定の入力ビデオから暴力を含むビデオ セグメントを抽出できるツールを開発できます。これは、ビデオのタグ付けに役立ちます。(ii) 同様のツールをペアレンタル コントロール用に開発し、システムを使用して、暴力的なコンテンツの量に応じて映画を評価することができます。今後の取り組みのもう 1 つの方向性は、システムの速度を改善して、セキュリティ カメラのビデオ フィードから暴力をリアルタイムで検出できるようにすることです。このようなシステムを開発するために必要な改善は、簡単なものではありません。
この論文はCC 4.0ライセンスの下でarxivで公開されています。