paint-brush
動画における暴力検出: 関連研究@kinetograph

動画における暴力検出: 関連研究

長すぎる; 読むには

この論文では、研究者らは、分類に音声と視覚の手がかりを利用して、ビデオ内の暴力を自動的に検出するシステムを提案しています。
featured image - 動画における暴力検出: 関連研究
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


著者:

(1)プラヴィーン・ティルパットゥール、セントラルフロリダ大学

リンク一覧

2. 関連研究

暴力検出は、活動認識のサブタスクであり、ビデオから暴力行為を検出します。これは、マルチメディア イベント検出の一種と考えることもできます。この問題に対処するために、すでにいくつかのアプローチが提案されています。これらの提案されたアプローチは、次の 3 つのカテゴリに分類できます。(i) 視覚的特徴のみを使用するアプローチ。(ii) 音声的特徴のみを使用するアプローチ。(iii) 音声と視覚的特徴の両方を使用するアプローチ。ここで興味深いのは、ビデオと音声の両方を使用する 3 番目のカテゴリです。この章では、これらの各カテゴリに属する以前のアプローチのいくつかの概要を示します。

2.1. オーディオとビデオの使用

音声と視覚の両方の手がかりを使って暴力を検出する最初の試みは、ナムらによるものです。[41]。彼らの研究では、音声と視覚の両方の特徴を利用して暴力的なシーンを検出し、インデックスを生成して、ビデオのコンテンツベースの検索を可能にしています。ここでは、各ショットの時空間動的アクティビティシグネチャを抽出し、暴力的か非暴力的かに分類します。この時空間動的アクティビティの特徴は、ショット内に存在する動的動きの量に基づいています。


ショット内のフレーム間の空間的な動きが大きいほど、特徴はより重要になります。このアプローチの背後にある理由は、ほとんどのアクション シーンでは、人や物体の急速で大きな動きが伴うからです。ショットの時空間アクティビティ特徴を計算するために、ショットからモーション シーケンスを取得し、ショットの長さで正規化して、長さが短く、フレーム間の空間的な動きが大きいショットのみがアクティビティ特徴の値が高くなるようにします。


これとは別に、銃声や爆発による炎を検出するには、フレーム間のピクセルの強度値の突然の変化を調べます。カメラのフラッシュライトによる強度の変化などの誤検出を排除するために、黄色、オレンジ、赤など炎の色に近い色値を持つ定義済みのカラーテーブルが使用されます。同様に、暴力的なシーンのほとんどに共通する血を検出するには、フレーム内のピクセルの色を、血のような色を含む定義済みのカラーテーブルと照合します。これらの視覚的特徴だけでは、暴力を効果的に検出するには不十分です。そのため、音声的特徴も考慮されます。


オーディオ信号のエネルギー レベルの突然の変化は、オーディオ キューとして使用されます。エネルギー エントロピーはフレームごとに計算され、この値の突然の変化は、爆発や銃声などの暴力的なイベントを識別するために使用されます。オーディオとビジュアルの手がかりは時間同期されており、暴力を含むショットをより高い精度で取得します。この論文の主な貢献の 1 つは、暴力を検出するためにオーディオとビジュアルの両方の手がかりが必要であることを強調したことです。


Gong ら [27] も、映画内の暴力を検出するために視覚的および聴覚的手がかりの両方を使用しました。暴力を検出するための 3 段階のアプローチが説明されています。最初の段階では、ビデオ内の各ショットに対して低レベルの視覚的および聴覚的特徴が抽出されます。これらの特徴は、潜在的に暴力的なコンテンツを含む候補ショットを検出するように分類器をトレーニングするために使用されます。次の段階では、高レベルのオーディオ効果を使用して候補ショットを検出します。この段階では、高レベルのオーディオ効果を検出するために、パワー スペクトル、ピッチ、MFCC (メル周波数ケプストラム係数)、ハーモニシティ プロミネンスなどの低レベルのオーディオ特徴を使用して、オーディオ効果の各カテゴリに対して SVM 分類器がトレーニングされます (Cai ら [7])。各 SVM の出力は、[0,1] の間の連続値であるシグモイドへの確率マッピングとして解釈できます (Platt ら [46])。最後の段階では、最初の 2 つの段階の確率的出力がブースティングを使用して結合され、ショットの最終的な暴力スコアが最初の 2 つの段階のスコアの加重合計として計算されます。


これらの重みは検証データセットを使用して計算され、平均精度を最大化することが期待されます。Gongら[27]の研究は、普遍的な映画製作ルールに従った映画での暴力の検出のみに焦点を当てています。たとえば、アクションシーンでのテンポの速い音です。暴力的なコンテンツは、爆発や銃声など、暴力に関連するテンポの速いシーンやオーディオイベントを検出することで識別されます。使用されたトレーニングデータとテストデータは、多くの暴力シーンを含む4つのハリウッドアクション映画のコレクションからのものです。このアプローチは良い結果を生み出しましたが、いくつかの映画製作ルールに従った映画でのみ暴力を検出するように最適化されており、Facebook、YoutubeなどのWebサイトにユーザーがアップロードしたビデオでは機能しないことに注意してください。


Lin と Wang [38] の研究では、ビデオシーケンスがショットに分割され、各ショットのオーディオとビデオの両方の特徴が暴力的か非暴力的かに分類され、出力はコトレーニングを使用して結合されます。修正された pLSA アルゴリズム (Hofmann [30]) を使用して、オーディオセグメントから暴力を検出します。オーディオセグメントは、それぞれ 1 秒のオーディオクリップに分割され、パワースペクトル、MFCC、ピッチ、ゼロクロスレート (ZCR) 比、ハーモニシティプロミネンスなどの低レベルの特徴を含む特徴ベクトルによって表されます (Cai ら [7])。これらのベクトルは、オーディオ語彙を示すクラスターセンターを取得するためにクラスター化されます。次に、各オーディオセグメントは、この語彙を使用してオーディオドキュメントとして表されます。期待値最大化アルゴリズム (Dempster ら [20]) を使用して、後でオーディオセグメントの分類に使用されるオーディオモデルを適合させます。ビデオセグメントで暴力を検出するために、3 つの一般的な視覚的暴力イベント、つまり動き、炎/爆発、血が使用されます。動きの強度は、動きの速い領域を検出し、各フレームの動きの特徴を抽出するために使用され、その後、フレームを暴力的か非暴力的かに分類するために使用されます。カラーモデルとモーションモデルは、フレーム内の炎と爆発を検出し、分類するために使用されます。同様に、カラーモデルと動きの強度は、血を含む領域を検出するために使用され、フレームの定義済み値より大きい場合は、暴力的であると分類されます。ビデオセグメントの最終的な暴力スコアは、上記の3つの個別のスコアの加重合計によって得られます。ここで使用される特徴は、Nam et al. [41]が使用した特徴と同じです。ビデオとオーディオストリームからの分類スコアを組み合わせるために、共同トレーニングが使用されます。トレーニングとテストには、5つのハリウッド映画で構成されるデータセットが使用され、暴力的なシーンの検出で約0.85の精度と約0.90の再現率が得られました。この研究でも、映画での暴力検出のみを対象としており、Webで利用可能なビデオは対象としていません。しかし、結果は、動きや血などの視覚的な特徴が暴力検出に非常に重要であることを示唆しています。

2.2. オーディオまたはビデオの使用

これまでに述べたアプローチはすべて、音声と視覚の両方の手がかりを使用していますが、暴力を検出するためにビデオまたは音声のいずれかを使用するものや、殴り合いなどの特定の種類の暴力のみを検出しようとするものもいくつかあります。次に、これらのアプローチの概要を簡単に説明します。


動画の意味的コンテキストを検出するために音声のみを使用した数少ない研究の1つは、Chengらによるものです。[11]では、ガウス混合モデルと隠れマルコフモデルに基づく階層的アプローチを使用して、銃声、爆発、車のブレーキを認識しています。Dattaら[14]は、ほとんどのアプローチが行うシーンレベルではなくオブジェクトレベルで暴力を分析することにより、殴り合い、蹴り、物で殴るなどのみを含む動画内の人対人の暴力を検出しようとしました。ここでは、シーン内の移動オブジェクトが検出され、人物モデルを使用して人物を表すオブジェクトのみが検出されます。これにより、人の手足の動きの軌跡と方向情報が、人対人の喧嘩の検出に使用されます。


Clarin ら [12] は、映画内の暴力を検出するために DOVE という自動化システムを開発した。ここでは、血痕のみを使用して暴力シーンを検出する。システムは各シーンからキーフレームを抽出し、訓練された自己組織化マップに渡して、ピクセルに皮膚、血痕、または皮膚以外/血痕以外のラベルを付ける。次に、ラベル付けされたピクセルは接続コンポーネントを介してグループ化され、暴力の可能性がないか観察される。皮膚と血痕のコンポーネントを含むピクセル領域に大きな変化がある場合、そのシーンは暴力的であると見なされる。喧嘩検出に関するもう 1 つの研究は、Nievas ら [42] によるもので、Bag-of-Words フレームワークが、アクション記述子の Space-Time Interest Points (STIP - Laptev [37]) および Motion Scale-invariant feature transform (MoSIFT - Chen and Hauptmann [10]) とともに使用されている。著者らは、喧嘩と喧嘩以外の 2 つのグループに分けられた 1,000 本のビデオで構成される新しいビデオデータセットを導入した。各グループには 500 本のビデオがあり、各ビデオの長さは 1 秒である。このデータセットを使った実験では、アクション映画の戦闘シーンを含むデータセットで 90% の精度が得られました。


Deniz ら [21] は、極端な加速パターンを主な特徴としてビデオ内の暴力を検出する新しい方法を提案しました。この方法は、最先端のアクション認識システムよりも 15 倍高速で、格闘シーンの検出精度も非常に高いです。このアプローチは、精度だけでなく速度も重要なリアルタイムの暴力検出システムで非常に役立ちます。このアプローチでは、2 つの連続するフレームのパワー スペクトルを比較して突然の動きを検出し、動きの量に応じて、シーンが暴力的か非暴力的かに分類されます。この方法では、動きを検出するために特徴追跡を使用しないため、ぼやけの影響を受けません。Hassner ら [28] は、混雑したシーンでの暴力をリアルタイムで検出するアプローチを導入しました。この方法では、時間の経過に伴うフロー ベクトルの大きさの変化を考慮します。短いフレーム シーケンスのこれらの変化は、暴力フロー (ViF) 記述子と呼ばれます。これらの記述子は、線形サポート ベクター マシン (SVM) を使用して暴力シーンと非暴力シーンを分類するために使用されます。この方法はフレーム間のフロー情報のみを使用し、高レベルの形状と動作の分析を行わないため、リアルタイムで動作できます。この研究のために、著者らは YouTube から暴力的な群衆行動を含むビデオをダウンロードして独自のデータセットを作成しました。


これらの研究はすべて、ビデオから暴力を検出するために異なるアプローチを使用しており、トレーニングとテストには独自のデータセットを使用しています。それらはすべて独自の暴力の定義を持っています。これは、独立したベースラインデータセットと暴力の共通の定義が不足しているという、暴力検出の大きな問題を示しています。これらがなければ、異なるアプローチの比較は無意味です。


この問題に対処するため、Demartyら[16]は、マルチメディアベンチマークイニシアチブMediaEval-2011 [1]の一環として、映画内の暴力シーンの自動検出ベンチマークを発表しました。このベンチマークは、暴力の共通定義と評価プロトコルおよびメトリクスを備えた一貫性のある実質的なデータセットを提供するため、非常に有用です。提供されたデータセットの詳細については、セクション4.1で詳しく説明します。ビデオ内の暴力認識に関する最近の研究ではこのデータセットが使用されており、そのいくつかについて次に詳細を示します。

2.3. MediaEval VSDの使用

Acarら[1]は、映画内の暴力検出に1クラスおよび2クラスのSVMを使用して、教師あり方式で視覚的特徴と音声的特徴を統合するアプローチを提案した。映画のビデオショットから低レベルの視覚的および音声的特徴を抽出し、その後、早期融合方式で組み合わせてSVMをトレーニングする。音声コンテンツを説明するためにMFCC特徴を抽出し、視覚コンテンツにはSIFT(スケール不変特徴変換-Lowe[39])ベースのBag-of-Wordsアプローチを使用する。


Jiangら[33]は、局所的なパッチ軌跡の外観と動きから得られる一連の特徴に基づいて暴力を検出する方法を提案した(Jiangら[34])。これらのパッチ軌跡とともに、SIFT、STIP、MFCCなどの他の特徴が抽出され、さまざまなカテゴリの暴力を検出するためのSVM分類器のトレーニングに使用されます。スコアと特徴のスムージングを実行して精度を高めます。


Lam et al. [36] は、MediaEval が提供するデータセットと評価プロトコルを使用して、暴力シーン検出タスクにおける低レベルのオーディオ/ビジュアル特徴のパフォーマンスを評価しました。この研究では、ローカルおよびグローバルのビジュアル特徴の両方が、モーションおよび MFCC オーディオ特徴とともに使用されています。これらの特徴はすべて、ショット内の各キーフレームに対して抽出され、そのショットの単一の特徴ベクトルを形成するためにプールされます。SVM 分類器は、この特徴ベクトルに基づいてショットが暴力的か非暴力的かに分類するようにトレーニングされます。Eyben et al. [23] は、暴力を検出するために、大規模なセグメント特徴抽出とオーディオビジュアル分類を適用しました。オーディオ特徴抽出は、オープンソースの特徴抽出ツールキット openSmile(Eyben および Schuller [22]) を使用して行われます。色相-彩度-値 (HSV) ヒストグラム、オプティカルフロー分析、ラプラシアンエッジ検出などの低レベルのビジュアル特徴が計算され、暴力検出に使用されます。分類には線形 SVM 分類器が使用され、融合には単純なスコア平均化が使用されます。

2.4. まとめ

まとめると、上で説明したほぼすべての方法は、さまざまなオーディオとビジュアルの特徴を使用して映画内の暴力を検出しようとしますが、監視カメラやその他のリアルタイムビデオシステムからのビデオデータを使用する方法はわずか2、3個しかありません [Nievas et al. [42]、Hassner et al. [28]]。また、これらすべての研究が同じデータセットを使用しているわけではなく、それぞれが独自の暴力の定義を持っていることもわかります。2011年に暴力シーン検出 (VSD) 用の MediaEval データセットが導入されたことで、この問題は解決しました。データセットの最新バージョンである VSD2014 には、ハリウッド映画とは別に Youtube のビデオコンテンツも含まれており、研究者がユーザー生成のビデオコンテンツでアプローチをテストすることを奨励しています。

2.5. 貢献

第 3 章で提案されているアプローチは、第 2 章で説明した暴力検出に関する以前の研究に基づいています。提案されているアプローチでは、音声と視覚の両方の手がかりを使用して暴力を検出します。MFCC の特徴は音声コンテンツの説明に使用され、血液、動き、SentiBank の特徴はビデオ コンテンツの説明に使用されます。SVM 分類器はこれらの各特徴を分類するために使用され、後期融合は分類器スコアを融合するために適用されます。


このアプローチは、暴力検出に関する以前の研究に基づいていますが、その重要な貢献は次のとおりです。(i) 異なる種類の暴力の検出。以前の暴力検出に関する研究は、ビデオ内の暴力の存在を検出することのみに集中していました。この提案されたアプローチは、この問題に取り組む最初のアプローチの 1 つです。(ii) ビデオの視覚的コンテンツを説明するために SentiBank 機能を使用する。SentiBank は、画像内の感情を説明するために使用される視覚的特徴です。この機能は、以前はビデオ内のアダルト コンテンツを検出するために使用されていました (Schulze ら [52])。この研究では、暴力的なコンテンツを検出するために初めて使用されています。(iii) Web からの画像を使用して生成された 3 次元カラー モデルを使用して、血液を表すピクセルを検出します。このカラー モデルは非常に堅牢で、血液の検出で非常に優れた結果を示しています。(iv) ビデオ コーデックに埋め込まれた情報を使用してモーション フィーチャを生成します。このアプローチは、各ピクセルのモーション ベクトルが事前に計算され、ビデオ コーデックに格納されるため、他のアプローチと比較して非常に高速です。この提案されたアプローチの詳細については、次の章、第 3 章で説明します。



この論文はCC 4.0ライセンスの下でarxivで公開されています


[1] http://www.multimediaeval.org