著者:
(1)プラヴィーン・ティルパットゥール、セントラルフロリダ大学
この章では、ビデオ内の暴力的なコンテンツを検出するシステムのパフォーマンスを評価するために実施された実験の詳細を示します。最初のセクションでは、この作業に使用されたデータセットについて説明し、次のセクションでは実験のセットアップについて説明し、最後のセクションでは、実行された実験の結果を示します。
この研究では、複数のソースからのデータを使用して、オーディオとビジュアルの特徴を抽出し、分類器をトレーニングし、システムのパフォーマンスをテストしました。ここで使用される2つの主要なデータセットは、暴力シーンデータセット(VSD)とホッケーファイトデータセットです。これら2つのデータセットとは別に、Google Images[1]などのWebサイトからの画像も使用されます。これらの各データセットと、この研究でのそれらの使用については、次のセクションで詳しく説明します。
暴力シーンデータセット(VSD)は、ハリウッド映画やウェブ上のビデオの暴力シーンを検出するための注釈付きデータセットです。これは、YouTube[2]などのウェブサイトの映画やビデオの身体的暴力を対象としたコンテンツベースの検出技術の開発用に特別に設計された、公開されているデータセットです。VSDデータセットは、データセットの検証フレームワークとして機能し、暴力検出タスクの最先端のベースラインを確立するMediaEvalベンチマークイニシアチブのフレームワークでDemartyら[15]によって最初に導入されました。データセットの最新バージョンVSD2014は、いくつかの点で以前のバージョン(Demartyら[19]、Demartyら[18]、およびDemartyら[17])を大幅に拡張したものです。まず、映画やユーザー生成ビデオに注釈を付けるために、8歳の子供に見せないような身体的暴力に焦点を当てることで、対象となる現実世界のシナリオに近い暴力定義が使用されています。次に、データセットには31本のハリウッド映画の相当なセットが含まれています。 3 番目に、VSD2014 には、暴力を検出するために開発されたシステムの一般化機能をテストするために YouTube から取得した 86 個の Web ビデオ クリップとそのメタデータが含まれています。4 番目に、最先端のオーディオ ビジュアル コンテンツ記述子が含まれています。データセットは、(i) ハリウッド映画と (ii) Web で共有されているユーザー生成ビデオのコレクションに対して、暴力シーンと暴力関連の概念の注釈を提供します。注釈に加えて、事前に計算されたオーディオとビジュアルの特徴、およびさまざまなメタデータが提供されます。
VSD2014 データセットは、ハリウッド: 開発、ハリウッド: テスト、YouTube: 一般化という 3 つのサブセットに分かれています。3 つのサブセットの概要と、継続時間、暴力シーンの割合 (フレームごとのパーセンテージ)、暴力シーンの平均長さなどの基本統計については、表 4.1 を参照してください。VSD2014 データセットのコンテンツは、映画/ビデオ、機能、注釈の 3 つのタイプに分類されます。
データセットに含まれるハリウッド映画は、さまざまなジャンルから選ばれ、含まれる暴力の種類も多様です。このデータセットを作成するために、非常に暴力的な映画からほとんど暴力的な内容のない映画までが選択されています。選択された映画には、さまざまなタイプの暴力も含まれています。たとえば、プライベート・ライアンなどの戦争映画には、多数の人々が関与する特定の銃撃戦や戦闘シーンが含まれており、多数の特殊効果を含む大音量で密度の高いオーディオ ストリームが含まれています。ボーン・アイデンティティーなどのアクション映画には、おそらく手と手をつなぐ、数人のみの参加者による戦闘シーンが含まれています。アルマゲドンなどの災害映画では、都市全体の破壊が示され、大規模な爆発が含まれています。これらに加えて、完全に非暴力的な映画もいくつかデータセットに追加され、そのようなコンテンツに対するアルゴリズムの動作を研究しています。著作権の問題により実際の映画をデータセットで提供できないため、ハリウッド: 開発セットの 24 とハリウッド: テスト セットの 7 の計 31 本の映画の注釈が提供されています。YouTube: 一般化セットには、クリエイティブ コモンズ ライセンスの下で YouTube で共有されているビデオ クリップが含まれています。データセットには、MP4 形式の合計 86 個のクリップが含まれています。ビデオ識別子、公開日、カテゴリ、タイトル、作成者、アスペクト比、期間などのビデオ メタデータとともに、XML ファイルとして提供されます。
このデータセットでは、オーディオおよびビジュアル記述子の共通セットが提供されます。振幅エンベロープ (AE)、二乗平均平方根エネルギー (RMS)、ゼロ交差率 (ZCR)、帯域エネルギー比 (BER)、スペクトル重心 (SC)、周波数帯域幅 (BW)、スペクトルフラックス (SF)、メル周波数ケプストラム係数 (MFCC) などのオーディオ機能は、ビデオフレームごとに提供されます。オーディオのサンプリングレートは 44,100 Hz で、ビデオは 25 fps でエンコードされているため、これらの機能を計算するには長さが 1,764 オーディオサンプルのウィンドウが考慮され、ウィンドウごとに 22 MFCC が計算されますが、その他の機能はすべて 1 次元です。データセットで提供されるビデオ機能には、色命名ヒストグラム (CNH)、色モーメント (CM)、ローカルバイナリパターン (LBP)、方向勾配ヒストグラム (HOG) などがあります。オーディオ機能とビジュアル機能は、HDF5 形式に対応する Matlab バージョン 7.3 MAT ファイルで提供されます。
VSD2014 データセットには、すべての暴力シーンのバイナリ アノテーションが含まれています。シーンは開始フレームと終了フレームで識別されます。ハリウッド映画と YouTube 動画のこれらのアノテーションは、複数の人間の評価者によって作成され、その後、一定の一貫性を確保するためにレビューおよびマージされます。アノテーションされた各暴力セグメントには、可能な限り 1 つのアクションのみが含まれます。異なるアクションが重複している場合は、セグメントがマージされます。これは、アノテーション ファイルに「複数のアクション シーン」というタグを追加することで示されます。身体的暴力を含むセグメントのバイナリ アノテーションに加えて、アノテーションには、ハリウッド: 開発セットの 17 本の映画の高レベル コンセプトも含まれます。特に、7 つのビジュアル コンセプトと 3 つのオーディオ コンセプトがアノテーションされ、暴力/非暴力アノテーションに使用されるのと同様のアノテーション プロトコルが採用されています。これらのコンセプトは、視覚モダリティの場合、血、戦い、火、銃、冷たい武器、カーチェイス、および残酷なシーンの存在であり、音声モダリティの場合、銃声、爆発、および叫び声の存在です。
このデータセットのより詳細な説明はSchedl et al. [51]によって提供されており、各暴力クラスの詳細についてはDemarty et al. [19]を参照してください。
このデータセットはNievasら[42]によって導入され、特に喧嘩検出システムの評価用に作成されています。このデータセットは2つの部分で構成されており、最初の部分(「ホッケー」)は解像度720×576ピクセルの1,000クリップで構成され、ナショナルホッケーリーグ(NHL)のホッケーの試合から抽出された500の喧嘩と500の喧嘩以外の2つのグループに分かれています。各クリップは50フレームに制限され、解像度は320×240に下げられています。2番目の部分(「映画」)は200のビデオクリップ、100の喧嘩と100の喧嘩以外で構成されており、喧嘩はアクション映画から抽出され、喧嘩以外のビデオは公開されているアクション認識データセットから抽出されています。形式と内容の両方が比較的均一だったホッケーデータセットとは異なり、これらのビデオはより多様なシーンを描写し、異なる解像度でキャプチャされました。 2つのデータセットのビデオから戦闘を示すフレームの一部については、図4.1を参照してください。このデータセットはオンラインでダウンロードできます[3]。
Google の画像は、血液クラスと非血液クラスのカラー モデル (セクション 3.1.1.2) の開発に使用され、ビデオの各フレームの血液特徴記述子の抽出に使用されます。血液を含む画像は、「血まみれの画像」、「血まみれのシーン」、「出血」、「本物の血しぶき」などの検索語を使用して Google 画像検索 1 からダウンロードされます。同様に、血液を含まない画像は、「自然」、「春」、「皮膚」、「車」などの検索語を使用してダウンロードされます。
検索語を指定して Google から画像をダウンロードするユーティリティは、Beautiful Soup ライブラリ (Richardson [48]) を使用して Python で開発されました。各クエリに対して、応答には約 100 枚の画像が含まれており、そのうち最初の 50 枚のみがダウンロード用に選択され、ローカル ファイル ディレクトリに保存されました。血液クラスと非血液クラスの両方を合わせて、合計で約 1,000 枚の画像がダウンロードされました。ダウンロードされた画像の平均寸法は 260 × 193 ピクセルで、ファイル サイズは約 10 キロバイトです。この研究で使用したサンプル画像の一部については、図 3.3 を参照してください。
このセクションでは、実験のセットアップの詳細と、システムのパフォーマンスを評価するために使用されたアプローチについて説明します。次の段落では、データセットの分割について説明し、その後の段落では評価手法について説明します。
前のセクション 4.1 で述べたように、このシステムでは複数のソースのデータが使用されます。最も重要なソースは VSD2014 データセットです。これは、さまざまな暴力カテゴリの注釈付きビデオデータを提供する唯一の公開データセットであり、このデータセットをこのシステムの開発に使用する主な理由です。前のセクション 4.1.1 で説明したように、このデータセットには、ハリウッド: 開発、ハリウッド: テスト、YouTube: 一般化の 3 つのサブセットが含まれています。この作業では、3 つのサブセットすべてが使用されます。ハリウッド: 開発サブセットは、異なる暴力クラスで注釈が付けられた唯一のデータセットです。24 本のハリウッド映画で構成されるこのサブセットは、3 つの部分に分割されています。12 本の映画 (エラゴン、ファンタスティック・フォー 1、ファーゴ、ファイト・クラブ、ハリー・ポッター 5、アイ・アム・レジェンド、インデペンデンス・デイ、リーガル・ブロンド、レオン、ミッドナイト・エクスプレス、パイレーツ・オブ・カリビアン、レザボア・ドッグス) で構成される最初の部分は、分類器のトレーニングに使用されます。 7 本の映画 (プライベート・ライアン、ボーン・アイデンティティー、ゴッド・ファーザー、戦場のピアニスト、シックス・センス、ウィッカーマン、オズの魔法使い) で構成される 2 番目の部分は、トレーニングされた分類器をテストし、各暴力タイプの重みを計算するために使用されます。3 本の映画 (アルマゲドン、ビリー・エリオット、いまを生きる) で構成される最後の部分は、評価に使用されます。ハリウッド: テストと YouTube: 一般化のサブセットも評価に使用されますが、タスクは異なります。次の段落では、使用された評価アプローチの詳細を示します。
システムのパフォーマンスを評価するために、2 つの異なる分類タスクが定義されています。最初のタスクでは、システムはビデオ セグメントに存在する特定の暴力カテゴリを検出する必要があります。2 番目のタスクはより一般的なもので、システムは暴力の存在のみを検出する必要があります。これらの両方のタスクでは、異なるデータセットが評価に使用されます。マルチクラス分類タスクである最初のタスクでは、3 つのハリウッド映画 (アルマゲドン、ビリー エリオット、およびいまを生きる) で構成される検証セットが使用されます。このサブセットでは、暴力を含む各フレーム間隔に、存在する暴力のクラスが注釈付けされます。したがって、このデータセットがこのタスクに使用されます。これらの 3 つの映画は、分類子のトレーニング、テスト、または重みの計算には使用されなかったため、システムは完全に新しいデータで評価できます。図 3.1 に示す手順は、ビデオ セグメントが特定の暴力クラスに属する確率を計算するために使用されます。システムからの出力確率とグラウンド トゥルース情報を使用して、ROC (受信者動作特性) 曲線を生成し、システムのパフォーマンスを評価します。
2 番目のタスクはバイナリ分類タスクで、VSD2104 データセットの Hollywood: Test および YouTube: Generalization サブセットが使用されます。Hollywood: Test サブセットは 8 本のハリウッド映画で構成され、YouTube: Generalization サブセットは YouTube の 86 本のビデオで構成されています。これらのサブセットの両方で、暴力を含むフレーム間隔は注釈として提供され、暴力のクラスに関する情報は提供されません。したがって、これらのサブセットがこのタスクに使用されます。このタスクでは、前のタスクと同様に、図 3.1 に示す手順を使用して、ビデオ セグメントが特定の暴力のクラスに属する確率を計算します。各ビデオ セグメントについて、いずれかの暴力クラスで得られた最大確率が、そのセグメントが暴力的である確率と見なされます。上記のタスクと同様に、これらの確率値とデータセットのグラウンド トゥルースから ROC 曲線が生成されます。
これら両方のタスクでは、最初にすべての特徴がトレーニング データセットとテスト データセットから抽出されます。次に、トレーニング データセットとテスト データセットがランダムにサンプリングされ、正と負のサンプルが同数になります。トレーニング用に 2,000 個の特徴サンプルが選択され、テスト用に 3,000 個が選択されます。前述のように、トレーニング データに対するテストを回避するために、トレーニング セットとテスト セットは分離されています。両方のタスクでは、線形、放射基底関数、およびカイ二乗カーネルを備えた SVM 分類器が各特徴タイプに対してトレーニングされ、テスト セットで優れた分類スコアを持つ分類器が融合ステップ用に選択されます。融合ステップでは、分類器のパフォーマンスを最大化する可能性のある組み合わせをグリッド検索することによって、各暴力タイプの重みが計算されます。パフォーマンス測定には EER (Equal Error Rate) 測定が使用されます。
このセクションでは、実験とその結果を示します。まず、多クラス分類タスクの結果を示し、次にバイナリ分類タスクの結果を示します。
このタスクでは、システムはビデオに存在する暴力のカテゴリを検出する必要があります。このシステムでターゲットとする暴力カテゴリは、流血、冷たい武器、爆発、喧嘩、火、銃器、銃声、叫び声です。第 1 章で述べたように、これらは VSD2014 で定義されている暴力カテゴリのサブセットです。これらの 8 つのカテゴリとは別に、カー チェイス、主観的暴力も VSD2014 で定義されていますが、データセット内にこれらのカテゴリでタグ付けされたビデオ セグメントが十分になかったため、この作業では使用されていません。暴力のサブカテゴリの検出は、暴力検出の複雑な問題にさらに複雑さを加えるため、このタスクは非常に困難です。このシステムによるきめ細かい暴力の概念を検出する試みは斬新であり、このタスクを実行する既存のシステムはありません。
第 3 章で述べたように、このシステムは、グリッド検索技術を使用して各暴力カテゴリの重みを学習する重み付け決定融合アプローチを使用して、複数の暴力クラスを検出します。このアプローチの詳細については、セクション 3.1.3 を参照してください。表 4.2 には、このグリッド検索技術を使用して検出された各暴力クラスの重みが示されています。
これらの重みは、各暴力カテゴリのバイナリ特徴分類器の出力値の加重合計を取得するために使用されます。合計が最も高いカテゴリが、そのビデオ セグメントに存在する暴力のカテゴリになります。出力合計が 0.5 未満の場合、ビデオ セグメントは非暴力として分類されます。検証セットのビデオ セグメントはこのアプローチを使用して分類され、その結果は図 4.2 に示されています。図では、各曲線は各暴力カテゴリの ROC 曲線を表しています。
表 4.2: グリッド検索技術を使用して各暴力クラスに対して取得された分類器の重み。ここで、暴力クラスの重みを選択する基準は、その暴力クラスの EER を最小化する重みを見つけることでした。
図 4.2: マルチクラス分類タスクにおけるシステムのパフォーマンス。
このバイナリ分類タスクでは、システムはカテゴリを見つけることなく暴力の存在を検出することが期待されます。前のタスクと同様に、バイナリ特徴分類器の出力確率は加重合計アプローチを使用して結合され、各暴力クラスに属するビデオセグメントの出力確率が計算されます。いずれかのクラスの最大確率が 0.5 を超える場合、ビデオセグメントは暴力として分類され、それ以外の場合は非暴力として分類されます。セクション 4.2 で述べたように、このタスクは YouTube-Generalization および Hollywood-Test データセットで実行されます。図 4.3 は、両方のデータセットでのこのタスクの結果を示しています。データセットごとに 1 つずつ、2 つの ROC 曲線を使用して、システムのパフォーマンスを表します。ビデオセグメントに暴力が含まれているかどうかを判断するためのしきい値として 0.5 を使用して、精度、再現率、および正確度の値が計算されます。得られた結果については、表 4.3 を参照してください。
このセクションでは、セクション 4.3 で示した結果について説明します。マルチクラス分類タスクとバイナリ分類タスクの結果について説明する前に、個々の分類器のパフォーマンスについて説明します。
セクション 4.3 で説明した両方の分類タスクでは、分類器スコアの融合が実行され、最終結果が得られます。したがって、システムのパフォーマンスは、主に各分類器の個々のパフォーマンスに依存し、部分的には各分類器に割り当てられた重みに依存します。最終的な分類結果が良好であるためには、各分類器の個々のパフォーマンスが良好であることが重要です。最高のパフォーマンスの分類器を得るために、SVM は 3 つの異なるカーネル関数 (線形、RBF、およびカイ 2 乗) を使用してトレーニングされ、テスト セットで最適なパフォーマンスを発揮する分類器が選択されます。このアプローチに従って、各特徴タイプに対して最高のパフォーマンスを発揮する分類器が選択されます。テスト データセットでのこれらの選択された分類器のパフォーマンスを図 4.4 に示します。SentiBank と Audio は、テスト セットで妥当なパフォーマンスを示す 2 つの特徴分類器であることがわかります。モーション特徴分類器のパフォーマンスは偶然よりも少し優れており、Blood のパフォーマンスは偶然と同等です。次に、これらの分類器のパフォーマンスについて、パフォーマンスの昇順で詳しく説明します。
図 4.4 から明らかなように、テスト セットでのモーション フィーチャ分類器のパフォーマンスは偶然よりもわずかに優れています。この理由を理解するために、利用可能なデータセットでさまざまな SVM カーネルを使用してトレーニングされたすべてのモーション フィーチャ分類器のパフォーマンスを比較します。比較については、図 4.5 を参照してください。図では、左側のプロットは Hockey データセットのテスト セットでの分類器のパフォーマンスを示し、右側のプロットは Hollywood-Test データセットでの比較を示しています。両方のグラフで、赤い曲線は Hockey データセットでトレーニングされた分類器に対応し、残りの 3 つの曲線は Hollywood-Dev データセットでトレーニングされた分類器に対応します。
これら 2 つのプロットから、同じデータセットでトレーニングおよびテストされた分類器のパフォーマンスは、1 つのデータセットでトレーニングされ、別のデータセットでテストされた分類器と比較して、かなり優れていることがわかります。左側のプロット (テスト セット: Hockey Dataset) では、Hockey Dataset でトレーニングされた分類器のパフォーマンスが優れています。同様に、右側のプロット (テスト セット: Hollywood-Test) では、Hollywood-Dev データセットでトレーニングされた分類器のパフォーマンスが優れています。これらの観察から、1 つのデータセットから学習されたモーション フィーチャ表現は、別のデータセットに転送できないと推測できます。この理由は、データセット間のビデオ解像度とビデオ形式の不一致にある可能性があります。Hockey データセットと Hollywood-Test データセットのビデオは形式が異なり、Hollywood-Development と Hollywood-Test のすべてのビデオが同じ形式であるわけではありません。モーション フィーチャの抽出に使用される手順 (セクション 3.1.1.3.1 で説明) では、ビデオ コーデックからのモーション情報を使用するため、ビデオ形式は重要な役割を果たします。ビデオの長さと解像度も多少影響しますが、ここで使用する手順では、抽出された特徴をビデオ セグメントの長さで正規化し、フレームの事前定義された数のサブ領域にわたってピクセルの動きを集約することで、これを軽減しようとします。Hockey データセットのビデオは、それぞれ 1 秒の非常に短いセグメントで、フレーム サイズが小さく、品質も低いです。一方、Hollywood データセットのビデオ セグメントは長く、フレーム サイズが大きく、品質も優れています。この問題の解決策の 1 つは、すべてのビデオを同じ形式に変換することですが、それでも不適切なビデオ エンコーディングが原因で問題が発生する可能性があります。もう 1 つの解決策は、オプティカル フロー ベースのアプローチを使用して動きの特徴を抽出することです (セクション 3.1.1.3.2 で説明)。ただし、前述したように、この方法は面倒であり、ビデオの動きによるぼやけがある場合は機能しない可能性があります。
テスト セットでの血液特徴分類器のパフォーマンスは、ほぼ間違いなく良好です。結果については、図 4.4 を参照してください。血液特徴抽出に使用された血液検出器は、画像内の血液を含む領域の検出において非常に良好な結果を示しているため、ここでの問題は特徴抽出ではありません。Web からの画像での血液検出器のパフォーマンスについては図 3.4 を、ハリウッド データセットのサンプル フレームでのパフォーマンスについては図 4.6 を参照してください。このことから、血液特徴抽出器が非常に良い仕事をしており、特徴抽出の問題ではないことは明らかです。したがって、問題は分類器のトレーニングにあり、トレーニング データが限られていることが原因であると結論付けることができます。
トレーニングに使用される VSD2014 データセットでは、血液を含むビデオ セグメントに、これらのセグメントに含まれる血液の量を表すラベル (「目立たない」、「低」、「中」、「高」) が付けられています。このデータセットには「高」というラベルが付けられたセグメントがほとんどないため、SVM 分類器は血液を含むフレームの特徴表現を効果的に学習できません。この機能分類器のパフォーマンスは、大量の血液を含むフレームのインスタンスが多数含まれる大規模なデータセットでトレーニングすることで向上できます。または、Google の画像を使用してこの分類器をトレーニングすることもできます。
オーディオ特徴分類器は、テスト セットで 2 番目に優れたパフォーマンスを発揮する分類器 (図 4.4 を参照) であり、これは暴力検出におけるオーディオの重要性を示しています。視覚的な特徴は暴力的なコンテンツの良い指標ですが、オーディオがより重要な役割を果たすシーンもあります。たとえば、戦い、銃声、爆発を含むシーンです。これらのシーンには特徴的なサウンドがあり、MFCC やエネルギー エントロピーなどのオーディオ特徴を使用して、これらの暴力的なシーンに関連するサウンド パターンを検出できます。この研究では、MFCC 特徴を使用してオーディオ コンテンツを記述します (セクション 3.1.1.1 を参照)。これは、暴力検出に関する以前の多くの研究 (Acar ら [1]、Jiang ら [33]、Lam ら [36] など) が、暴力的なシーンに関連するオーディオ シグネチャの検出における MFCC 特徴の有効性を示しているためです。エネルギー エントロピー、ピッチ、パワー スペクトルなどの他のオーディオ特徴も、MFCC 特徴と一緒に使用して、特徴分類器のパフォーマンスをさらに向上させることができます。しかし、音声だけでは暴力を検出するのに十分ではなく、音声が重要な役割を果たすのは、固有の音声シグネチャを持つ銃声や爆発などの少数の暴力クラスを検出する場合のみであることに注意することが重要です。
SentiBank 特徴分類器は、すべての特徴分類器の中で最も優れたパフォーマンスを示し (図 4.4 を参照)、システム全体のパフォーマンスに大きく貢献しています。これは、暴力などの複雑な視覚的感情を検出する SentiBank の威力を示しています。図 4.7 は、暴力を含むフレームと暴力を含まないフレームの上位 50 個の ANP の平均スコアを示しています。見てわかるように、暴力クラスと非暴力クラスの平均スコアが最も高い ANP のリストは非常に異なっており、これが、暴力クラスと非暴力クラスを区別する際の SentiBank の非常に優れたパフォーマンスの理由です。暴力クラスの ANP リストにある形容詞のすべてが暴力を表しているわけではないことに注意してください。これにはさまざまな理由が考えられますが、その 1 つとして、SentiBank で使用される 1,200 個の ANP のうち、暴力に関連する感情 (恐怖、恐怖、激怒、憤怒など) を表すものはごくわずかであることが挙げられます。図 4.8 を参照してください。これは、Plutchik の感情の輪と、VSO における各感情のカテゴリの ANP の分布を示しています。
前述のように (セクション 3.1.3)、最終的な分類スコアは、加重合計アプローチを使用して個々の分類器スコアを後から融合することによって計算されます。ここで使用される重みは、等エラー率 (EER) を最小化することを目的としたグリッド検索アプローチを使用して計算されます。したがって、重みはシステムの全体的な分類パフォーマンスを決定する上で重要な役割を果たします。これらの重みはすべてテスト セットで計算されることに注意してください。表 4.2 には、グリッド検索手法を使用して取得された、8 つの暴力クラスのそれぞれに対する分類器の重みが示されています。取得された重みから、重みの分布について次のことがわかります。(i) ほとんどの暴力クラスでは、最も識別力の高い特徴である SentiBank に最高の重みが割り当てられています。(ii) 音声は非常に重要な役割を果たす銃声、爆発、喧嘩などの暴力クラスでは、音声に最高の重みが割り当てられています。(iii) 叫び声、銃声、銃器などの暴力クラスでは、血に高い重みが割り当てられています。これは興味深いことです。なぜなら、これらの暴力クラスのいずれかに属するビデオ セグメントには、血が流れる可能性があるからです。(iv) 動きは、パフォーマンスが最も低い機能であるため、ほとんどの暴力クラスで最も重視されていません。ただし、動きが多いことが予想される戦闘クラスでは、動きに高い重みが付けられていることも確認できます。
各暴力クラスに割り当てられた重みを分析すると、次のことがわかります。(i) 銃声クラスの場合、最も高い分布重みはオーディオ (0.5) と血 (0.45) の間です。これは、オーディオ機能が銃声の検出に重要な役割を果たし、銃声を含むシーンには大量の血も含まれることが予想されるため、予想どおりです。(ii) 喧嘩クラスでは、オーディオ (0.4) と視覚的特徴 (モーション - 0.25、SentiBank - 0.30) にほぼ同量の重みが割り当てられています。これは、喧嘩を含むシーンの検出にはオーディオ機能と視覚的特徴の両方が重要であるため、予想どおりです。(iii) 爆発クラスでは、オーディオ (0.9) に最も高い重みが割り当てられていますが、これは予想どおりです。オーディオ機能は爆発の検出に不可欠だからです。(iv) 火事は暴力クラスであり、視覚的特徴に高い重みが割り当てられると予想され、予想どおり、最もパフォーマンスの高い視覚的特徴である SentiBank (0.85) に最も高い重みが割り当てられています。(v) 暴力クラス 冷気
(vi) 「銃器」は暴力クラスで、シーンに銃や火器が含まれます。上記のクラスと同様に、視覚的特徴は高い重みを持つことが期待されます。このクラスでは、SentiBank (0.6) と Blood (0.3) が最も高い重みの配分を受けています。Blood に高い重みが割り当てられている理由は、銃が含まれるシーンのほとんどに流血も含まれるためと考えられます。(vii) Blood クラスでは、Blood の特徴が最も高い重みを持つことが期待されます。しかし、Blood (0.05) の特徴は小さな重みしか与えられず、SentiBank (0.95) が最も高い重みを得ました。これは予想された結果ではなく、テスト セットでの Blood 特徴分類器のパフォーマンスが低いことが原因である可能性があります。 (viii) オーディオの特徴は叫び声の検出に重要な役割を果たすため、オーディオはクラス「叫び声」に対してより高い重みを持つと直感的に予想できます。しかし、ここで得られた重みはこの直感に反しています。オーディオは非常に低い重みが与えられ、SentiBank は最も高い重みが与えられています。全体として、グリッド検索から得られた重みは、ほとんどのクラスでほぼ予想どおりです。テストでの個々の分類器のパフォーマンスが向上しれば、より良い重みの配分が得られる可能性があります。
このセクションでは、マルチクラス分類タスクで得られた結果について説明します。このタスクで得られた結果については、図 4.2 を参照してください。図から、次のことがわかります。(i) システムは、銃声の検出において優れたパフォーマンス (EER 約 30%) を示しています。(ii) 暴力クラス (冷たい武器、血液、爆発) では、システムは中程度のパフォーマンス (EER 約 40%) を示しています。(iii) 残りの暴力クラス (喧嘩、叫び声、火、銃器) では、パフォーマンスはほぼ良好です (EER 45% 以上)。これらの結果は、改善の余地が非常に大きいことを示していますが、暴力の検出は簡単な作業ではなく、異なる暴力のクラスを区別することはさらに難しいことを覚えておくことが重要です。これまでに提案されたすべてのアプローチは、暴力の有無の検出にのみ重点を置いており、暴力のカテゴリの検出には重点を置いていません。この研究で提案された新しいアプローチは、この方向での最初のアプローチの 1 つであり、パフォーマンスを比較するためのベースライン システムはありません。この研究から得られた結果は、この分野における将来の研究の基礎となるでしょう。
このシステムでは、成人向けコンテンツ検出の同様のマルチメディア概念検出タスクで良好な結果を示した後期融合アプローチが採用されています (Schulze ら [52])。したがって、システムのパフォーマンスが低いのは、採用されたアプローチに起因するものではありません。システムのパフォーマンスは、個々の分類器のパフォーマンスと、各暴力クラスに割り当てられた融合重みに依存します。融合重みはグリッド検索技術を使用して EER を最小化するように調整されるため、システムの全体的なパフォーマンスは、個々の分類器のパフォーマンスにのみ依存します。したがって、このタスクでシステムのパフォーマンスを向上させるには、暴力を検出する個々の分類器のパフォーマンスを向上させる必要があります。
バイナリ分類タスクの結果を図 4.3 に示します。このタスクは、マルチクラス分類タスクの拡張です。前述のように、このタスクでは、いずれかの暴力クラスの出力確率がしきい値 0.5 を超える場合、ビデオ セグメントは「暴力」として分類されます。このタスクでのシステムのパフォーマンスは、Hollywood-Test と YouTube-Generalization の 2 つのデータセットで評価されます。これらのデータセットでのシステムのパフォーマンスは、偶然よりも少し優れていることがわかります。また、Hollywood-Test データセットの方が YouTube-Generalization データセットよりもパフォーマンスが優れていることもわかります。これは、すべての分類器が Hollywood-Test データセットと同様のビデオ コンテンツを持つ Hollywood-Development データセットのデータでトレーニングされているため、予想どおりの結果です。このタスクでシステムによって取得された精度、再現率、および正確度の値を表 4.3 に示します。MediaEval-2014 でこのタスクで最高のパフォーマンスを示したチームが取得した結果を表 4.4 に示します。
同じデータセットが使用されているにもかかわらず、評価に使用されるプロセスが同じではないため、これらの結果を直接比較することはできません。 MediaEval-2014 では、システムは暴力を含むビデオセグメントの開始フレームと終了フレームを出力することが期待されており、グラウンドトゥルースと出力フレーム間隔の重なりが 50% を超える場合はヒットと見なされます。 MediaEval-2014 で実行されるプロセスの詳細については、Schedl ら [51] を参照してください。提案されたアプローチでは、システムは入力ビデオの各 1 秒セグメントを「暴力」または「非暴力」クラスに分類し、これをグラウンドトゥルースと比較してシステムパフォーマンスを計算します。 ここで使用されるこの評価基準は、MediaEval-2014 で使用されているものと比較して、はるかに厳格で粒度が細かくなっています。 ここでは、分類は 1 秒セグメントごとに行われるため、より短いセグメントの検出にペナルティを課す戦略は必要ありません。 MAP メトリックは MediaEval で最高のパフォーマンスを発揮するシステムを選択するために使用されますが、提案されたシステムではシステムの EER が最適化されます。
このシステムから得られた結果を MediaEval の結果と直接比較することはできませんが、厳格な評価基準が使用されているにもかかわらず、このシステムのパフォーマンスは MediaEval-2014 の最高パフォーマンスのシステムと同等、あるいはそれ以上であることが分かります。これらの結果は、提案された新しいアプローチを使用して開発されたシステムが、暴力検出のこの分野における既存の最先端システムよりも優れていることを示唆しています。
この章では、開発されたシステムの評価について詳細に説明します。セクション 4.1 では、この研究で使用されたデータセットの詳細について説明し、次のセクション 4.2 では実験のセットアップについて説明します。セクション 4.3 では実験とその結果を示し、セクション 4.4 では得られた結果について詳細に説明します。
この論文はCC 4.0ライセンスの下でarxivで公開されています。
[1] http://www.images.google.com
[2] http://www.youtube.com
[3] http://visilab.etsii.uclm.es/personas/oscar/FightDetection/index.html