著者:
(1)プラヴィーン・ティルパットゥール、セントラルフロリダ大学
ソーシャル ネットワーキング サイトにアップロードされるマルチメディア コンテンツの量と、子供がそれらに簡単にアクセスできることは、子供がウェブ上の暴力的コンテンツや成人向けコンテンツにさらされることから子供を守りたい親にとって問題となっています。YouTube や Facebook などの Web サイトへの動画のアップロード数は増加傾向にあります。過去 1 年間で Facebook (Blog-FB [3]) への動画投稿数は 75% 増加しており、YouTube には毎日 120,000 本以上の動画がアップロードされています (Wesch [56]、Gill ら [26])。これらの Web サイトにアップロードされる動画の 20% に暴力的コンテンツや成人向けコンテンツが含まれていると推定されています (Sparks [54])。そのため、子供がこれらの危険なコンテンツにアクセスしたり、誤ってさらされたりすることが容易になってしまいます。子どもが暴力的なコンテンツを視聴することによる影響は心理学でよく研究されており(Tompkins [55]、Sparks [54]、Bushman and Huesmann [6]、Huesmann and Taylor [32])、これらの研究結果によると、暴力的なコンテンツの視聴は子どもの感情に大きな影響を与える。主な影響は、攻撃的または恐怖的な行動の可能性が高まり、他人の痛みや苦しみに対する感受性が低下することである。HuesmannとEron [31]は、小学生の子どもがテレビで何時間も暴力的なシーンを視聴する研究を行った。これらの子どもたちを成人になるまで観察したところ、8歳のときにテレビで暴力的なシーンを多く視聴した子どもは、成人になってから犯罪行為で逮捕され起訴される可能性が高いことがわかった。Flood [25]とMitchellらによる同様の研究 [40]は、成人向けコンテンツへの露出も子どもに有害な影響を与えることを示唆している。これが、動画内の暴力および成人向けコンテンツの自動検出の分野での研究のきっかけとなった。
アダルトコンテンツの検出(Chan et al. [8]、Schulze et al. [52]、Pogrebnyak et al. [47])はよく研究されており、大きな進歩が遂げられています。一方、暴力検出はあまり研究されておらず、最近になってようやく関心が寄せられるようになりました。過去に暴力検出のためのアプローチはほとんど提案されておらず、これらのアプローチはそれぞれ異なる視覚的および聴覚的特徴を使用して暴力を検出しようとしました。たとえば、Nam et al. [41]は、複数のオーディオビジュアル特徴を組み合わせて暴力的なシーンを識別しました。彼らの研究では、炎と血は定義済みのカラーテーブルを使用して検出され、さまざまな代表的なオーディオ効果(銃声、爆発など)も利用されました。Datta et al. [14]は、殴り合い、蹴りなどの人間の暴力を検出するための加速された動きベクトルベースのアプローチを提案しました。Cheng et al. [11]は、典型的なオーディオイベント(銃声、爆発、車のブレーキなど)を検出することにより、銃撃戦やカーレースシーンを見つける階層的なアプローチを提示しました。
暴力検出のために提案されたその他のアプローチについては、第 2 章で説明します。これらのアプローチはすべて、主にハリウッド映画における暴力の検出にのみ焦点を当てており、YouTube や Facebook などの動画共有サイトやソーシャル メディア サイトの動画には焦点を当てていません。ハリウッド映画はいくつかの映画制作ルールに従っているため、暴力の検出は比較的簡単です。たとえば、エキサイティングなアクション シーンを表現するために、高速の視覚的動きとテンポの速いサウンドによって、テンポの速い雰囲気が作り出されます。しかし、YouTube や Facebook などの動画共有サイトの動画は、これらの映画制作ルールに従っておらず、オーディオとビデオの品質が悪いことがよくあります。ユーザー生成ビデオのこれらの特性により、それらのビデオで暴力を検出することは非常に困難です。
暴力を検出するアプローチについて説明する前に、「暴力」という用語の定義を提供することが重要です。これまでの暴力検出のアプローチはすべて、同じ暴力の定義に従っておらず、異なる特徴と異なるデータセットを使用しています。これにより、異なるアプローチの比較が非常に困難になります。この問題を克服し、この分野の研究を促進するために、2011年にDemartyら[15]によって暴力シーン検出(VSD)というデータセットが導入され、このデータセットの最新バージョンはVSD2014です。この最新のデータセットによると、ビデオの「暴力」とは、「身体的暴力が含まれているため、8歳の子供に見せないシーン」です(Schedlら[51])。この定義は、前述の心理学の研究結果に基づいて策定されたと考えられています。この定義から、暴力は物理的な実体ではなく、非常に一般的で抽象的であり、また非常に主観的な概念であることがわかります。したがって、暴力検出は簡単な作業ではありません。
この研究の目的は、ハリウッド映画だけでなく、YouTube や Facebook などの動画共有 Web サイトの動画でも暴力を自動的に検出するシステムを構築することです。この研究では、以前のアプローチでは対処されていなかった、動画内の暴力のカテゴリも検出しようとしています。この研究で対象とする暴力のカテゴリは、血の存在、冷たい武器の存在、爆発、戦い、叫び声、火の存在、銃器、銃声です。これらは、VSD2014 で定義され、動画セグメントに注釈を付けるために使用される概念のサブセットを表しています。VSD2014 の「残酷なシーン」と「カーチェイス」のカテゴリは、これらの概念で注釈が付けられた VSD2014 の動画セグメントがあまりなかったため、選択されませんでした。もう 1 つのカテゴリは「主観的な暴力」です。このカテゴリに属するシーンには目に見える暴力がなく、検出が非常に難しいため、選択されませんでした。この研究では、オーディオとビジュアルの両方の特徴が暴力検出に使用されます。オーディオとビジュアルの両方の情報を組み合わせると、分類でより信頼性の高い結果が得られるからです。
マルチメディア コンテンツ内の暴力を自動的に検出できるこのようなシステムを開発する利点は数多くあります。暴力の量に応じて映画を評価するために使用できます。ソーシャル ネットワーキング サイトはこれを使用して、プラットフォームへの暴力的なビデオのアップロードを検出してブロックできます。また、シーンの特徴付けやジャンルの分類にも使用でき、映画の検索や閲覧に役立ちます。リアルタイム カメラ システムからのビデオ ストリーム内の暴力の認識は、空港、病院、ショッピング モール、公共の場所、刑務所、精神科病棟、学校の校庭などの場所でのビデオ監視に非常に役立ちます。ただし、暴力のリアルタイム検出ははるかに困難であり、この研究ではそれに対処する試みは行われていません。
次に、関連研究の概要、提案されたアプローチの詳細な説明、および評価を示します。後続の章は次のように構成されています。第 2 章では、暴力検出の分野における以前の研究のいくつかについて詳しく説明します。第 3 章では、特徴分類器のトレーニングとテストに使用されるアプローチの詳細を示します。また、特徴抽出と分類器のトレーニングの詳細も含まれます。第 4 章では、使用したデータセット、実験のセットアップ、および実験から得られた結果の詳細について説明します。最後に、第 5 章では結論を示し、その後に今後の作業の可能性について説明します。
この論文はCC 4.0ライセンスの下でarxivで公開されています。