paint-brush
Détection de la violence dans les vidéos : résumépar@kinetograph

Détection de la violence dans les vidéos : résumé

Trop long; Pour lire

Dans cet article, les chercheurs proposent un système de détection automatique de la violence dans les vidéos, utilisant des indices audio et visuels pour la classification.
featured image - Détection de la violence dans les vidéos : résumé
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


Auteurs:

(1) Praveen Tirupattur, Université de Floride centrale.

Tableau des liens

Abstrait

Ces dernières années, la quantité de contenu vidéo téléchargé sur les réseaux sociaux et les sites de partage de vidéos comme Facebook et Youtube a considérablement augmenté. En conséquence, le risque que les enfants soient exposés à des contenus adultes et violents sur le Web a également augmenté. Pour résoudre ce problème, une approche permettant de détecter automatiquement les contenus violents dans les vidéos est proposée dans ce travail. Ici, une nouvelle tentative est également faite pour détecter la catégorie de violence présente dans une vidéo. Un système capable de détecter automatiquement la violence dans les films hollywoodiens et dans les vidéos du Web est extrêmement utile non seulement pour le contrôle parental, mais également pour les applications liées au classement des films, à la vidéosurveillance, à la classification des genres, etc.


Ici, les fonctionnalités audio et visuelles sont utilisées pour détecter la violence. Les fonctionnalités MFCC sont utilisées comme signaux audio. Les fonctionnalités Blood, Motion et SentiBank sont utilisées comme repères visuels. Les classificateurs binaires SVM sont formés sur chacune de ces fonctionnalités pour détecter la violence. Une fusion tardive utilisant une somme pondérée de scores de classification est effectuée pour obtenir des scores de classification finaux pour chacune des classes de violence ciblées par le système. Pour déterminer les poids optimaux pour chacune des classes de violence, une approche basée sur une recherche par grille est utilisée. Des ensembles de données accessibles au public, principalement la détection de scènes violentes (VSD), sont utilisés pour la formation des classificateurs, le calcul du poids et les tests. Les performances du système sont évaluées sur deux tâches de classification, la classification multi-classe et la classification binaire. Les résultats obtenus pour la classification binaire sont meilleurs que les résultats de base de MediaEval-2014.


Cet article est disponible sur arxiv sous licence CC 4.0.