paint-brush
Détection de la violence dans les vidéos : conclusions et travaux futurspar@kinetograph

Détection de la violence dans les vidéos : conclusions et travaux futurs

Trop long; Pour lire

Dans cet article, les chercheurs proposent un système de détection automatique de la violence dans les vidéos, utilisant des indices audio et visuels pour la classification.
featured image - Détection de la violence dans les vidéos : conclusions et travaux futurs
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


Auteurs:

(1) Praveen Tirupattur, Université de Floride centrale.

Tableau des liens

5. Conclusions et travaux futurs

Dans ce chapitre, les conclusions et les directions dans lesquelles les travaux existants peuvent être étendus sont discutées respectivement dans les sections 5.1 et 5.2.

5.1. Conclusions

Dans ce travail, une tentative a été faite pour développer un système permettant de détecter le contenu violent dans les vidéos en utilisant à la fois des fonctionnalités visuelles et audio. Même si l'approche utilisée dans ce travail est motivée par les travaux antérieurs dans ce domaine, les aspects suivants en sont les aspects uniques : (i) Détection de différentes classes de violence, (ii) utilisation de la fonctionnalité SentiBank pour décrire le contenu visuel de une vidéo, (iii) le détecteur de sang et le modèle sanguin développés à l'aide d'images provenant du Web, et (iv) en utilisant les informations du codec vidéo pour générer des caractéristiques de mouvement. Voici un bref aperçu du processus utilisé pour développer ce système.


La violence n’étant pas une entité physique, sa détection dans une vidéo n’est pas une tâche anodine. La violence est un concept visuel et pour la détecter, il faut utiliser plusieurs fonctionnalités. Dans ce travail, les fonctionnalités MFCC ont été utilisées pour décrire le contenu audio et les fonctionnalités Blood, Motion et SentiBank sont utilisées pour décrire le contenu visuel. Les classificateurs SVM ont été formés pour chacune des caractéristiques sélectionnées et les scores des classificateurs individuels ont été combinés par somme pondérée pour obtenir les scores de classification finaux pour chacune des classes de violence. Les poids pour chaque classe sont trouvés à l'aide d'une approche de recherche par grille avec les critères d'optimisation correspondant à l'EER minimum. Différents ensembles de données sont utilisés dans ce travail, mais le plus important est l'ensemble de données VSD, qui est utilisé pour former les classificateurs, calculer les poids des classificateurs et tester le système.


Les performances du système sont évaluées sur deux tâches de classification différentes, MultiClass et Binary. Dans la tâche de classification multi-classes, le système doit détecter la classe de violence présente dans un segment vidéo. Il s'agit d'une tâche bien plus difficile que la simple détection de la présence de violence et le système présenté ici est l'un des premiers à résoudre ce problème. La tâche de classification binaire est celle où le système doit simplement détecter la présence de violence sans avoir à trouver la classe de violence. Dans cette tâche, si le score de classification final de la tâche de classification multi-classes pour l'une des classes de violence est supérieur à 0,5, alors le segment vidéo est classé dans la catégorie « Violence », sinon il est classé dans la catégorie « Aucune violence ». Les résultats de la tâche de classification multi-classes sont loin d'être parfaits et peuvent être améliorés, tandis que les résultats des tâches de classification binaire sont meilleurs que les résultats de référence existants de MediaEval-2014. Cependant, ces résultats sont définitivement encourageants. Dans la section 5.2, une discussion détaillée sur les directions possibles dans lesquelles les travaux actuels peuvent être étendus est présentée.

5.2. Travail futur

Il existe de nombreuses directions possibles dans lesquelles les travaux en cours peuvent être étendus. Une solution consisterait à améliorer les performances du système existant. Pour cela, les performances de chaque classificateur doivent être améliorées. Motion et Blood sont les deux fonctionnalités dont les performances du classificateur nécessitent une amélioration raisonnable. Comme expliqué dans la section 4.4, l'approche utilisée pour extraire les caractéristiques de mouvement doit être modifiée afin d'améliorer les performances du classificateur de mouvement. Pour Blood, le problème vient de l'ensemble de données utilisé pour entraîner le classificateur mais pas de l'extracteur de fonctionnalités. Un ensemble de données approprié avec une quantité décente d’images contenant du sang doit être utilisé pour la formation. Apporter ces améliorations devrait être la première étape vers la construction d’un meilleur système. Une autre direction pour les travaux futurs consisterait à adapter ce système et à développer différents outils pour différentes applications. Par exemple, (i) un outil pourrait être développé pour extraire les segments vidéo contenant de la violence à partir d’une vidéo d’entrée donnée. Cela pourrait être utile pour le marquage vidéo. (ii) Un outil similaire pourrait être développé pour le contrôle parental, où le système pourrait être utilisé pour évaluer un film en fonction de la quantité de contenu violent qu'il contient. Une autre direction possible pour les travaux futurs consiste à améliorer la vitesse du système afin qu'il puisse être utilisé dans la détection en temps réel de la violence à partir du flux vidéo des caméras de sécurité. Les améliorations nécessaires au développement d’un tel système ne seront pas anodines.


Cet article est disponible sur arxiv sous licence CC 4.0.