Auteurs:
(1) Praveen Tirupattur, Université de Floride centrale.
La détection de la violence est une sous-tâche de reconnaissance d'activité dans laquelle les activités violentes doivent être détectées à partir d'une vidéo. Cela peut également être considéré comme une sorte de détection d’événements multimédia. Certaines approches ont déjà été proposées pour résoudre ce problème. Ces approches proposées peuvent être classées en trois catégories : (i) Approches dans lesquelles seules les caractéristiques visuelles sont utilisées. (ii) Approches dans lesquelles seules les fonctionnalités audio sont utilisées. (iii) Approches dans lesquelles les fonctionnalités audio et visuelles sont utilisées. La catégorie qui nous intéresse ici est la troisième, dans laquelle la vidéo et l'audio sont utilisées. Ce chapitre donne un aperçu de certaines des approches précédentes appartenant à chacune de ces catégories.
La première tentative de détection de la violence à l'aide d'indices audio et visuels est celle de Nam et al. [41]. Dans leur travail, les fonctionnalités audio et visuelles sont exploitées pour détecter les scènes violentes et générer des index afin de permettre une recherche de vidéos basée sur le contenu. Ici, la signature d'activité dynamique spatio-temporelle est extraite pour chaque plan afin de le classer comme violent ou non violent. Cette fonctionnalité d’activité dynamique spatio-temporelle est basée sur la quantité de mouvement dynamique présente dans la prise de vue.
Plus le mouvement spatial entre les images de la prise de vue est important, plus la caractéristique est significative. Le raisonnement derrière cette approche est que la plupart des scènes d’action impliquent un mouvement rapide et important de personnes ou d’objets. Afin de calculer la caractéristique d'activité spatio-temporelle d'un plan, des séquences de mouvement du plan sont obtenues et sont normalisées par la longueur du plan pour garantir que seuls les plans avec des longueurs plus courtes et un mouvement spatial élevé entre les images ont une valeur plus élevée. de la fonctionnalité d’activité.
En dehors de cela, pour détecter les flammes provenant de coups de feu ou d'explosions, une variation soudaine des valeurs d'intensité des pixels entre les images est examinée. Pour éliminer les faux positifs, tels que la variation d'intensité due aux lampes de poche de l'appareil photo, une table de couleurs prédéfinie avec des valeurs de couleur proches des couleurs de la flamme telles que le jaune, l'orange et le rouge est utilisée. De la même manière, pour détecter le sang, ce qui est courant dans la plupart des scènes violentes, les couleurs des pixels dans une image sont mises en correspondance avec une table de couleurs prédéfinie contenant des couleurs ressemblant à du sang. Ces caractéristiques visuelles ne suffisent pas à elles seules à détecter efficacement la violence. Par conséquent, les fonctionnalités audio sont également prises en compte.
Le changement soudain du niveau d’énergie du signal audio est utilisé comme signal audio. L'entropie énergétique est calculée pour chaque image et le changement soudain de cette valeur est utilisé pour identifier des événements violents tels qu'une explosion ou des coups de feu. Les indices audio et visuels sont synchronisés dans le temps pour obtenir des plans contenant de la violence avec une plus grande précision. L'une des principales contributions de cet article est de mettre en évidence la nécessité de disposer d'indices audio et visuels pour détecter la violence.
Gong et coll. [27] ont également utilisé des indices visuels et audio pour détecter la violence dans les films. Une approche en trois étapes pour détecter la violence est décrite. Dans un premier temps, des caractéristiques visuelles et auditives de bas niveau sont extraites pour chaque plan de la vidéo. Ces fonctionnalités sont utilisées pour entraîner un classificateur à détecter les plans candidats présentant un contenu potentiellement violent. À l'étape suivante, des effets audio de haut niveau sont utilisés pour détecter les tirs candidats. À ce stade, pour détecter les effets audio de haut niveau, les classificateurs SVM sont formés pour chaque catégorie d'effet audio en utilisant des caractéristiques audio de bas niveau telles que le spectre de puissance, la hauteur, le MFCC (coefficients cepstraux Mel-Frequency) et la proéminence de l'harmonicité (Cai et coll. La sortie de chacune des SVM peut être interprétée comme une cartographie de probabilité sur un sigmoïde, qui est une valeur continue comprise entre [0,1] (Platt et al. [46]). Dans la dernière étape, les résultats probabilistes des deux premières étapes sont combinés à l'aide du boosting et le score final de violence pour un tir est calculé comme la somme pondérée des scores des deux premières étapes.
Ces poids sont calculés à l'aide d'un ensemble de données de validation et devraient maximiser la précision moyenne. Les travaux de Gong et al. [27] se concentre uniquement sur la détection de la violence dans les films où les règles universelles de réalisation sont suivies. Par exemple, le son rapide lors des scènes d’action. Le contenu violent est identifié en détectant les scènes rapides et les événements audio associés à la violence tels que les explosions et les coups de feu. Les données de formation et de test utilisées proviennent d’une collection de quatre films d’action hollywoodiens contenant de nombreuses scènes violentes. Même si cette approche a donné de bons résultats, il convient de noter qu'elle est optimisée pour détecter la violence uniquement dans les films qui suivent certaines règles de réalisation et qu'elle ne fonctionnera pas avec les vidéos téléchargées par les utilisateurs sur des sites Web tels que Facebook, Youtube. , etc.
Dans les travaux de Lin et Wang [38], une séquence vidéo est divisée en plans et pour chaque plan, les caractéristiques audio et vidéo qu'elle contient sont classées comme violentes ou non violentes et les sorties sont combinées à l'aide d'un co-entraînement. Un algorithme pLSA modifié (Hofmann [30]) est utilisé pour détecter la violence du segment audio. Le segment audio est divisé en clips audio d'une seconde chacun et est représenté par un vecteur de caractéristiques contenant des caractéristiques de bas niveau telles que le spectre de puissance, le MFCC, la hauteur, le rapport Zero Cross Rate (ZCR) et la proéminence de l'harmonicité (Cai et al. [7]). . Ces vecteurs sont regroupés pour obtenir des centres de cluster qui désignent un vocabulaire audio. Ensuite, chaque segment audio est représenté en utilisant ce vocabulaire comme un document audio. L'algorithme de maximisation des attentes (Dempster et al. [20]) est utilisé pour ajuster un modèle audio qui est ensuite utilisé pour la classification des segments audio. Pour détecter la violence dans un segment vidéo, les trois événements violents visuels courants : mouvement, flammes/explosions et sang sont utilisés. L'intensité du mouvement est utilisée pour détecter les zones de mouvement rapide et pour extraire les caractéristiques de mouvement pour chaque image, qui sont ensuite utilisées pour classer une image comme violente ou non violente. Les modèles de couleur et les modèles de mouvement sont utilisés pour détecter les flammes et les explosions dans un cadre et pour les classer. De même, le modèle de couleur et l'intensité du mouvement sont utilisés pour détecter la région contenant du sang et si elle est supérieure à une valeur prédéfinie pour une image, elle est classée comme violente. Le score final de violence du segment vidéo est obtenu par la somme pondérée des trois scores individuels mentionnés ci-dessus. Les fonctionnalités utilisées ici sont les mêmes que celles utilisées par Nam et al. [41]. Pour combiner les scores de classification du flux vidéo et du flux audio, la co-formation est utilisée. Pour la formation et les tests, un ensemble de données composé de cinq films hollywoodiens est utilisé et une précision d'environ 0,85 et un rappel d'environ 0,90 sont obtenus dans la détection de scènes violentes. Même ce travail cible la détection de la violence uniquement dans les films mais pas dans les vidéos disponibles sur le Web. Mais les résultats suggèrent que les caractéristiques visuelles telles que le mouvement et le sang sont essentielles à la détection de la violence.
Toutes les approches mentionnées jusqu'à présent utilisent à la fois des signaux audio et visuels, mais il en existe d'autres qui utilisent la vidéo ou l'audio pour détecter la violence et d'autres qui tentent de détecter un seul type de violence spécifique, comme les bagarres à coups de poing. Un bref aperçu de ces approches est présenté ci-après.
L'un des seuls travaux utilisant uniquement l'audio pour détecter le contexte sémantique dans les vidéos est celui de Cheng et al. [11], où une approche hiérarchique basée sur des modèles de mélange gaussien et des modèles de Markov cachés est utilisée pour reconnaître les coups de feu, les explosions et les freinages de voiture. Datta et coll. [14] ont tenté de détecter la violence entre personnes dans des vidéos qui impliquent uniquement des combats à coups de poing, des coups de pied, des coups avec des objets, etc., en analysant la violence au niveau de l'objet plutôt qu'au niveau de la scène comme le font la plupart des approches. Ici, les objets en mouvement dans une scène sont détectés et un modèle de personne est utilisé pour détecter uniquement les objets qui représentent des personnes. À partir de là, la trajectoire de mouvement et les informations d'orientation des membres d'une personne sont utilisées pour détecter les combats entre personnes.
Clarin et coll. [12] ont développé un système automatisé nommé DOVE pour détecter la violence dans les films. Ici, le sang seul est utilisé pour détecter les scènes de violence. Le système extrait les images clés de chaque scène et les transmet à une carte auto-organisatrice entraînée pour étiqueter les pixels avec les étiquettes : peau, sang ou non-peau/non-sang. Les pixels étiquetés sont ensuite regroupés via des composants connectés et sont observés pour détecter d'éventuelles violences. Une scène est considérée comme violente s’il y a un changement énorme dans les régions de pixels contenant des composants cutanés et sanguins. Un autre travail sur la détection des combats est celui de Nievas et al. [42] dans lequel le cadre Bag-of-Words est utilisé avec les descripteurs d'action Points d'intérêt spatio-temporels (STIP - Laptev [37]) et Transformation de caractéristiques invariantes à l'échelle de mouvement (MoSIFT - Chen et Hauptmann [10]). Les auteurs ont introduit un nouvel ensemble de données vidéo composé de 1 000 vidéos, divisées en deux groupes de combats et de non-combats. Chaque groupe dispose de 500 vidéos et chaque vidéo dure une seconde. L'expérimentation avec cet ensemble de données a produit une précision de 90 % sur un ensemble de données contenant des combats de films d'action.
Deniz et coll. [21] ont proposé une nouvelle méthode pour détecter la violence dans les vidéos en utilisant des modèles d'accélération extrêmes comme caractéristique principale. Cette méthode est 15 fois plus rapide que les systèmes de reconnaissance d'action les plus modernes et présente également une très grande précision dans la détection des scènes contenant des combats. Cette approche est très utile dans les systèmes de détection de violence en temps réel, où non seulement la précision mais aussi la rapidité comptent. Cette approche compare le spectre de puissance de deux images consécutives pour détecter un mouvement soudain et, en fonction de l'ampleur du mouvement, une scène est classée comme violente ou non violente. Cette méthode n'utilise pas le suivi des caractéristiques pour détecter les mouvements, ce qui la rend insensible au flou. Hassner et coll. [28] ont introduit une approche de détection en temps réel de la violence dans les scènes de foule. Cette méthode prend en compte l’évolution des amplitudes des vecteurs de flux au fil du temps. Ces modifications pour les séquences d'images courtes sont appelées descripteurs de flux violents (ViF). Ces descripteurs sont ensuite utilisés pour classer les scènes violentes et non violentes à l'aide d'une machine à vecteurs de support linéaire (SVM). Comme cette méthode utilise uniquement les informations de flux entre les images et renonce à l’analyse de forme et de mouvement de haut niveau, elle est capable de fonctionner en temps réel. Pour ce travail, les auteurs ont créé leur propre ensemble de données en téléchargeant des vidéos contenant des comportements violents de foule depuis Youtube.
Tous ces travaux utilisent différentes approches pour détecter la violence dans les vidéos et tous utilisent leurs propres ensembles de données à des fins de formation et de test. Ils ont tous leur propre définition de la violence. Cela démontre un problème majeur pour la détection de la violence, à savoir le manque d’ensembles de données de référence indépendants et d’une définition commune de la violence, sans lesquels la comparaison entre différentes approches n’a aucun sens.
Pour résoudre ce problème, Demarty et al. [16] ont présenté un benchmark pour la détection automatique des segments de violence dans les films dans le cadre de l'initiative de benchmarking multimédia MediaEval-2011 [1]. Ce référentiel est très utile car il fournit un ensemble de données cohérent et substantiel avec une définition commune de la violence et des protocoles et mesures d'évaluation. Les détails de l'ensemble de données fourni sont discutés en détail dans la section 4.1. Des travaux récents sur la reconnaissance de la violence dans les vidéos ont utilisé cet ensemble de données et des détails sur certains d'entre eux sont fournis ci-après.
Acar et coll. [1] ont proposé une approche qui fusionne les fonctionnalités visuelles et audio de manière supervisée en utilisant des SVM à une et deux classes pour la détection de la violence dans les films. Les fonctionnalités visuelles et audio de bas niveau sont extraites des plans vidéo des films, puis combinées de manière à fusionner rapidement pour former des SVM. Les fonctionnalités MFCC sont extraites pour décrire le contenu audio et l'approche Bag-of-Words basée sur SIFT (Scale-Invariant Feature Transform - Lowe [39]) est utilisée pour le contenu visuel.
Jiang et coll. [33] ont proposé une méthode pour détecter la violence basée sur un ensemble de caractéristiques dérivées de l'apparence et du mouvement des trajectoires locales des patchs (Jiang et al. [34]). Parallèlement à ces trajectoires de correctifs, d'autres fonctionnalités telles que les fonctionnalités SIFT, STIP et MFCC sont extraites et utilisées pour entraîner un classificateur SVM à détecter différentes catégories de violence. Un lissage des scores et des caractéristiques est effectué pour augmenter la précision.
Lam et coll. [36] ont évalué les performances des fonctionnalités audiovisuelles de bas niveau pour la tâche de détection de scènes violentes en utilisant les ensembles de données et les protocoles d'évaluation fournis par MediaEval. Dans ce travail, les fonctionnalités visuelles locales et globales sont utilisées ainsi que les fonctionnalités audio de mouvement et MFCC. Toutes ces caractéristiques sont extraites pour chaque image clé d'un plan et sont regroupées pour former un seul vecteur de caractéristiques pour ce plan. Un classificateur SVM est formé pour classer les tirs comme étant violents ou non-violents en fonction de ce vecteur caractéristique. Eyben et coll. [23] ont appliqué l’extraction de caractéristiques segmentaires à grande échelle ainsi que la classification audiovisuelle pour détecter la violence. L'extraction des fonctionnalités audio est effectuée avec la boîte à outils d'extraction de fonctionnalités open source openSmile (Eyben et Schuller [22]). Des fonctionnalités visuelles de bas niveau telles que l'histogramme de la valeur de saturation de la teinte (HSV), l'analyse du flux optique et la détection des contours laplaciens sont calculées et utilisées pour la détection de la violence. Les classificateurs SVM linéaires sont utilisés pour la classification et une simple moyenne des scores est utilisée pour la fusion.
En résumé, presque toutes les méthodes décrites ci-dessus tentent de détecter la violence dans les films en utilisant différentes caractéristiques audio et visuelles en n'attendant que quelques-unes [Nievas et al. [42], Hassner et al. [28]], qui utilisent les données vidéo des caméras de surveillance ou d'autres systèmes de vidéo en temps réel. On peut également constater que tous ces travaux n’utilisent pas le même ensemble de données et ont chacun leur propre définition de la violence. L'introduction de l'ensemble de données MediaEval pour la détection de scènes violentes (VSD) en 2011 a résolu ce problème. La version récente de l'ensemble de données, VSD2014, inclut également du contenu vidéo de Youtube en dehors des films hollywoodiens et encourage les chercheurs à tester leur approche sur le contenu vidéo généré par les utilisateurs.
L'approche proposée présentée au chapitre 3 est motivée par les travaux antérieurs sur la détection de la violence, discutés au chapitre 2. Dans l'approche proposée, des signaux audio et visuels sont utilisés pour détecter la violence. Les fonctionnalités MFCC sont utilisées pour décrire le contenu audio et les fonctionnalités de sang, de mouvement et SentiBank sont utilisées pour décrire le contenu vidéo. Les classificateurs SVM sont utilisés pour classer chacune de ces caractéristiques et une fusion tardive est appliquée pour fusionner les scores du classificateur.
Même si cette approche s'appuie sur des travaux antérieurs sur la détection de la violence, ses apports importants sont : (i) Détection des différentes classes de violence. Les travaux antérieurs sur la détection de la violence se concentraient uniquement sur la détection de la présence de violence dans une vidéo. Cette approche proposée est l’une des premières à résoudre ce problème. (ii) Utilisation de la fonctionnalité SentiBank pour décrire le contenu visuel d'une vidéo. SentiBank est une fonctionnalité visuelle utilisée pour décrire les sentiments dans une image. Cette fonctionnalité était auparavant utilisée pour détecter le contenu réservé aux adultes dans les vidéos (Schulze et al. [52]). Dans ce travail, il est utilisé pour la première fois pour détecter des contenus violents. (iii) Utilisation d'un modèle couleur tridimensionnel, généré à l'aide d'images provenant du Web, pour détecter les pixels représentant le sang. Ce modèle couleur est très robuste et a montré de très bons résultats dans la détection du sang. (iv) Utilisation d'informations intégrées dans un codec vidéo pour générer des fonctionnalités de mouvement. Cette approche est très rapide par rapport aux autres, car les vecteurs de mouvement pour chaque pixel sont précalculés et stockés dans le codec vidéo. Une explication détaillée de cette approche proposée est présentée dans le chapitre suivant, chapitre 3.
Cet article est disponible sur arxiv sous licence CC 4.0.
[1] http://www.multimediaeval.org