paint-brush
Détection de la violence dans les vidéos : expériences et résultatspar@kinetograph
112 lectures

Détection de la violence dans les vidéos : expériences et résultats

Trop long; Pour lire

Dans cet article, les chercheurs proposent un système de détection automatique de la violence dans les vidéos, utilisant des indices audio et visuels pour la classification.
featured image - Détection de la violence dans les vidéos : expériences et résultats
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


Auteurs:

(1) Praveen Tirupattur, Université de Floride centrale.

Tableau des liens

4. Expériences et résultats

Dans ce chapitre, les détails des expériences menées pour évaluer les performances du système en matière de détection de contenus violents dans les vidéos sont présentés. La première section traite des ensembles de données utilisés pour ce travail, la section suivante décrit le dispositif expérimental et enfin dans la dernière section, les résultats des expériences réalisées sont présentés.

4.1. Ensembles de données

Dans ce travail, des données provenant de plusieurs sources ont été utilisées pour extraire des caractéristiques audio et visuelles, former les classificateurs et tester les performances du système. Les deux principaux ensembles de données utilisés ici sont l'ensemble de données sur les scènes violentes (VSD) et l'ensemble de données sur les combats de hockey. Outre ces deux ensembles de données, des images provenant de sites Web tels que Google Images[1] sont également utilisées. Chacun de ces ensembles de données et leur utilisation dans ce travail sont décrits en détail dans les sections suivantes.

4.1.1. Ensemble de données sur les scènes de violence

Violent Scene Dataset (VSD) est un ensemble de données annotées pour la détection de scènes violentes dans les films hollywoodiens et les vidéos du Web. Il s'agit d'un ensemble de données accessible au public spécialement conçu pour le développement de techniques de détection basées sur le contenu ciblant la violence physique dans les films et les vidéos provenant de sites Web tels que YouTube[2]. L'ensemble de données VSD a été initialement introduit par Demarty et al. [15] dans le cadre de l'initiative de référence MediaEval, qui sert de cadre de validation pour l'ensemble de données et établit une base de référence de pointe pour la tâche de détection de la violence. La dernière version de l'ensemble de données VSD2014 est une extension considérable de ses versions précédentes (Demarty et al. [19] , Demarty et al. [18] et Demarty et al. [17]) à plusieurs égards. Premièrement, pour annoter les films et les vidéos générées par les utilisateurs, une définition de la violence plus proche du scénario du monde réel ciblé est utilisée en se concentrant sur la violence physique qu'un enfant de 8 ans ne laisserait pas regarder. Deuxièmement, l’ensemble de données contient un ensemble important de 31 films hollywoodiens. Troisièmement, VSD2014 comprend 86 clips vidéo Web et leurs métadonnées extraites de YouTube pour servir à tester les capacités de généralisation du système développé pour détecter la violence. Quatrièmement, il comprend des descripteurs de contenu audiovisuel de pointe. L'ensemble de données fournit des annotations de scènes violentes et de concepts liés à la violence pour une collection (i) de films hollywoodiens et (ii) de vidéos générées par les utilisateurs et partagées sur le Web. En plus des annotations, des fonctionnalités audio et visuelles précalculées et diverses métadonnées sont fournies.


L'ensemble de données VSD2014 est divisé en trois sous-ensembles différents, appelés Hollywood : Développement, Hollywood : Test et YouTube : Généralisation. Veuillez vous référer au tableau 4.1 pour un aperçu des trois sous-ensembles et des statistiques de base, y compris la durée, la fraction de scènes violentes (en pourcentage par image) et la durée moyenne d'une scène violente. Le contenu de l'ensemble de données VSD2014 est classé en trois types : films/vidéos, fonctionnalités et annotations.


Les films hollywoodiens inclus dans l'ensemble de données sont choisis de telle sorte qu'ils appartiennent à des genres différents et présentent une diversité dans les types de violence qu'ils contiennent. Des films allant d'un contenu extrêmement violent à pratiquement aucun contenu violent sont sélectionnés pour créer cet ensemble de données. Les films sélectionnés contiennent également un large éventail de types de violence. Par exemple, les films de guerre, tels que Il faut sauver le soldat Ryan, contiennent des fusillades et des scènes de bataille spécifiques impliquant de nombreuses personnes, avec un flux audio fort et dense contenant de nombreux effets spéciaux. Les films d'action, tels que Bourne Identity, contiennent des scènes de combats impliquant seulement quelques participants, éventuellement au corps à corps. Les films catastrophes, comme Armageddon, montrent la destruction de villes entières et contiennent d’énormes explosions. Parallèlement à cela, quelques films totalement non violents sont également ajoutés à l'ensemble de données pour étudier le comportement des algorithmes sur ce type de contenu. Comme les films réels ne peuvent pas être fournis dans l'ensemble de données en raison de problèmes de droits d'auteur, des annotations pour 31 films, 24 dans Hollywood : Développement et 7 dans Hollywood : Test, sont fournies. L'ensemble YouTube : Généralisation contient des clips vidéo partagés sur YouTube sous licence Creative Commons. Un total de 86 clips au format MP4 sont inclus dans l'ensemble de données. Outre les métadonnées vidéo telles que l'identifiant de la vidéo, la date de publication, la catégorie, le titre, l'auteur, le rapport hauteur/largeur, la durée, etc., sont fournies sous forme de fichiers XML.


Dans cet ensemble de données, un ensemble commun de descripteurs audio et visuels est fourni. Fonctionnalités audio telles que l'enveloppe d'amplitude (AE), l'énergie quadratique moyenne (RMS), le taux de passage par zéro (ZCR), le rapport d'énergie de bande (BER), le centroïde spectral (SC), la bande passante de fréquence (BW), le flux spectral ( SF) et les coefficients cepstraux de fréquence Mel (MFCC) sont fournis par trame vidéo. Comme l'audio a un taux d'échantillonnage de 44 100 Hz et que les vidéos sont codées à 25 ips, une fenêtre d'une taille de 1 764 échantillons audio est considérée pour calculer ces caractéristiques et 22 MFCC sont calculés pour chaque fenêtre tandis que toutes les autres caractéristiques sont unidimensionnelles. Les fonctionnalités vidéo fournies dans l'ensemble de données incluent des histogrammes de dénomination des couleurs (CNH), des moments de couleur (CM), des modèles binaires locaux (LBP) et des histogrammes de dégradés orientés (HOG). Les fonctionnalités audio et visuelles sont fournies dans les fichiers Matlab version 7.3 MAT, qui correspondent au format HDF5.


Tableau 4.1 : Statistiques des films et vidéos dans les sous-ensembles VSD2014. Toutes les valeurs sont données en secondes.


L'ensemble de données VSD2014 contient des annotations binaires de toutes les scènes violentes, où une scène est identifiée par ses images de début et de fin. Ces annotations pour les films hollywoodiens et les vidéos YouTube sont créées par plusieurs évaluateurs humains et sont ensuite examinées et fusionnées pour garantir un certain niveau de cohérence. Chaque segment violent annoté ne contient qu'une seule action, lorsque cela est possible. Dans les cas où différentes actions se chevauchent, les segments sont fusionnés. Ceci est indiqué dans les fichiers d'annotations par l'ajout de la balise « scène d'action multiple ». En plus des annotations binaires de segments contenant de la violence physique, les annotations incluent également des concepts de haut niveau pour 17 films de l'ensemble Hollywood : Développement. En particulier, 7 concepts visuels et 3 concepts audio sont annotés, en utilisant un protocole d'annotation similaire à celui utilisé pour les annotations violentes/non violentes. Les concepts sont la présence de sang, les combats, la présence de feu, la présence d'armes à feu, la présence d'armes froides, les poursuites en voiture et les scènes sanglantes, pour la modalité visuelle ; la présence de coups de feu, d'explosions et de cris pour la modalité audio.


Une description plus détaillée de cet ensemble de données est fournie par Schedl et al. [51] et pour plus de détails sur chacune des classes de violence, veuillez vous référer à Demarty et al. [19].

4.1.2. Ensemble de données de combats

Cet ensemble de données est introduit par Nievas et al. [42] et il est créé spécifiquement pour évaluer les systèmes de détection de combat. Cet ensemble de données se compose de deux parties, la première partie (« Hockey ») se compose de 1 000 clips à une résolution de 720 × 576 pixels, divisés en deux groupes, 500 combats et 500 non-combats, extraits de matchs de hockey de la Ligue nationale de hockey. Ligue (LNH). Chaque clip est limité à 50 images et résolution abaissée à 320 × 240. La deuxième partie (« Films ») est composée de 200 clips vidéo, 100 combats et 100 non-combats, dans lesquels les combats sont extraits de films d'action et de non-combats. les vidéos de combat sont extraites d’ensembles de données de reconnaissance d’action publique. Contrairement à l’ensemble de données sur le hockey, qui était relativement uniforme tant dans son format que dans son contenu, ces vidéos représentent une plus grande variété de scènes et ont été capturées à différentes résolutions. Reportez-vous à la figure 4.1 pour certaines des images montrant les combats des vidéos des deux ensembles de données. Cet ensemble de données est disponible en ligne pour téléchargement[3].


Figure 4.1 : Exemples d'images de vidéos de combat dans les ensembles de données Hockey (en haut) et Film d'action (en bas).

4.1.3. Données du Web

Les images de Google sont utilisées pour développer les modèles de couleurs (section 3.1.1.2) pour les classes sanguines et non sanguines, qui sont utilisées pour extraire le descripteur de caractéristiques sanguines pour chaque image d'une vidéo. Les images contenant du sang sont téléchargées depuis Google Images 1 à l'aide de mots de requête tels que « images sanglantes », « scènes sanglantes », « saignement », « éclaboussures de sang réel », etc. De même, les images ne contenant pas de sang sont téléchargées à l'aide de mots de recherche tels que « nature", "printemps", "peau", "voitures" etc.


L'utilitaire permettant de télécharger des images depuis Google, à partir d'un mot recherché, a été développé en Python à l'aide de la bibliothèque Beautiful Soup (Richardson [48]). Pour chaque requête, la réponse contenait environ 100 images dont seules les 50 premières étaient sélectionnées pour être téléchargées et enregistrées dans un répertoire de fichiers local. Environ 1 000 images ont été téléchargées au total, combinant classes sanguines et non sanguines. Les dimensions moyennes des images téléchargées sont de 260 × 193 pixels avec une taille de fichier d'environ 10 kilo-octets. Reportez-vous à la figure 3.3 pour certains exemples d’images utilisées dans ce travail.

4.2. Installation

Dans cette section, les détails de la configuration expérimentale et les approches utilisées pour évaluer les performances du système sont présentés. Dans le paragraphe suivant, le partitionnement de l'ensemble de données est discuté et les paragraphes suivants expliquent les techniques d'évaluation.


Comme mentionné dans la section 4.1 précédente, des données provenant de plusieurs sources sont utilisées dans ce système. La source la plus importante est l’ensemble de données VSD2014. Il s'agit du seul ensemble de données accessible au public qui fournit des données vidéo annotées sur diverses catégories de violence et c'est la principale raison de l'utilisation de cet ensemble de données dans le développement de ce système. Comme expliqué dans la section 4.1.1 précédente, cet ensemble de données contient trois sous-ensembles, Hollywood : Développement, Hollywood : Test et YouTube : Généralisation. Dans ce travail, les trois sous-ensembles sont utilisés. Le sous-ensemble Hollywood : Développement est le seul ensemble de données annoté avec différentes classes de violence. Ce sous-ensemble composé de 24 films hollywoodiens est divisé en 3 parties. La première partie composée de 12 films (Eragon, Fantastic Four 1, Fargo, Fight Club, Harry Potter 5, I Am Legend, Independence Day, Legally Blond, Leon, Midnight Express, Pirates Of The Caribbean, Reservoir Dogs) est utilisée pour l'entraînement. les classificateurs. La deuxième partie composée de 7 films (Il faut sauver le soldat Ryan, The Bourne Identity, The God Father, The Pianist, The Sixth Sense, The Wicker Man, The Wizard of Oz) est utilisée pour tester les classificateurs formés et calculer les poids pour chaque violence. taper. La dernière partie composée de 3 films (Armageddon, Billy Elliot et Dead Poets Society) est utilisée pour l'évaluation. Les sous-ensembles Hollywood : Test et YouTube : Généralisation sont également utilisés à des fins d'évaluation, mais pour une tâche différente. Les paragraphes suivants fournissent des détails sur les approches d’évaluation utilisées.


Pour évaluer les performances du système, deux tâches de classification différentes sont définies. Dans la première tâche, le système doit détecter une catégorie spécifique de violence présente dans un segment vidéo. La deuxième tâche est plus générique où le système doit uniquement détecter la présence de violence. Pour ces deux tâches, différents ensembles de données sont utilisés pour l'évaluation. Dans la première tâche qui est une tâche de classification multiclasse, l'ensemble de validation composé de 3 films hollywoodiens (Armageddon, Billy Elliot et Dead Poets Society) est utilisé. Dans ce sous-ensemble, chaque intervalle de trame contenant de la violence est annoté avec la classe de violence présente. Par conséquent, cet ensemble de données est utilisé pour cette tâche. Ces 3 films n'ont été utilisés ni pour la formation, ni pour les tests des classificateurs, ni pour le calcul de poids afin que le système puisse être évalué sur des données purement nouvelles. La procédure illustrée à la figure 3.1 est utilisée pour calculer la probabilité qu'un segment vidéo appartienne à une classe spécifique de violence. Les probabilités de sortie du système et les informations de vérité terrain sont utilisées pour générer des courbes ROC (Receiver Operating Characteristic) et pour évaluer les performances du système.


Dans la deuxième tâche, qui est une tâche de classification binaire, les sous-ensembles Hollywood : Test et YouTube : Généralisation de l'ensemble de données VSD2104 sont utilisés. Le sous-ensemble Hollywood : Test comprend 8 films hollywoodiens et le sous-ensemble YouTube : Généralisation comprend 86 vidéos de YouTube. Dans ces deux sous-ensembles, les intervalles de trames contenant de la violence sont fournis sous forme d'annotations et aucune information sur la classe de violence n'est fournie. Par conséquent, ces sous-ensembles sont utilisés pour cette tâche. Dans cette tâche, similaire à la précédente, la procédure illustrée à la figure 3.1 est utilisée pour calculer la probabilité qu'un segment vidéo appartienne à une classe spécifique de violence. Pour chaque segment vidéo, la probabilité maximale obtenue pour n'importe quelle classe de violence est considérée comme la probabilité qu'elle soit violente. Semblable à la tâche ci-dessus, les courbes ROC sont générées à partir de ces valeurs de probabilité et de la vérité terrain de l'ensemble de données.


Dans ces deux tâches, toutes les fonctionnalités sont d’abord extraites des ensembles de données de formation et de test. Ensuite, les ensembles de données de formation et de test sont échantillonnés de manière aléatoire pour obtenir une quantité égale d'échantillons positifs et négatifs. 2 000 échantillons de fonctionnalités sont sélectionnés pour la formation et 3 000 sont sélectionnés pour les tests. Comme mentionné ci-dessus, des ensembles de formation et de test disjoints sont utilisés pour éviter les tests sur les données de formation. Dans les deux tâches, les classificateurs SVM avec noyaux linéaire, fonction de base radiale et chi carré sont formés pour chaque type de caractéristiques et les classificateurs avec de bons scores de classification sur l'ensemble de test sont sélectionnés pour l'étape de fusion. Lors de l'étape de fusion, les pondérations pour chaque type de violence sont calculées en recherchant sur une grille les combinaisons possibles qui maximisent les performances du classificateur. La mesure EER (Equal Error Rate) est utilisée comme mesure de performance.

4.3. Expériences et résultats

Dans cette section, les expériences et leurs résultats sont présentés. Tout d’abord, les résultats de la tâche de classification multi-classes sont présentés, suivis des résultats de la tâche de classification binaire.

4.3.1. Classification multiclasse

Dans cette tâche, le système doit détecter la catégorie de violence présente dans une vidéo. Les catégories de violence ciblées dans ce système sont le Sang, les Armes froides, les Explosions, les Bagarres, le Feu, les Armes à feu, les Coups de feu, les Cris. Comme mentionné dans le chapitre 1, il s'agit du sous-ensemble de catégories de violence définies dans le VSD2014. Outre ces huit catégories, les poursuites en voiture et la violence subjective sont également définies dans VSD2014, qui ne sont pas utilisées dans ce travail car il n'y avait pas suffisamment de segments vidéo marqués avec ces catégories dans l'ensemble de données. Cette tâche est très difficile car la détection des sous-catégories de violence ajoute encore plus de complexité au problème complexe de la détection de la violence. La tentative de détecter des concepts précis de violence par ce système est nouvelle et il n’existe aucun système existant permettant de réaliser cette tâche.


Comme mentionné au chapitre 3, ce système utilise une approche de fusion de décisions pondérées pour détecter plusieurs classes de violence où les pondérations pour chaque catégorie de violence sont apprises à l'aide d'une technique de recherche par grille. Veuillez vous référer à la section 3.1.3 pour plus de détails sur cette approche. Dans le tableau 4.2, les poids pour chaque classe de violence trouvée à l'aide de cette technique de recherche par grille sont présentés.


Ces poids sont utilisés pour obtenir la somme pondérée des valeurs de sortie des classificateurs de caractéristiques binaires pour chaque catégorie de violence. La catégorie avec la somme la plus élevée est alors la catégorie de violence présente dans ce segment vidéo. Si la somme de sortie est inférieure à 0,5, le segment vidéo est classé comme non violent. Les segments vidéo de l'ensemble de validation sont classés en utilisant cette approche et les résultats sont présentés dans la figure 4.2. Dans la figure, chaque courbe représente la courbe ROC pour chacune des catégories de violence.


Tableau 4.2 : Poids du classificateur obtenus pour chacune des classes de violence à l'aide de la technique de recherche en grille. Ici, le critère de sélection des poids pour une classe de violence était de trouver les poids qui minimisent l'EER pour cette classe de violence.



Figure 4.2 : Performances du système dans la tâche de classification multi-classes.

4.3.2. Classification binaire

Dans cette tâche de classification binaire, le système est censé détecter la présence de violence sans avoir à trouver la catégorie. Semblable à la tâche précédente, les probabilités de sortie des classificateurs de caractéristiques binaires sont combinées à l'aide d'une approche de somme pondérée et les probabilités de sortie du segment vidéo d'appartenir à chacune des classes de violence sont calculées. Si la probabilité maximale pour l’une des classes dépasse 0,5, alors le segment vidéo est classé comme violence ou bien il est classé comme non-violence. Comme mentionné dans la section 4.2, cette tâche est effectuée sur les ensembles de données YouTube-Généralisation et Hollywood-Test. La figure 4.3 fournit les résultats de cette tâche sur les deux ensembles de données. Deux courbes ROC, une pour chacun des ensembles de données, sont utilisées pour représenter les performances du système. En utilisant 0,5 comme seuil pour décider si le segment vidéo contient ou non de la violence, les valeurs de précision, de rappel et d'exactitude sont calculées. Veuillez vous référer au tableau 4.3 pour les résultats obtenus.


Tableau 4.3 : Résultats de classification obtenus en utilisant l'approche proposée.


Tableau 4.4 : Résultats de classification obtenus par les équipes les plus performantes de MediaEval-2014 (Schedl et al. [51]).

4.4. Discussion

Dans cette section, les résultats présentés à la section 4.3 sont discutés. Avant de discuter des résultats des tâches de classification multi-classes et binaires, les performances des classificateurs individuels sont discutées.

4.4.1. Classificateurs individuels

Dans les deux tâches de classification abordées dans la section 4.3, une fusion des scores du classificateur est effectuée pour obtenir les résultats finaux. Ainsi, la performance du système dépend principalement de la performance individuelle de chacun des classificateurs et en partie des poids attribués à chacun des classificateurs. Pour que les résultats finaux du classement soient bons, il est important que chacun des classificateurs ait de bonnes performances individuelles. Pour obtenir les classificateurs les plus performants, les SVM sont formés à l'aide de trois fonctions de noyau différentes (linéaire, RBF et chi carré) et le classificateur offrant des performances optimales sur l'ensemble de test est sélectionné. Suivant cette approche, les classificateurs les plus performants pour chaque type de fonctionnalité sont sélectionnés. Les performances de ces classificateurs sélectionnés sur l'ensemble de données de test sont présentées dans la figure 4.4. On peut observer que SentiBank et Audio sont les deux classificateurs de fonctionnalités qui affichent des performances raisonnables sur l'ensemble de test. Le classificateur de fonctionnalités de mouvement a des performances un peu meilleures que le hasard et Blood a des performances équivalentes au hasard. Une discussion détaillée sur les performances de chacun de ces classificateurs dans l’ordre croissant de leurs performances est présentée ensuite.


Figure 4.4 : Performances des classificateurs binaires individuels sur l'ensemble de test.


Figure 4.5 : Performances des classificateurs de fonctionnalités Motion sur les ensembles de données Hockey et HollywoodTest. La courbe rouge concerne le classificateur formé sur l'ensemble de données Hockey et les trois autres sont pour les trois classificateurs formés sur l'ensemble de données Hollywood-Dev avec les noyaux Linéaire, RBF et Chi carré.

4.4.1.1. Mouvement

Comme le montre la figure 4.4, les performances du classificateur de caractéristiques de mouvement sur l'ensemble de test ne sont qu'un peu meilleures que le hasard. Pour comprendre la raison derrière cela, les performances de tous les classificateurs de caractéristiques de mouvement, formés avec différents noyaux SVM sur les ensembles de données disponibles, sont comparées. Reportez-vous à la figure 4.5 pour la comparaison. Dans la figure, le tracé de gauche montre les performances des classificateurs sur l'ensemble de tests de l'ensemble de données Hockey et le tracé de droite montre la comparaison sur l'ensemble de données Hollywood-Test. Dans les deux graphiques, la courbe rouge correspond au classificateur formé sur l'ensemble de données Hockey et les trois courbes restantes correspondent aux classificateurs formés sur l'ensemble de données Hollywood-Dev.


À partir de ces deux graphiques, on peut observer que les performances des classificateurs formés et testés sur le même ensemble de données sont raisonnablement bonnes par rapport aux classificateurs formés sur un ensemble de données et testés sur un autre. Dans le tracé de gauche (TestSet : Hockey Dataset), le classificateur formé sur Hockey Dataset a de meilleures performances. De même, dans le graphique de droite (TestSet : Hollywood-Test), les performances des classificateurs formés sur l'ensemble de données Hollywood-Dev sont meilleures. De ces observations, on peut déduire que la représentation des caractéristiques de mouvement apprise à partir d’un ensemble de données ne peut pas être transférée vers un autre ensemble de données. La raison en est peut-être la disparité de résolution vidéo et de format vidéo entre les ensembles de données. Les vidéos de l'ensemble de données Hockey et de l'ensemble de données Hollywood-Test ont des formats différents, et toutes les vidéos de Hollywood-Development et Hollywood-Test n'ont pas non plus le même format. Le format vidéo joue un rôle important car la procédure utilisée pour extraire les caractéristiques de mouvement (expliquée dans la section 3.1.1.3.1) utilise les informations de mouvement des codecs vidéo. La longueur et la résolution d'une vidéo auront également un certain effet, même si la procédure utilisée ici tente de réduire cet effet en normalisant les caractéristiques extraites avec la longueur du segment vidéo et en agrégeant les mouvements des pixels sur un nombre prédéfini de sous-régions. du cadre. Les vidéos de l'ensemble de données Hockey sont des segments très courts d'une seconde chacun et ont une petite taille d'image et une qualité médiocre. Tandis que les segments vidéo de l’ensemble de données Hollywood sont plus longs et ont une taille d’image plus grande avec une meilleure qualité. Une solution à ce problème pourrait être de convertir toutes les vidéos au même format, mais même dans ce cas, il pourrait y avoir un problème dû à un encodage vidéo incorrect. L'autre solution pourrait être d'utiliser une approche basée sur le flux optique pour extraire les caractéristiques de mouvement (expliquée dans la section 3.1.1.3.2). Mais comme expliqué précédemment, cette approche est fastidieuse et peut ne pas fonctionner lorsqu'il y a du flou dû au mouvement dans une vidéo.

4.4.1.2. Sang

Les performances du classificateur de caractéristiques sanguines sur l’ensemble de tests sont aussi bonnes qu’une chance. Reportez-vous à la figure 4.4 pour les résultats. Ici, le problème ne vient pas de l'extraction des caractéristiques, car le détecteur de sang utilisé pour l'extraction des caractéristiques du sang a montré de très bons résultats dans la détection des régions contenant du sang dans une image. Veuillez vous référer à la figure 3.4 pour les performances du détecteur de sang sur des images provenant du Web et à la figure 4.6 pour ses performances sur des images d'échantillon de l'ensemble de données Hollywood. À partir de là, il est clair que l’extracteur de caractéristiques sanguines fait un très bon travail et que ce n’est pas le problème avec l’extraction de caractéristiques. Par conséquent, on peut conclure que le problème vient de la formation du classificateur et qu’il est dû à la disponibilité limitée des données de formation.


Dans l'ensemble de données VSD2014 utilisé pour la formation, les segments vidéo contenant du sang sont annotés avec des étiquettes (« Imperceptible », « Faible », « Moyen » et « Élevé ») représentant la quantité de sang contenue dans ces segments. Il y a très peu de segments dans cet ensemble de données qui sont annotés avec l'étiquette « Élevé », de sorte que les classificateurs SVM ne sont pas en mesure d'apprendre efficacement la représentation caractéristique des images contenant du sang. Les performances de ce classificateur de fonctionnalités peuvent être améliorées en l'entraînant avec un ensemble de données plus vaste comportant de nombreuses instances de trames contenant une grande quantité de sang. Alternativement, des images de Google peuvent également être utilisées pour entraîner ce classificateur.

4.4.1.3. l'audio

Le classificateur de fonctionnalités audio est le deuxième classificateur le plus performant (voir Figure 4.4) sur l'ensemble de test, ce qui montre l'importance de l'audio dans la détection de la violence. Bien que les caractéristiques visuelles soient de bons indicateurs d’un contenu violent, il existe certaines scènes dans lesquelles l’audio joue un rôle plus important. Par exemple, des scènes contenant des combats, des coups de feu et des explosions. Ces scènes ont des sons caractéristiques et des fonctionnalités audio telles que les MFCC et l'entropie énergétique, peuvent être utilisées pour détecter les modèles sonores associés à ces scènes violentes. Dans ce travail, les fonctionnalités MFCC sont utilisées pour décrire le contenu audio (voir la section 3.1.1.1) comme dans de nombreux travaux antérieurs sur la détection de la violence (Acar et al. [1], Jiang et al. [33], Lam et al. [36 ], etc.) ont montré l’efficacité des fonctionnalités MFCC dans la détection des signatures audio associées aux scènes violentes. D'autres fonctionnalités audio telles que l'entropie énergétique, la hauteur et le spectre de puissance peuvent également être utilisées avec les fonctionnalités MFCC pour améliorer encore les performances du classificateur de fonctionnalités. Mais il est important de noter que l'audio à lui seul ne suffit pas à détecter la violence et qu'il ne joue un rôle important que dans la détection de quelques classes de violence telles que les coups de feu et les explosions qui ont des signatures audio uniques.

4.4.1.4. SentiBank

Le classificateur de fonctionnalités SentiBank a montré les meilleures performances de tous les classificateurs de fonctionnalités (voir Figure 4.4) et a fortement contribué aux performances globales du système. Cela démontre la puissance de SentiBank, dans la détection de sentiments visuels complexes tels que la violence. La figure 4.7 montre les scores moyens des 50 meilleurs ANP pour les cadres contenant de la violence et sans violence. Comme on peut le constater, la liste des ANP avec les scores moyens les plus élevés pour les classes de violence et de non-violence est très différente et c'est la raison qui explique la très bonne performance de SentiBank dans la séparation des classes de violence et de non-violence. Notez que tous les adjectifs de la liste ANP pour la classe de violence ne décrivent pas la violence. Cela pourrait être dû à de nombreuses raisons différentes, dont l'une pourrait être le fait que, sur les 1 200 ANP utilisés dans SentiBank, seuls quelques-uns décrivent les émotions liées à la violence (comme la peur, la terreur, la rage, la colère, etc.). Veuillez vous référer à la figure 4.8 qui montre la roue des émotions de Plutchik et la distribution des ANP pour chaque catégorie d'émotion dans VSO.


Figure 4.6 : Figure montrant les performances du détecteur de sang sur des images d'échantillon de l'ensemble de données Hollywood. Les images de la première colonne (A et D) sont les images d'entrée, les images de la deuxième colonne (B et E) sont les cartes de probabilité sanguine et les images de la dernière colonne (C et F) sont les cartes de probabilité sanguine binarisées.

4.4.2. Poids de fusion

Comme mentionné précédemment (section 3.1.3), les scores de classification finaux sont calculés par fusion tardive des scores individuels des classificateurs en utilisant une approche de somme pondérée. Les poids utilisés ici sont calculés à l'aide d'une approche de recherche par grille dans le but de minimiser le taux d'erreur égal (EER). Ainsi, les pondérations jouent un rôle important dans la détermination des performances globales de classification du système. Notez que tous ces poids sont calculés sur l’ensemble de test. Dans le tableau 4.2, les poids des classificateurs pour chacune des huit classes de violence, obtenus à l'aide de la technique de recherche par grille, sont présentés. À partir des poids obtenus, les observations suivantes sur la répartition des poids peuvent être faites : (i) Pour la plupart des classes de violence, le poids le plus élevé est attribué à SentiBank car il s'agit de la caractéristique la plus discriminante. (ii) L'audio a reçu la pondération la plus élevée pour les classes de violence telles que les coups de feu, les explosions et les combats, où l'audio joue un rôle très important. (iii) Le sang a reçu une pondération élevée pour les classes de violence telles que les cris, les coups de feu et les armes à feu. Ceci est intéressant car un segment vidéo appartenant à l’une de ces classes de violence peut également contenir du sang. (iv) Le mouvement a reçu le moins de poids dans la plupart des classes de violence car il s'agit de la fonctionnalité la moins performante. Mais on peut également observer qu'il a un poids plus élevé pour la classe Combats où l'on peut s'attendre à beaucoup de mouvements.


Si les poids attribués à chacune des classes de violence sont analysés, les observations suivantes peuvent être faites : (i) Pour la classe Coups de feu, les poids de distribution les plus élevés se situent entre Audio (0,5) et Sang (0,45). Ceci est attendu car les fonctionnalités audio jouent un rôle important dans la détection des coups de feu et les scènes contenant des coups de feu devraient également contenir beaucoup de sang. (ii) Les fonctionnalités audio (0,4) et visuelles (Motion - 0,25 et SentiBank - 0,30) ont reçu un poids presque égal pour la classe Combats. Ceci est attendu car les fonctionnalités audio et visuelles sont importantes dans la détection des scènes contenant des combats. (iii) Pour la classe Explosions, les pondérations les plus élevées sont attribuées à l'audio (0,9), ce qui est attendu, car les fonctionnalités audio sont cruciales dans la détection des explosions. (iv) Le feu est une classe de violence dans laquelle les caractéristiques visuelles devraient avoir un poids élevé et, comme prévu, la caractéristique visuelle la plus performante, SentiBank (0,85), se voit attribuer le poids le plus élevé. (v) Classe de violence Froid


Figure 4.7 : Graphiques montrant les scores moyens des 50 meilleurs ANP SentiBank pour les cadres contenant de la violence et sans violence.


Figure 4.8 : Roue des émotions de Plutchik et nombre d’ANP par émotion dans VSO.


les armes contiennent des scènes qui montrent la présence d'une arme blanche (par exemple, des couteaux, des épées, des flèches, des hallebardes, etc.). Pour cette classe, les caractéristiques visuelles devraient avoir une pondération élevée. Et comme prévu, SentiBank (0,95) a le poids le plus élevé pour cette classe. (vi) « Armes à feu » est la classe de violence dans laquelle les scènes contiennent des armes à feu et des armes à feu. Semblable à la classe ci-dessus, les caractéristiques visuelles devraient avoir une pondération élevée. Pour cette classe, SentiBank (0,6) et Blood (0,3) ont reçu la répartition de poids la plus élevée. La raison pour laquelle Blood se voit attribuer un poids plus élevé pourrait être due au fait que la plupart des scènes contenant des armes à feu contiendront également des effusions de sang. (vii) Pour la classe Sang, la caractéristique Sang devrait avoir le poids le plus élevé. Mais la fonctionnalité Blood (0,05) n’a reçu qu’un petit poids et SentiBank (0,95) a gagné le poids le plus élevé. Ce n'est pas un résultat attendu et cela pourrait être dû aux mauvaises performances du classificateur de fonctionnalités Blood sur l'ensemble de test. (viii) Il est intuitif de s'attendre à ce que l'audio ait des pondérations plus élevées pour la classe « Cris », car les fonctionnalités audio jouent un rôle important dans la détection des cris. Mais les pondérations obtenues ici vont à l’encontre de cette intuition. L'audio a reçu beaucoup moins de poids tandis que SentiBank a reçu le poids le plus élevé. Dans l’ensemble, les pondérations obtenues à partir de la recherche par grille correspondent plus ou moins à celles attendues pour la plupart des classes. Une meilleure répartition du poids pourrait être obtenue si les performances des classificateurs individuels lors du test étaient améliorées.

4.4.3. Classification multiclasse

Dans cette section, les résultats obtenus dans la tâche de classification multi-classes sont discutés. Veuillez vous référer à la figure 4.2 pour les résultats obtenus dans cette tâche. De la figure, les observations suivantes peuvent être tirées : (i) Le système montre de bonnes performances (EER d'environ 30 %) dans la détection des coups de feu. (ii) Pour les classes de violence, Armes froides, Sang et Explosions, le système affiche des performances modérées (EER de l'ordre de 40%). (iii) Pour les autres classes de violence (Combats, Cris, Feu, Armes à feu), la performance est aussi bonne qu'une chance (EER de plus de 45%). Ces résultats suggèrent qu’il existe d’énormes possibilités d’amélioration, mais il est important de garder à l’esprit que la détection de la violence n’est pas une tâche triviale et qu’il est encore plus difficile de faire la distinction entre les différentes classes de violence. Toutes les approches proposées jusqu’à présent se sont concentrées uniquement sur la détection de la présence ou de l’absence de violence, mais pas sur la détection de la catégorie de violence. La nouvelle approche proposée dans ce travail est l’une des premières dans cette direction et il n’existe aucun système de référence avec lequel comparer les performances. Les résultats obtenus lors de ces travaux serviront de base aux futurs travaux dans ce domaine.


Dans ce système, l'approche de fusion tardive est suivie, qui a montré de bons résultats dans une tâche similaire de détection de concept multimédia de détection de contenu pour adultes (Schulze et al. [52]). Les mauvaises performances du système ne peuvent donc pas être attribuées à l’approche suivie. Les performances du système dépendent des performances des classificateurs individuels et du poids de fusion qui leur est attribué pour chacune des classes de violence. Comme les poids de fusion sont ajustés pour minimiser l'EER à l'aide de la technique de recherche en grille, les performances globales du système dépendent uniquement des performances des classificateurs individuels. Ainsi, pour améliorer les performances du système dans cette tâche, il est nécessaire d’améliorer les performances des classificateurs individuels dans la détection de la violence.

4.4.4. Classification binaire

Les résultats de la tâche de classification binaire sont présentés dans la figure 4.3. Cette tâche est une extension de la tâche de classification multi-classe. Comme expliqué précédemment, dans cette tâche, un segment vidéo est classé comme « Violence » si la probabilité de sortie pour l'une des classes de violence est supérieure au seuil de 0,5. Les performances du système dans cette tâche sont évaluées sur deux ensembles de données, Hollywood-Test et YouTube-Generalization. On peut observer que les performances du système sur ces jeux de données sont un peu meilleures que le hasard. On peut également observer que les performances sont meilleures sur l'ensemble de données Hollywood-Test que sur l'ensemble de données YouTube-Généralisation. Ceci est attendu car tous les classificateurs sont formés sur les données de l'ensemble de données Hollywood-Development qui ont un contenu vidéo similaire à celui de l'ensemble de données Hollywood-Test. Les valeurs de précision, de rappel et d'exactitude obtenues par le système pour cette tâche sont présentées dans le tableau 4.3. Les résultats obtenus par l'équipe la plus performante dans cette tâche de MediaEval-2014 sont présentés dans le tableau 4.4.


Ces résultats ne peuvent pas être directement comparés, même si le même ensemble de données est utilisé, car le processus utilisé pour l'évaluation n'est pas le même. Dans MediaEval-2014, un système est censé générer l'image de début et de fin des segments vidéo contenant de la violence et, si le chevauchement entre la vérité terrain et les intervalles d'images de sortie est supérieur à 50 %, cela est considéré comme un succès. Veuillez vous référer à Schedl et al. [51] pour plus d'informations sur le processus suivi dans MediaEval-2014. Dans l'approche proposée, le système classe chaque segment d'une seconde de la vidéo d'entrée comme étant de classe « Violence » ou « Pas de violence » et les performances du système sont calculées en comparant cela avec la vérité terrain. Les critères d'évaluation utilisés ici sont beaucoup plus stricts et plus granulaires que ceux utilisés dans MediaEval-2014. Ici, comme la classification est effectuée pour chaque segment d'une seconde, il n'est pas nécessaire d'avoir une stratégie pour pénaliser la détection de segments plus courts. La métrique MAP est utilisée pour sélectionner le système le plus performant dans MediaEval alors que, dans le système proposé, l'EER du système est optimisé.


Même si les résultats obtenus à partir de ce système ne peuvent pas être directement comparés aux résultats de MediaEval, on peut observer que les performances de ce système sont comparables, voire meilleures, au système le plus performant de MediaEval-2014, même si des critères d'évaluation stricts sont utilisés. Ces résultats suggèrent que le système développé à l'aide de la nouvelle approche proposée est meilleur que les systèmes de pointe existants dans ce domaine de détection de la violence.

4.5. Résumé

Dans ce chapitre, une discussion détaillée sur l’évaluation du système développé est présentée. Dans la section 4.1, les détails des ensembles de données utilisés dans ce travail sont expliqués et dans la section suivante, section 4.2, la configuration expérimentale est discutée. Dans la section 4.3, les expériences et leurs résultats sont présentés, suivis d'une discussion détaillée sur les résultats obtenus dans la section 4.4.



Cet article est disponible sur arxiv sous licence CC 4.0.


[1] http://www.images.google.com


[2] http://www.youtube.com


[3] http://visilab.etsii.uclm.es/personas/oscar/FightDetection/index.html