paint-brush
Détection de la violence dans les vidéos : approche proposéepar@kinetograph
102 lectures

Détection de la violence dans les vidéos : approche proposée

Trop long; Pour lire

Dans cet article, les chercheurs proposent un système de détection automatique de la violence dans les vidéos, utilisant des indices audio et visuels pour la classification.
featured image - Détection de la violence dans les vidéos : approche proposée
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


Auteurs:

(1) Praveen Tirupattur, Université de Floride centrale.

Tableau des liens

3. Approche proposée

Ce chapitre fournit une description détaillée de l’approche suivie dans ce travail. L'approche proposée se compose de deux phases principales : formation et tests. Pendant la phase de formation, le système apprend à détecter la catégorie de violence présente dans une vidéo en entraînant des classificateurs avec des caractéristiques visuelles et audio extraites de l'ensemble de données de formation. Lors de la phase de test, le système est évalué en calculant la précision du système dans la détection de la violence pour une vidéo donnée. Chacune de ces phases est expliquée en détail dans les sections suivantes. Veuillez vous référer à la figure 3.1 pour un aperçu de l'approche proposée. Enfin, une section décrivant les métriques utilisées pour évaluer le système est présentée.

3.1. Entraînement

Dans cette section, les détails des étapes impliquées dans la phase de formation sont discutés. L'approche de formation proposée comporte trois étapes principales : l'extraction de fonctionnalités, la classification de fonctionnalités et la fusion de fonctionnalités. Chacune de ces trois étapes est expliquée en détail dans les sections suivantes. Au cours des deux premières étapes de cette phase, les caractéristiques audio et visuelles des segments vidéo contenant de la violence et aucune violence sont extraites et utilisées pour former des classificateurs SVM à deux classes. Ensuite, lors de l'étape de fusion des fonctionnalités, les pondérations des fonctionnalités sont calculées pour chaque type de violence ciblé par le système. Ces poids de caractéristiques sont obtenus en effectuant une recherche de grille sur la combinaison possible de poids et en trouvant la meilleure combinaison qui optimise les performances du système sur l'ensemble de validation. Le critère d'optimisation ici est la minimisation de l'EER (Equal Error Rate) du système. Pour trouver ces poids, un ensemble de données disjoint de l’ensemble d’entraînement est utilisé, qui contient des vidéos violentes de toutes les catégories ciblées. Veuillez vous référer au chapitre 1 pour plus de détails sur les catégories ciblées.


Figure 3.1 : Figure montrant la vue d'ensemble du système. Quatre classificateurs SVM différents sont formés, un pour les fonctionnalités Audio, Sang, Mouvement et SentiBank. Les images du Web sont utilisées pour développer un modèle sanguin permettant de détecter le sang dans les images vidéo. Pour former les classificateurs pour toutes les fonctionnalités, les données de l'ensemble de données VSD2104 sont utilisées. Chacun de ces classificateurs donne individuellement la probabilité qu'un segment vidéo contienne de la violence. Ces probabilités individuelles sont ensuite combinées à l'aide de la technique de fusion tardive et la probabilité de sortie finale, qui est la somme pondérée des probabilités individuelles, est présentée comme sortie du système. La vidéo fournie en entrée du système est divisée en segments d'une seconde et la probabilité que chacun des segments contienne de la violence est obtenue en sortie.

3.1.1. Extraction de caractéristiques

De nombreux chercheurs ont tenté de résoudre le problème de détection de la violence en utilisant différentes fonctionnalités audio et visuelles. Des informations détaillées sur les recherches liées à la détection de la violence sont présentées au chapitre 2. Dans les travaux précédents, les caractéristiques visuelles les plus couramment utilisées pour détecter la violence sont le mouvement et le sang et la fonctionnalité audio la plus couramment utilisée est le MFCC. Outre ces trois fonctionnalités communes de bas niveau, cette approche proposée inclut également SentiBank (Borth et al. [4]), qui est une fonctionnalité visuelle représentant les sentiments dans les images. Les détails de chacune des fonctionnalités et leur importance dans la détection de la violence et les méthodes d'extraction utilisées sont décrits dans les sections suivantes.

3.1.1.1. Caractéristiques du MFCC

Les fonctionnalités audio jouent un rôle très important dans la détection d’événements tels que des coups de feu, des explosions, etc., très courants dans les scènes violentes. De nombreux chercheurs ont utilisé des fonctionnalités audio pour détecter la violence et ont produit de bons résultats. Même si certains des travaux antérieurs portaient sur l'entropie énergétique [Nam et al. [41]] dans le signal audio, la plupart d'entre eux utilisaient les fonctionnalités MFCC pour décrire le contenu audio des vidéos. Ces fonctionnalités MFCC sont couramment utilisées dans la reconnaissance vocale et audio.


Dans ce travail, les fonctionnalités MFCC fournies dans l'ensemble de données VSD2014 sont utilisées pour entraîner le classificateur SVM lors du développement du système. Au cours de l'évaluation, les fonctionnalités MFCC sont extraites du flux audio de la vidéo d'entrée, avec une taille de fenêtre définie sur le nombre d'échantillons audio par image dans le flux audio. Ceci est calculé en divisant le taux d'échantillonnage audio par la valeur fps (images par seconde) de la vidéo. Par exemple, si le taux d'échantillonnage audio est de 44 100 Hz et que la vidéo est codée à 25 ips, chaque fenêtre contient 1 764 échantillons audio. La région de chevauchement de fenêtre est définie sur zéro et 22 MFCC sont calculés pour chaque fenêtre. Avec cette configuration, un vecteur de caractéristiques MFCC à 22 dimensions est obtenu pour chaque image vidéo.

3.1.1.2. Caractéristiques du sang

Le sang est l’élément visible le plus courant dans les scènes d’une extrême violence. Par exemple, des scènes contenant des coups, des coups de couteau, des coups de feu et des explosions. Dans de nombreux travaux antérieurs sur la détection de la violence, la détection de pixels représentant le sang est utilisée car il s'agit d'un indicateur important de la violence. Pour détecter le sang dans un cadre, une table de couleurs prédéfinie est utilisée dans la plupart des travaux antérieurs, par exemple Nam et al. [41] et Lin et Wang [38]. D'autres approches pour détecter le sang, telles que l'utilisation de la carte auto-organisatrice de Kohonen (SOM) (Clarin et al. [12]), sont également utilisées dans certains des travaux antérieurs.


Dans ce travail, un modèle de couleur est utilisé pour détecter les pixels représentant le sang. Il est représenté à l'aide d'un histogramme tridimensionnel avec une dimension chacune pour les valeurs rouge, verte et bleue des pixels. Dans chaque dimension, il y a 32 cases, chaque case ayant une largeur de 8 (32 × 8 = 256). Ce modèle sanguin est généré en deux étapes. Dans un premier temps, le modèle sanguin est amorcé en utilisant les valeurs RVB (Rouge, Vert, Bleu) des pixels contenant du sang. L'histogramme tridimensionnel regroupé est rempli avec les valeurs RVB de ces pixels contenant du sang. La valeur du bac auquel appartient un pixel de sang est incrémentée de 1 à chaque fois qu'un nouveau pixel de sang est ajouté au modèle. Une fois qu'un nombre suffisant de pixels sanglants est utilisé pour remplir l'histogramme, les valeurs dans les bacs sont normalisées par la somme de toutes les valeurs. Les valeurs dans chacun des bacs représentent désormais la probabilité qu'un pixel présente du sang compte tenu de ses valeurs RVB. Pour remplir le modèle sanguin, les pixels contenant du sang sont recadrés à partir de diverses images contenant du sang téléchargées depuis Google. Le recadrage des régions contenant uniquement des pixels de sang se fait manuellement. Veuillez vous référer à l'image Figure 3.2 pour des échantillons des régions recadrées, chacune d'une taille de 20 pixels × 20 pixels.


Figure 3.2 : Figure montrant un échantillon de régions recadrées de taille 20 × 20 contenant du sang.


Une fois le modèle démarré, il est utilisé pour détecter le sang dans les images téléchargées depuis Google. Seuls les pixels ayant une forte probabilité de représenter le sang sont utilisés pour étendre davantage le modèle bootstrap. Le téléchargement des images et l’extension du modèle sanguin se font automatiquement. Pour télécharger des images de Google contenant du sang, des mots de recherche tels que « images sanglantes », « scènes sanglantes », « saignement », « éclaboussures de sang réel », « gouttes de sang » sont utilisés. Certains des échantillons des images téléchargées peuvent être vus dans la figure 3.3. Les valeurs de pixels présentant une probabilité élevée de sang sont ajoutées au modèle sanguin jusqu'à ce qu'il contienne au moins un million de valeurs de pixels.


Ce modèle sanguin à lui seul n’est pas suffisant pour détecter avec précision le sang. Parallèlement à ce modèle sanguin, un modèle non sanguin est également nécessaire. Pour générer cela, similaire à l'approche précédente, des images sont téléchargées depuis Google qui ne contiennent pas de sang et les valeurs de pixels RVB de ces images sont utilisées pour construire le modèle non sanguin. Certains exemples d'images utilisés pour générer ce modèle non sanguin sont présentés à la figure 3.3. En utilisant désormais ces modèles sanguins et non sanguins, la probabilité qu'un pixel représente le sang est calculée comme suit



Figure 3.3 : Figure montrant des exemples d'images téléchargées depuis Google pour générer des modèles sanguins et non sanguins.


À l'aide de cette formule, pour une image donnée, la probabilité que chaque pixel représente du sang est calculée et une carte de probabilité sanguine (BPM) est générée. Cette carte a la même taille que celle de l'image d'entrée et contient les valeurs de probabilité de sang pour chaque pixel. Ce BPM est binarisé à l'aide d'une valeur seuil pour générer le BPM binarisé final. Le seuil utilisé pour binariser le BPM est estimé (Jones et Rehg [35]). À partir de ce BPM binarisé, un vecteur de caractéristiques unidimensionnel de longueur 14 est généré qui contient les valeurs telles que le rapport sanguin, le rapport de probabilité sanguine, la taille de la plus grande composante connectée, la moyenne, la variance, etc. Ce vecteur de caractéristiques est extrait pour chaque image. dans la vidéo et est utilisé pour la formation du classificateur SVM. Un exemple d'image ainsi que son BPM et son BPM binarisé sont présentés dans la figure 3.4. On peut observer sur cette figure que cette approche a très bien fonctionné dans la détection des pixels contenant du sang.


Figure 3.4 : Figure montrant les performances du modèle sanguin généré dans la détection du sang. La première colonne contient les images d'entrée, la deuxième colonne contient les cartes de probabilité sanguine et la dernière colonne contient les cartes de probabilité sanguine binarisées.

3.1.1.3. Fonctionnalités de mouvement

Le mouvement est une autre fonctionnalité visuelle largement utilisée pour la détection de la violence. Les travaux de Deniz et al. [21], Nievas et coll. [42] et Hassner et al. [28] sont quelques exemples dans lesquels le mouvement est utilisé comme principale caractéristique de détection de la violence. Ici, le mouvement fait référence à la quantité de variation spatio-temporelle entre deux images consécutives dans une vidéo. Le mouvement est considéré comme un bon indicateur de violence, car une quantité importante de violence est attendue dans les scènes contenant de la violence. Par exemple, dans les scènes contenant des combats en personne, il y a un mouvement rapide des parties du corps humain comme les jambes et les mains, et dans les scènes contenant des explosions, il y a beaucoup de mouvement des parties qui s'écartent à cause de l'explosion.


L'idée d'utiliser les informations de mouvement pour la détection d'activité vient de la psychologie. Les recherches sur la perception humaine ont montré que le schéma cinématique du mouvement est suffisant pour la perception des actions (Blake et Shiffrar [2]). Des études de recherche en vision par ordinateur (Saerbeck et Bartneck [50], Clarke et al. [13] et Hidaka [29]) ont également montré que des caractéristiques dynamiques relativement simples telles que la vitesse et l'accélération sont en corrélation avec les émotions perçues par un humain.


Dans ce travail, pour calculer la quantité de mouvement dans un segment vidéo, deux approches différentes sont évaluées. La première approche consiste à utiliser les informations de mouvement intégrées dans le codec vidéo et la prochaine approche consiste à utiliser le flux optique pour détecter le mouvement. Ces approches sont présentées ensuite.


3.1.1.3.1. Utiliser des codecs

Dans cette méthode, les informations de mouvement sont extraites du codec vidéo. L'ampleur du mouvement à chaque pixel par image, appelée vecteur de mouvement, est récupérée du codec. Ce vecteur de mouvement est un vecteur bidimensionnel et a la même taille qu'une image de la séquence vidéo. À partir de ce vecteur de mouvement, une caractéristique de mouvement qui représente la quantité de mouvement dans l'image est générée. Pour générer cette caractéristique de mouvement, le vecteur de mouvement est d'abord divisé en douze sous-régions de tailles égales en le découpant le long des axes x et y en trois et quatre régions respectivement. La quantité de mouvement le long des axes x et y au niveau de chaque pixel de chacune de ces sous-régions est agrégée et ces sommes sont utilisées pour générer un histogramme de mouvement bidimensionnel pour chaque image. Cet histogramme représente le vecteur de mouvement d'une image. Reportez-vous à l'image de gauche dans la figure 3.5 pour voir la visualisation des vecteurs de mouvement agrégés pour une image d'un exemple de vidéo. Dans cette visualisation, les vecteurs de mouvement sont agrégés pour des sous-régions de taille 16 × 16 pixels. L'ampleur et la direction du mouvement dans ces régions sont représentées à l'aide de la longueur et de l'orientation des lignes pointillées vertes superposées sur l'image.

3.1.1.3.2. Utiliser le flux optique

La prochaine approche pour détecter le mouvement utilise le flux optique (Wikipedia [57]). Ici, le mouvement de chaque pixel d'une image est calculé à l'aide du flux optique dense. Pour cela, l'implémentation de l'algorithme de Gunner Farneback (Farneb¨ack [24]) fourni par OpenCV (Bradski [5]) est utilisée. L'implémentation est fournie sous forme de fonction dans OpenCV et pour plus de détails sur la fonction et les paramètres, veuillez vous référer à la documentation fournie par OpenCV (OpticalFlow [43]). Les valeurs 0,5, 3, 15, 3, 5, 1,2 et 0 sont transmises respectivement aux paramètres de fonction pyr scale, niveaux, win-size, itérations, poly n, poly sigma et flags. Une fois que les vecteurs de mouvement de chaque pixel sont calculés à l'aide du flux optique, la caractéristique de mouvement d'une image est extraite en utilisant le même processus mentionné dans la section 3.1.1.3.1 ci-dessus. Reportez-vous à l'image de droite dans la figure 3.5 pour avoir une impression des vecteurs de mouvement agrégés extraits d'une image. Les vecteurs de mouvement sont agrégés pour des sous-régions de taille 16 × 16 pixels comme dans l'approche précédente afin de fournir une meilleure comparaison entre les caractéristiques extraites à l'aide des informations du codec et du flux optique.


Après l'évaluation de ces deux approches pour extraire des informations de mouvement à partir de vidéos, les observations suivantes sont faites. Premièrement, l’extraction du mouvement à partir des codecs est beaucoup plus rapide que l’utilisation du flux optique, car les vecteurs de mouvement sont précalculés et stockés dans les codecs vidéo. Deuxièmement, l’extraction de mouvement à l’aide du flux optique n’est pas très efficace lorsqu’il y a des régions floues dans une image. Ce flou est généralement provoqué par des mouvements brusques dans une scène, ce qui est très courant dans les scènes contenant de la violence. Par conséquent, l’utilisation du flux optique pour extraire des informations sur les mouvements afin de détecter la violence n’est pas une approche prometteuse. Par conséquent, dans ce travail, les informations stockées dans les codecs vidéo sont utilisées pour extraire les caractéristiques de mouvement. Les caractéristiques de mouvement sont extraites de chaque image de la vidéo et sont utilisées pour entraîner un classificateur SVM.


Figure 3.5 : Informations de mouvement provenant d'images extraites à l'aide d'un codec ou à l'aide d'un flux optique.

3.1.1.4. Fonctionnalités de SentiBank

En plus des fonctionnalités de bas niveau mentionnées ci-dessus, la fonctionnalité SentiBank introduite par Borth et al. [4] est également appliqué. SentiBank est une représentation de niveau intermédiaire de contenu visuel basée sur l'ontologie du sentiment visuel (VSO) à grande échelle [1]. SentiBank se compose de 1 200 concepts sémantiques et classificateurs automatiques correspondants, chacun étant défini comme une paire de noms d'adjectifs (ANP). De tels ANP combinent des adjectifs émotionnels forts à lier à des noms, qui correspondent à des objets ou des scènes (par exemple « beau ciel », « insecte dégoûtant » ou « bébé mignon »). De plus, chaque ANP (1) reflète un sentiment fort, (2) a un lien avec une émotion, (3) est fréquemment utilisé sur des plateformes telles que Flickr ou YouTube et (4) a une précision de détection raisonnable. De plus, le VSO se veut suffisamment complet et diversifié pour couvrir un large éventail de classes de concepts différentes telles que les personnes, les animaux, les objets, les lieux naturels ou artificiels et, par conséquent, fournit des informations supplémentaires sur le type de contenu analysé. Parce que SentiBank a démontré ses performances supérieures par rapport aux fonctionnalités visuelles de bas niveau lors de l'analyse du sentiment, Borth et al. [4], il est utilisé pour la première fois pour détecter des émotions complexes telles que la violence à partir d'images vidéo.


SentiBank se compose de 1 200 SVM, chacune formée pour détecter l'un des 1 200 concepts sémantiques d'une image. Chaque SVM est un classificateur binaire qui donne une sortie binaire 0/1 selon que l'image contient ou non un sentiment spécifique. Pour une image donnée dans une vidéo, un vecteur contenant la sortie des 1 200 SVM est considéré comme la fonctionnalité SentiBank. Pour extraire cette fonctionnalité, une implémentation basée sur Python est utilisée. Pour former le classificateur SVM, les fonctionnalités SentiBank extraites de chaque image dans les vidéos de formation sont utilisées. L'extraction des fonctionnalités de SentiBank prend quelques secondes car elle implique la collecte des résultats de 1 200 SVM pré-entraînées. Pour réduire le temps nécessaire à l'extraction des fonctionnalités, la fonctionnalité SentiBank de chaque image est extraite en parallèle à l'aide du multitraitement.

3.1.2. Classification des fonctionnalités

La prochaine étape du pipeline après l'extraction des fonctionnalités est la classification des fonctionnalités et cette section fournit les détails de cette étape. La sélection du classificateur et les techniques de formation utilisées jouent un rôle très important dans l'obtention de bons résultats de classification. Dans ce travail, les SVM sont utilisées pour la classification. La principale raison derrière ce choix est le fait que les travaux antérieurs sur la détection de la violence ont utilisé des SVM pour classer les caractéristiques audio et visuelles et ont produit de bons résultats. Dans presque tous les travaux mentionnés au chapitre 2, les SVM sont utilisées pour la classification, même si elles peuvent différer dans les fonctions du noyau utilisées.


De toutes les vidéos disponibles dans l'ensemble de formation, les fonctionnalités audio et visuelles sont extraites à l'aide du processus décrit dans la section 3.1.1. Ces fonctionnalités sont ensuite divisées en deux ensembles, l’un pour entraîner le classificateur et l’autre pour tester l’exactitude de la classification du classificateur formé. Comme les classificateurs utilisés ici sont des SVM, il faut choisir quel noyau utiliser et quels paramètres de noyau définir. Pour trouver le meilleur type de noyau et les meilleurs paramètres du noyau, une technique de recherche par grille est utilisée. Dans cette recherche de grille, les noyaux linéaires, RBF (fonction de base radiale) et chi carré ainsi qu'une plage de valeurs pour leurs paramètres sont testés, pour trouver la meilleure combinaison qui donne les meilleurs résultats de classification. Grâce à cette approche, quatre classificateurs différents sont formés, un pour chaque type de fonctionnalité. Ces classificateurs entraînés sont ensuite utilisés pour trouver les pondérations des caractéristiques à l'étape suivante. Dans ce travail, l'implémentation SVM fournie par scikit-learn (Pedregosa et al. [45]) et LibSVM (Chang et Lin [9]) sont utilisées.

3.1.3. Fusion de fonctionnalités

Lors de l'étape de fusion de fonctionnalités, les probabilités de sortie de chacun des classificateurs de fonctionnalités sont fusionnées pour obtenir le score final de la violence dans un segment vidéo ainsi que la classe de violence qui y est présente. Cette fusion se fait en calculant la somme pondérée des probabilités de chacun des classificateurs de caractéristiques. Pour détecter la classe de violence à laquelle appartient une vidéo, la procédure est la suivante. Dans un premier temps, les caractéristiques audio et visuelles sont extraites des vidéos appartenant à chacune des classes de violence ciblées. Ces caractéristiques sont ensuite transmises aux classificateurs binaires SVM formés pour obtenir les probabilités que chacune des vidéos contienne de la violence. Désormais, ces probabilités de sortie de chacun des classificateurs de caractéristiques sont fusionnées en attribuant à chaque classificateur de caractéristiques un poids pour chaque classe de violence et en calculant la somme pondérée. Les pondérations attribuées à chacun des classificateurs de caractéristiques représentent l'importance d'une caractéristique dans la détection d'une classe spécifique de violence. Ces pondérations de caractéristiques doivent être ajustées de manière appropriée pour chaque classe de violence afin que le système puisse détecter la classe de violence correcte.


Il existe deux approches pour trouver les poids. La première approche consiste à ajuster manuellement les poids d'un classificateur de caractéristiques pour chaque type de violence. Cette approche nécessite beaucoup d'intuition sur l'importance d'une fonctionnalité dans la détection d'une classe de violence et est très sujette aux erreurs. L'autre approche consiste à trouver les poids à l'aide d'un mécanisme de recherche par grille dans lequel un ensemble de poids est échantillonné dans la plage de poids possibles. Dans ce cas, la plage de poids possibles pour chaque classificateur de caractéristiques est [0,1], soumise à la contrainte que la somme des poids de tous les classificateurs de caractéristiques s'élève à 1. Dans ce travail, cette dernière approche est utilisée et tous les les combinaisons de poids qui valent 1 sont énumérées. Chacune de ces combinaisons de poids est utilisée pour calculer la somme pondérée des probabilités du classificateur pour une classe de violence et les poids de la combinaison de poids qui produit la somme la plus élevée sont attribués à chacun des classificateurs pour la classe de violence correspondante. Pour calculer ces poids, un ensemble de données différent de l'ensemble d'entraînement est utilisé, afin d'éviter un ajustement excessif des poids à l'ensemble d'entraînement. L'ensemble de données utilisé pour le calcul du poids contient des vidéos de toutes les classes de violence ciblées dans ce travail. Il est important de noter que, même si chacun des classificateurs SVM formés est de nature binaire, les valeurs de sortie de ces classificateurs peuvent être combinées à l'aide d'une somme pondérée pour trouver la classe spécifique de violence à laquelle appartient une vidéo.

3.2. Essai

A cette étape, pour une vidéo d'entrée donnée, chaque segment contenant de la violence est détecté ainsi que la classe de violence qui y est présente. Pour une vidéo donnée, l'approche suivante est utilisée pour détecter les segments contenant de la violence et la catégorie de violence qu'ils contiennent. Premièrement, les caractéristiques visuelles et audio sont extraites d'une image toutes les secondes à partir de la première image de la vidéo, plutôt que d'extraire les caractéristiques de chaque image. Ces images à partir desquelles les caractéristiques sont extraites représentent un segment d'une seconde de la vidéo. Les caractéristiques de ces segments vidéo d'une seconde sont ensuite transmises aux classificateurs binaires SVM formés pour obtenir que les scores de chaque segment vidéo soient violents ou non violents. Ensuite, les sommes pondérées des valeurs de sortie des classificateurs individuels sont calculées pour chaque catégorie de violence en utilisant les poids correspondants trouvés lors de l'étape de fusion. Par conséquent, pour une vidéo donnée d'une durée de « X » secondes, le système génère un vecteur de longueur « X ». Chaque élément de ce vecteur est un dictionnaire qui mappe chaque classe de violence avec une valeur de score. La raison de l'utilisation de cette approche est double : premièrement, pour détecter les intervalles de temps pendant lesquels il y a de la violence dans la vidéo et pour augmenter la vitesse du système de détection de la violence. L'extraction de fonctionnalités, en particulier l'extraction de la fonctionnalité Sentibank, prend du temps et l'effectuer pour chaque image ralentira le système. Mais cette approche a un effet négatif sur la précision du système car il détecte la violence non pas à chaque image mais à chaque seconde.

3.3. Paramètres d'évaluation

De nombreux indicateurs peuvent être utilisés pour mesurer les performances d’un système de classification. Certaines des mesures utilisées pour la classification binaire sont l'exactitude, la précision, le rappel (sensibilité), la spécificité, le score F, le taux d'erreur égal (EER) et l'aire sous la courbe (AUC). Certaines autres mesures telles que la précision moyenne (AP) et la précision moyenne moyenne (MAP) sont utilisées pour les systèmes qui renvoient une liste classée à la suite d'une requête. La plupart de ces mesures, de plus en plus utilisées dans la recherche en Machine Learning et en Data Mining, sont empruntées à d’autres disciplines telles que la recherche d’informations (Rijsbergen [49]) et la biométrie. Pour une discussion détaillée de ces mesures, se référer aux travaux de Parker [44] et Sokolova et Lapalme [53]. La courbe ROC (Receiver Operating Characteristic) est une autre méthode largement utilisée pour évaluer ou comparer les systèmes de classification binaire. Des mesures telles que l'AUC et l'EER peuvent être calculées à partir de la courbe ROC.


Dans ce travail, les courbes ROC sont utilisées pour : (i) Comparer les performances des classificateurs individuels. (ii) Comparez les performances du système dans la détection de différentes classes de violence dans la tâche de classification multi-classes. (iii) Comparez les performances du système sur l'ensemble de données Youtube et Hollywood-Test dans la tâche de classification binaire. Les autres mesures utilisées ici sont la précision, le rappel et l'EER. Ces mesures sont utilisées car ce sont les mesures les plus couramment utilisées dans les travaux antérieurs sur la détection de la violence. Dans ce système, les paramètres (poids de fusion) sont ajustés pour minimiser l'EER.

3.4. Résumé

Dans ce chapitre, une description détaillée de l’approche suivie dans ce travail pour détecter la violence est présentée. La première section traite de la phase de formation et la deuxième section traite de la phase de test. Dans la première section, les différentes étapes impliquées dans la phase de formation sont expliquées en détail. Tout d'abord, l'extraction des fonctionnalités audio et visuelles est discutée et les détails des fonctionnalités utilisées et de la manière dont elles sont extraites sont présentés. Ensuite, les techniques de classification utilisées pour classer les caractéristiques extraites sont discutées. Enfin, le processus utilisé pour calculer les pondérations des caractéristiques pour la fusion des caractéristiques est discuté. Dans la deuxième section, le processus utilisé pendant la phase de test pour extraire des segments vidéo contenant de la violence et pour détecter la classe de violence dans ces segments est discuté.


Pour résumer, les étapes suivies dans cette approche sont l'extraction de fonctionnalités, la classification de fonctionnalités, la fusion de fonctionnalités et les tests. Les trois premières étapes constituent la phase de formation et la dernière étape est la phase de test. Dans la phase de formation, les fonctionnalités audio et visuelles sont extraites de la vidéo et utilisées pour former des classificateurs SVM binaires, un pour chaque fonctionnalité. Ensuite, un ensemble de données distinct est utilisé pour trouver les pondérations des caractéristiques qui minimisent l'EER du système sur l'ensemble de données de validation. Lors de la phase de test finale, les caractéristiques visuelles et audio sont d'abord extraites une par segment vidéo d'une seconde de la vidéo de test d'entrée. Ensuite, ces caractéristiques sont transmises aux classificateurs SVM formés pour obtenir les probabilités que ces caractéristiques représentent la violence. Une somme pondérée de ces probabilités de sortie est calculée pour chaque type de violence à l'aide des poids obtenus lors de l'étape de fusion des caractéristiques. Le type de violence pour lequel la somme pondérée est maximale est attribué comme étiquette au segment vidéo d'une seconde correspondant. À l'aide de ces étiquettes, les segments contenant de la violence et la classe de violence qu'ils contiennent sont présentés comme une sortie du système. La configuration expérimentale et l'évaluation de ce système sont présentées dans le chapitre suivant.



Cet article est disponible sur arxiv sous licence CC 4.0.


[1] http://visual-sentiment-ontology.appspot.com