Auteurs:
(1) Praveen Tirupattur, Université de Floride centrale.
La quantité de contenu multimédia téléchargé sur les sites de réseaux sociaux et la facilité avec laquelle les enfants peuvent y accéder posent un problème aux parents qui souhaitent protéger leurs enfants contre l'exposition à des contenus violents et réservés aux adultes sur le Web. Le nombre de téléchargements de vidéos sur des sites comme YouTube et Facebook est en augmentation. Il y a une augmentation de 75 % du nombre de publications vidéo sur Facebook (Blog-FB [3]) au cours de la dernière année et plus de 120 000 vidéos sont téléchargées sur YouTube chaque jour (Wesch [56], Gill et al. [ 26]). On estime que 20 % des vidéos mises en ligne sur ces sites contiennent du contenu violent ou adulte (Sparks [54]). Cela permet aux enfants d'accéder facilement à ces contenus dangereux ou d'y être accidentellement exposés. Les effets du visionnage de contenus violents sur les enfants sont bien étudiés en psychologie (Tompkins [55], Sparks [54], Bushman et Huesmann [6], et Huesmann et Taylor [32]) et les résultats de ces études suggèrent que regarder des contenus violents le contenu a un effet substantiel sur les émotions des enfants. Les principaux effets sont une augmentation de la probabilité de comportements agressifs ou craintifs et une moins sensibilité à la douleur et à la souffrance des autres. Huesmann et Eron [31] ont mené une étude auprès d'enfants d'école primaire, qui regardaient de nombreuses heures de violence à la télévision. En observant ces enfants jusqu'à l'âge adulte, ils ont découvert que ceux qui regardaient beaucoup de violence à la télévision à l'âge de 8 ans étaient plus susceptibles d'être arrêtés et poursuivis pour actes criminels à l'âge adulte. Des études similaires réalisées par Flood [25] et Mitchell et al. [40] suggèrent que l'exposition à du contenu pour adultes a également des effets néfastes sur les enfants. Cela a motivé des recherches dans le domaine de la détection automatique de contenus violents et adultes dans les vidéos.
La détection de contenu adulte (Chan et al. [8], Schulze et al. [52], Pogrebnyak et al. [47]) est bien étudiée et de nombreux progrès ont été réalisés. La détection de la violence, en revanche, a été moins étudiée et n’a suscité un intérêt que récemment. Peu d'approches de détection de la violence ont été proposées dans le passé et chacune de ces approches tentait de détecter la violence en utilisant différentes caractéristiques visuelles et auditives. Par exemple, Nam et al. [41] ont combiné plusieurs fonctionnalités audiovisuelles pour identifier les scènes violentes. Dans leur travail, les flammes et le sang ont été détectés à l'aide de tables de couleurs prédéfinies et divers effets audio représentatifs (coups de feu, explosions, etc.) ont également été exploités. Datta et coll. [14] ont proposé une approche accélérée basée sur les vecteurs de mouvement pour détecter la violence humaine telle que les combats à coups de poing, les coups de pied, etc. Cheng et al. [11] ont présenté une approche hiérarchique pour localiser les scènes de coups de feu et de courses de voitures grâce à la détection d'événements audio typiques (par exemple, coups de feu, explosions et freinages de voiture).
D'autres approches proposées pour la détection de la violence sont abordées au chapitre 2. Toutes ces approches se concentraient principalement uniquement sur la détection de la violence dans les films hollywoodiens, mais pas dans les vidéos issues du partage de vidéos et des sites de médias sociaux tels que YouTube ou Facebook. La détection de la violence dans les films hollywoodiens est relativement facile car ces films suivent certaines règles de réalisation. Par exemple, pour présenter des scènes d’action passionnantes, une atmosphère de rythme rapide est créée grâce à des mouvements visuels à grande vitesse et à un son rapide. Mais les vidéos des sites de partage de vidéos, comme YouTube et Facebook, ne respectent pas ces règles de réalisation de films et ont souvent une qualité audio et vidéo médiocre. Ces caractéristiques des vidéos générées par les utilisateurs rendent très difficile la détection de violence.
Avant de discuter de l’approche permettant de détecter la violence, il est important de fournir une définition du terme « violence ». Toutes les approches précédentes de détection de la violence n’ont pas suivi la même définition de la violence et ont utilisé des fonctionnalités et des ensembles de données différents. Cela rend la comparaison de différentes approches très difficile. Pour surmonter ce problème et favoriser la recherche dans ce domaine, un ensemble de données nommé Violent Scene Detection (VSD) a été introduit par Demarty et al. [15] en 2011 et la version récente de cet ensemble de données est le VSD2014. Selon ce dernier ensemble de données, la « violence » dans une vidéo désigne « toute scène qu'on ne laisserait pas un enfant de 8 ans regarder parce qu'elle contient de la violence physique » Schedl et al. [51]. On pense que cette définition a été formulée sur la base des résultats de recherches en psychologie mentionnés ci-dessus. De cette définition, on peut observer que la violence n'est pas une entité physique mais un concept très générique, abstrait et aussi très subjectif. La détection de la violence n’est donc pas une tâche anodine.
Le but de ce travail est de construire un système qui détecte automatiquement la violence non seulement dans les films hollywoodiens, mais aussi dans les vidéos des sites de partage de vidéos comme YouTube et Facebook. Dans ce travail, on tente de détecter également la catégorie de violence dans une vidéo, qui n'était pas abordée par les approches antérieures. Les catégories de violences ciblées dans ce travail sont la présence de sang, la présence d'armes froides, les explosions, les bagarres, les cris, la présence de feu, d'armes à feu et de coups de feu. Ceux-ci représentent le sous-ensemble de concepts définis et utilisés dans le VSD2014 pour annoter les segments vidéo. Les catégories « scènes sanglantes » et « poursuite en voiture » de VSD2014 n'ont pas été sélectionnées car il n'y avait pas beaucoup de segments vidéo dans VSD2014 annotés avec ces concepts. Une autre catégorie de ce type est la « violence subjective ». Elle n'est pas sélectionnée car les scènes appartenant à cette catégorie ne comportent aucune violence visible et sont donc très difficiles à détecter. Dans ce travail, les fonctionnalités audio et visuelles sont utilisées pour la détection de la violence, car la combinaison des informations audio et visuelles fournit des résultats de classification plus fiables.
Les avantages de développer un système comme celui-ci, capable de détecter automatiquement la violence dans les contenus multimédias, sont nombreux. Il peut être utilisé pour évaluer les films en fonction du degré de violence. Cela peut être utilisé par les sites de réseaux sociaux pour détecter et bloquer le téléchargement de vidéos violentes sur leurs plateformes. En outre, il peut être utilisé pour la caractérisation des scènes et la classification des genres, ce qui facilite la recherche et la navigation dans les films. La reconnaissance de la violence dans les flux vidéo des systèmes de caméras en temps réel sera très utile pour la vidéosurveillance dans des lieux tels que les aéroports, les hôpitaux, les centres commerciaux, les lieux publics, les prisons, les services psychiatriques, les cours d'école, etc. Cependant, la détection en temps réel de la violence est beaucoup plus difficile et dans ce travail aucune tentative n'est faite pour y répondre.
Un aperçu des travaux connexes, une description détaillée de l'approche proposée et l'évaluation sont présentés ci-après. Les chapitres suivants sont organisés comme suit. Dans le chapitre 2, certains des travaux antérieurs dans le domaine de la détection de la violence sont expliqués en détail. Dans le chapitre 3, les détails de l'approche utilisée pour la formation et les tests des classificateurs de fonctionnalités sont présentés. Il comprend également les détails de l'extraction des fonctionnalités et de la formation du classificateur. Le chapitre 4 décrit les détails des ensembles de données utilisés, la configuration expérimentale et les résultats obtenus à partir des expériences. Enfin, le chapitre 5 présente des conclusions suivies d'éventuels travaux futurs.
Cet article est disponible sur arxiv sous licence CC 4.0.