paint-brush
Detecção de violência em vídeos: introduçãopor@kinetograph

Detecção de violência em vídeos: introdução

Muito longo; Para ler

Neste artigo, os pesquisadores propõem um sistema para detecção automática de violência em vídeos, utilizando pistas sonoras e visuais para classificação.
featured image - Detecção de violência em vídeos: introdução
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


Autores:

(1) Praveen Tirupattur, Universidade da Flórida Central.

Tabela de links

1. Introdução

A quantidade de conteúdos multimédia carregados em websites de redes sociais e a facilidade com que estes podem ser acedidos pelas crianças constitui um problema para os pais que desejam proteger os seus filhos da exposição a conteúdos violentos e adultos na Internet. O número de uploads de vídeos para sites como YouTube e Facebook está aumentando. Houve um aumento de 75% no número de postagens de vídeos no Facebook (Blog-FB [3]) no último ano e mais de 120.000 vídeos são enviados ao YouTube todos os dias (Wesch [56], Gill et al. [ 26]). Estima-se que 20% dos vídeos enviados para esses sites contenham conteúdo violento ou adulto (Sparks [54]). Isso facilita o acesso ou a exposição acidental de crianças a esses conteúdos perigosos. Os efeitos de assistir a conteúdo violento em crianças são bem estudados em psicologia (Tompkins [55], Sparks [54], Bushman e Huesmann [6] e Huesmann e Taylor [32]) e os resultados desses estudos sugerem que assistir a conteúdos violentos o conteúdo tem um efeito substancial nas emoções das crianças. Os principais efeitos são o aumento da probabilidade de comportamento agressivo ou medroso e a diminuição da sensibilidade à dor e ao sofrimento dos outros. Huesmann e Eron [31] realizaram um estudo envolvendo crianças do ensino fundamental, que assistiram muitas horas de violência na televisão. Ao observar estas crianças até à idade adulta, descobriram que aquelas que assistiram a muita violência na televisão quando tinham 8 anos de idade tinham maior probabilidade de serem presas e processadas por actos criminosos quando adultas. Estudos semelhantes realizados por Flood [25] e Mitchell et al. [40] sugerem que a exposição a conteúdos adultos também tem efeitos prejudiciais para as crianças. Isso motivou pesquisas na área de detecção automática de conteúdo violento e adulto em vídeos.


A detecção de conteúdo adulto (Chan et al. [8], Schulze et al. [52], Pogrebnyak et al. [47]) é bem estudada e muito progresso foi feito. A detecção da violência, por outro lado, tem sido menos estudada e ganhou interesse apenas no passado recente. Poucas abordagens para detecção de violência foram propostas no passado e cada uma dessas abordagens tentou detectar a violência usando diferentes recursos visuais e auditivos. Por exemplo, Nam et al. [41] combinou vários recursos audiovisuais para identificar cenas violentas. Em seu trabalho, chamas e sangue foram detectados usando tabelas de cores predefinidas e vários efeitos de áudio representativos (tiros, explosões, etc.) também foram explorados. Datta et al. [14] propuseram uma abordagem baseada em vetores de movimento acelerado para detectar violência humana, como brigas, chutes, etc. Cheng et al. [11] apresentaram uma abordagem hierárquica para localizar cenas de tiroteios e corridas de carros através da detecção de eventos de áudio típicos (por exemplo, tiros, explosões e frenagens de carros).


Mais abordagens propostas para a detecção de violência são discutidas no Capítulo 2. Todas estas abordagens centraram-se principalmente apenas na detecção de violência em filmes de Hollywood, mas não em vídeos de sites de partilha de vídeos e de redes sociais, como o YouTube ou o Facebook. A detecção de violência em filmes de Hollywood é relativamente fácil, pois esses filmes seguem algumas regras de produção cinematográfica. Por exemplo, para exibir cenas de ação emocionantes, a atmosfera de ritmo acelerado é criada por meio de movimento visual de alta velocidade e som acelerado. Mas os vídeos dos sites de compartilhamento de vídeos, como YouTube e Facebook, não seguem essas regras de produção de filmes e muitas vezes apresentam baixa qualidade de áudio e vídeo. Essas características dos vídeos gerados por usuários tornam muito difícil detectar violência neles.


Antes de discutir a abordagem para detectar a violência, é importante fornecer uma definição para o termo “Violência”. Todas as abordagens anteriores para detecção de violência não seguiram a mesma definição de violência e utilizaram características e conjuntos de dados diferentes. Isto torna a comparação de diferentes abordagens muito difícil. Para superar este problema e fomentar a investigação nesta área, um conjunto de dados denominado Violent Scene Detection (VSD) foi introduzido por Demarty et al. [15] em 2011 e a versão recente deste conjunto de dados é o VSD2014. De acordo com este último conjunto de dados, “Violência” num vídeo é “qualquer cena que uma criança de 8 anos não permitiria ver porque contém violência física”Schedl et al. [51]. Acredita-se que esta definição seja formulada com base nos resultados da pesquisa em psicologia, mencionados acima. A partir desta definição, pode-se observar que a violência não é uma entidade física, mas um conceito muito genérico, abstrato e também muito subjetivo. Portanto, a detecção da violência não é uma tarefa trivial.


O objetivo deste trabalho é construir um sistema que detecte automaticamente a violência não apenas em filmes de Hollywood, mas também em vídeos de sites de compartilhamento de vídeos como YouTube e Facebook. Neste trabalho, procura-se detectar também a categoria de violência em um vídeo, que não foi abordada nas abordagens anteriores. As categorias de violência visadas neste trabalho são presença de sangue, presença de armas frias, explosões, brigas, gritos, presença de fogo, armas de fogo e tiros. Estes representam o subconjunto de conceitos definidos e utilizados no VSD2014 para anotar segmentos de vídeo. As categorias “cenas sangrentas” e “perseguição de carro” do VSD2014 não foram selecionadas porque não havia muitos segmentos de vídeo no VSD2014 anotados com esses conceitos. Outra categoria é a “Violência Subjetiva”. Não é selecionado porque as cenas pertencentes a esta categoria não apresentam qualquer violência visível e, portanto, são muito difíceis de detectar. Neste trabalho, recursos de áudio e visuais são usados para detecção de violência, pois a combinação de informações de áudio e visuais fornece resultados mais confiáveis na classificação.


As vantagens de desenvolver um sistema como este, que pode detectar automaticamente a violência em conteúdos multimídia, são muitas. Pode ser usado para avaliar filmes dependendo da quantidade de violência. Isso pode ser usado por sites de redes sociais para detectar e bloquear o upload de vídeos violentos em suas plataformas. Além disso, pode ser usado para caracterização de cenas e classificação de gênero, o que auxilia na busca e navegação de filmes. O reconhecimento da violência em transmissões de vídeo provenientes de sistemas de câmaras em tempo real será muito útil para a vigilância por vídeo em locais como aeroportos, hospitais, centros comerciais, locais públicos, prisões, enfermarias psiquiátricas, recreios escolares, etc. muito mais difícil e neste trabalho nenhuma tentativa é feita para lidar com isso.


Uma visão geral do trabalho relacionado, uma descrição detalhada da abordagem proposta e a avaliação são apresentadas a seguir. Os capítulos seguintes estão organizados da seguinte forma. No Capítulo 2 são explicados detalhadamente alguns dos trabalhos anteriores na área de detecção de violência. No Capítulo 3, são apresentados os detalhes da abordagem utilizada para treinamento e teste de classificadores de características. Também inclui detalhes de extração de recursos e treinamento do classificador. O Capítulo 4 descreve os detalhes dos conjuntos de dados utilizados, a configuração experimental e os resultados obtidos nos experimentos. Finalmente, no Capítulo 5 são apresentadas as conclusões seguidas dos possíveis trabalhos futuros.


Este artigo está disponível no arxiv sob licença CC 4.0.