paint-brush
Detecção de violência em vídeos: trabalhos relacionados por@kinetograph

Detecção de violência em vídeos: trabalhos relacionados

Muito longo; Para ler

Neste artigo, os pesquisadores propõem um sistema para detecção automática de violência em vídeos, utilizando pistas sonoras e visuais para classificação.
featured image - Detecção de violência em vídeos: trabalhos relacionados
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


Autores:

(1) Praveen Tirupattur, Universidade da Flórida Central.

Tabela de links

2. Trabalho relacionado

A Detecção de Violência é uma subtarefa de reconhecimento de atividades em que atividades violentas devem ser detectadas a partir de um vídeo. Também pode ser considerado como uma espécie de detecção de eventos multimídia. Algumas abordagens já foram propostas para resolver este problema. Estas abordagens propostas podem ser classificadas em três categorias: (i) Abordagens nas quais apenas os recursos visuais são utilizados. (ii) Abordagens em que apenas os recursos de áudio são utilizados. (iii) Abordagens em que são utilizados recursos sonoros e visuais. A categoria de interesse aqui é a terceira, onde são utilizados vídeo e áudio. Este capítulo fornece uma visão geral de algumas das abordagens anteriores pertencentes a cada uma dessas categorias.

2.1. Usando Áudio e Vídeo

A tentativa inicial de detectar violência usando pistas auditivas e visuais é de Nam et al. [41]. Em seu trabalho, tanto os recursos sonoros quanto os visuais são explorados para detectar cenas violentas e gerar índices que permitam a busca de vídeos com base no conteúdo. Aqui, a assinatura da atividade dinâmica espaço-temporal é extraída de cada cena para categorizá-la como violenta ou não violenta. Esse recurso de atividade dinâmica espaço-temporal é baseado na quantidade de movimento dinâmico presente na cena.


Quanto maior o movimento espacial entre os quadros da cena, mais significativo é o recurso. O raciocínio por trás dessa abordagem é que a maioria das cenas de ação envolve uma quantidade rápida e significativa de movimento de pessoas ou objetos. Para calcular a característica de atividade espaço-temporal de um plano, as sequências de movimento do plano são obtidas e normalizadas pela duração do plano para garantir que apenas os planos com comprimentos mais curtos e alto movimento espacial entre os quadros tenham maior valor do recurso de atividade.


Além disso, para detectar chamas de tiros ou explosões, é examinada uma variação repentina nos valores de intensidade dos pixels entre os quadros. Para eliminar falsos positivos, como variação de intensidade por causa das lanternas das câmeras, é utilizada uma tabela de cores pré-definida com valores de cores próximos às cores da chama, como amarelo, laranja e vermelho. Da mesma forma para detectar sangue, o que é comum na maioria das cenas violentas, as cores dos pixels dentro de um quadro são combinadas com uma tabela de cores predefinida contendo cores semelhantes a sangue. Estas características visuais por si só não são suficientes para detectar a violência de forma eficaz. Portanto, os recursos de áudio também são considerados.


A mudança repentina no nível de energia do sinal de áudio é usada como uma dica de áudio. A entropia de energia é calculada para cada quadro e a mudança repentina neste valor é usada para identificar eventos violentos como explosões ou tiros. As pistas sonoras e visuais são sincronizadas no tempo para obter tiros contendo violência com maior precisão. Uma das principais contribuições deste artigo é destacar a necessidade de pistas auditivas e visuais para detectar a violência.


Gong et al. [27] também usaram pistas visuais e sonoras para detectar violência em filmes. É descrita uma abordagem em três fases para detectar a violência. Na primeira etapa, são extraídas características visuais e auditivas de baixo nível para cada tomada do vídeo. Esses recursos são usados para treinar um classificador para detectar candidatos a tiros com conteúdo potencialmente violento. Na próxima etapa, efeitos de áudio de alto nível são usados para detectar possíveis tomadas. Nesta etapa, para detectar efeitos de áudio de alto nível, os classificadores SVM são treinados para cada categoria do efeito de áudio usando recursos de áudio de baixo nível, como espectro de potência, pitch, MFCC (Mel-Frequency Cepstral Coefficients) e proeminência de harmonicidade (Cai e outros [7]). A saída de cada um dos SVMs pode ser interpretada como mapeamento de probabilidade para um sigmóide, que é um valor contínuo entre [0,1] (Platt et al. [46]). Na última etapa, os resultados probabilísticos das duas primeiras etapas são combinados usando reforço e a pontuação final de violência para um tiro é calculada como uma soma ponderada das pontuações das duas primeiras etapas.


Esses pesos são calculados usando um conjunto de dados de validação e espera-se que maximizem a precisão média. O trabalho de Gong et al. [27] concentra-se apenas na detecção de violência em filmes onde as regras universais de produção cinematográfica são seguidas. Por exemplo, o som acelerado durante cenas de ação. O conteúdo violento é identificado pela detecção de cenas aceleradas e eventos de áudio associados à violência, como explosões e tiros. Os dados de treinamento e teste utilizados provêm de uma coleção de quatro filmes de ação de Hollywood que contêm muitas cenas violentas. Embora esta abordagem tenha produzido bons resultados, deve-se notar que ela é otimizada para detectar violência apenas em filmes que seguem algumas regras de produção cinematográfica e não funcionará com os vídeos que são enviados pelos usuários para sites como Facebook, Youtube , etc.


No trabalho de Lin e Wang [38], uma sequência de vídeo é dividida em tomadas e para cada tomada tanto os recursos de áudio quanto de vídeo são classificados como violentos ou não violentos e os resultados são combinados usando co-treinamento. Um algoritmo pLSA modificado (Hofmann [30]) é usado para detectar violência do segmento de áudio. O segmento de áudio é dividido em clipes de áudio de um segundo cada e é representado por um vetor de recursos contendo recursos de baixo nível, como espectro de potência, MFCC, pitch, taxa cruzada zero (ZCR) e proeminência de harmonicidade (Cai et al. [7]) . Esses vetores são agrupados para obter centros de agrupamento que denotam um vocabulário de áudio. Em seguida, cada segmento de áudio é representado utilizando esse vocabulário como um documento de áudio. O algoritmo Expectation Maximization (Dempster et al. [20]) é usado para ajustar um modelo de áudio que é posteriormente usado para classificação de segmentos de áudio. Para detectar violência em um segmento de vídeo, são usados os três eventos violentos visuais comuns: movimento, chamas/explosões e sangue. A intensidade do movimento é usada para detectar áreas com movimento rápido e extrair características de movimento para cada quadro, que é então usado para classificar um quadro como violento ou não violento. Modelos de cores e modelos de movimento são usados para detectar chamas e explosões em um quadro e classificá-las. Da mesma forma, modelo de cor e intensidade de movimento são utilizados para detectar a região que contém sangue e se for maior que um valor pré-definido para um quadro, é classificado como violento. A pontuação final de violência do segmento de vídeo é obtida pela soma ponderada das três pontuações individuais mencionadas acima. Os recursos usados aqui são os mesmos usados por Nam et al. [41]. Para combinar as pontuações de classificação do fluxo de vídeo e áudio, é utilizado o co-treinamento. Para treinamento e teste, é utilizado um conjunto de dados composto por cinco filmes de Hollywood e são obtidas precisão de cerca de 0,85 e recall de cerca de 0,90 na detecção de cenas violentas. Mesmo este trabalho visa a detecção de violência apenas em filmes, mas não nos vídeos disponíveis na web. Mas os resultados sugerem que as características visuais, como movimento e sangue, são cruciais para a detecção de violência.

2.2. Usando áudio ou vídeo

Todas as abordagens mencionadas até agora utilizam sinais sonoros e visuais, mas há outras que utilizam vídeo ou áudio para detectar violência e outras que tentam detectar apenas um tipo específico de violência, como brigas. Uma breve visão geral dessas abordagens é apresentada a seguir.


Um dos únicos trabalhos que utilizou apenas áudio para detectar contexto semântico em vídeos é o de Cheng et al. [11], onde uma abordagem hierárquica baseada em modelos de mistura gaussiana e modelos ocultos de Markov é usada para reconhecer tiros, explosões e frenagens de carros. Datta et al. [14] tentaram detectar a violência entre pessoas em vídeos que envolvem apenas brigas, chutes, golpes com objetos, etc., analisando a violência no nível do objeto e não no nível da cena, como faz a maioria das abordagens. Aqui, os objetos em movimento em uma cena são detectados e um modelo de pessoa é usado para detectar apenas os objetos que representam pessoas. A partir disso, a trajetória de movimento e as informações de orientação dos membros de uma pessoa são usadas para detectar brigas entre pessoas.


Clarin et al. [12] desenvolveram um sistema automatizado denominado DOVE para detectar violência em filmes. Aqui, apenas o sangue é usado para detectar cenas violentas. O sistema extrai quadros-chave de cada cena e os passa para um mapa auto-organizado treinado para rotular os pixels com os rótulos: pele, sangue ou não-pele/não-sangue. Pixels rotulados são então agrupados por meio de componentes conectados e observados quanto a possível violência. Uma cena é considerada violenta se houver uma grande mudança nas regiões dos pixels com componentes da pele e do sangue. Um outro trabalho sobre detecção de lutas é o de Nievas et al. [42] em que a estrutura Bag-of-Words é usada juntamente com os descritores de ação Space-Time Interest Points (STIP - Laptev [37]) e Motion Scale-invariant feature transform (MoSIFT - Chen e Hauptmann [10]). Os autores introduziram um novo conjunto de dados de vídeo composto por 1.000 vídeos, divididos em dois grupos: lutas e não lutas. Cada grupo possui 500 vídeos e cada vídeo tem duração de um segundo. A experimentação com este conjunto de dados produziu uma precisão de 90% em um conjunto de dados com lutas de filmes de ação.


Deniz et al. [21] propuseram um novo método para detectar violência em vídeos usando padrões extremos de aceleração como principal característica. Este método é 15 vezes mais rápido que os sistemas de reconhecimento de ação de última geração e também possui altíssima precisão na detecção de cenas contendo lutas. Esta abordagem é muito útil em sistemas de detecção de violência em tempo real, onde não só a precisão, mas também a velocidade são importantes. Esta abordagem compara o espectro de potência de dois quadros consecutivos para detectar movimentos repentinos e, dependendo da quantidade de movimento, uma cena é classificada como violenta ou não violenta. Este método não usa rastreamento de recursos para detectar movimento, o que o torna imune ao desfoque. Hassner et al. [28] introduziram uma abordagem para detecção de violência em tempo real em cenas lotadas. Este método considera a mudança das magnitudes do vetor de fluxo ao longo do tempo. Essas alterações para sequências de quadros curtos são chamadas de descritores Violent Flows (ViF). Esses descritores são então usados para classificar cenas violentas e não violentas usando uma Máquina de Vetores de Suporte (SVM) linear. Como este método utiliza apenas informações de fluxo entre quadros e dispensa análise de forma e movimento de alto nível, ele é capaz de operar em tempo real. Para este trabalho, os autores criaram seu próprio conjunto de dados baixando vídeos contendo comportamento violento de multidões do Youtube.


Todos esses trabalhos utilizam diferentes abordagens para detectar violência em vídeos e todos utilizam seus próprios conjuntos de dados para treinamento e testes. Todos eles têm sua própria definição de violência. Isto demonstra um grande problema para a detecção da violência, que é a falta de conjuntos de dados de base independentes e de uma definição comum de violência, sem a qual a comparação entre diferentes abordagens não tem sentido.


Para resolver este problema, Demarty et al. [16] apresentaram um benchmark para detecção automática de segmentos de violência em filmes como parte da iniciativa de benchmarking multimídia MediaEval-2011 [1]. Este referencial é muito útil porque fornece um conjunto de dados consistente e substancial com uma definição comum de violência e protocolos e métricas de avaliação. Os detalhes do conjunto de dados fornecido são discutidos detalhadamente na Seção 4.1. Trabalhos recentes sobre reconhecimento de violência em vídeos utilizaram este conjunto de dados e detalhes sobre alguns deles são fornecidos a seguir.

2.3. Usando MediaEval VSD

Acar et al. [1] propuseram uma abordagem que mescla recursos visuais e de áudio de maneira supervisionada usando SVMs de uma e duas classes para detecção de violência em filmes. Recursos visuais e de áudio de baixo nível são extraídos de cenas de vídeo dos filmes e depois combinados em uma fusão inicial para treinar SVMs. Os recursos MFCC são extraídos para descrever o conteúdo de áudio e a abordagem SIFT (Scale-Invariant Feature Transform - Lowe [39]) baseada em Bag-of-Words é usada para conteúdo visual.


Jiang et al. [33] propuseram um método para detectar violência com base em um conjunto de características derivadas da aparência e movimento de trajetórias de manchas locais (Jiang et al. [34]). Junto com essas trajetórias de patch, outros recursos, como SIFT, STIP e MFCC, são extraídos e usados para treinar um classificador SVM para detectar diferentes categorias de violência. A pontuação e a suavização de recursos são executadas para aumentar a precisão.


Lam et al. [36] avaliaram o desempenho de recursos audiovisuais de baixo nível para a tarefa de detecção de cenas violentas usando os conjuntos de dados e protocolos de avaliação fornecidos pelo MediaEval. Neste trabalho são utilizados recursos visuais locais e globais, juntamente com recursos de movimento e áudio MFCC. Todos esses recursos são extraídos para cada quadro-chave em uma cena e agrupados para formar um único vetor de recursos para aquela cena. Um classificador SVM é treinado para classificar os tiros em violentos ou não violentos com base neste vetor de características. Eyben et al. [23] aplicaram extração de características segmentais em larga escala junto com classificação audiovisual para detectar violência. A extração de recursos de áudio é feita com o kit de ferramentas de extração de recursos de código aberto openSmile (Eyben e Schuller [22]). Recursos visuais de baixo nível, como histograma Hue-Saturation-Value (HSV), análise de fluxo óptico e detecção de borda laplaciana, são computados e usados para detecção de violência. Classificadores lineares SVM são usados para classificação e uma média de pontuação simples é usada para fusão.

2.4. Resumo

Em resumo, quase todos os métodos descritos acima tentam detectar a violência em filmes usando diferentes recursos audiovisuais com a expectativa de apenas alguns [Nievas et al. [42], Hassner et al. [28]], que utilizam dados de vídeo de câmeras de vigilância ou de outros sistemas de vídeos em tempo real. Observa-se também que nem todos esses trabalhos utilizam o mesmo conjunto de dados e cada um possui sua própria definição de violência. A introdução do conjunto de dados MediaEval para Detecção de Cenas Violentas (VSD) em 2011 resolveu esse problema. A versão recente do conjunto de dados, VSD2014, também inclui conteúdo de vídeo do Youtube, além dos filmes de Hollywood, e incentiva os pesquisadores a testar sua abordagem em conteúdo de vídeo gerado por usuários.

2.5. Contribuições

A abordagem proposta apresentada no Capítulo 3 é motivada pelos trabalhos anteriores sobre detecção de violência, discutidos no Capítulo 2. Na abordagem proposta, são utilizadas pistas auditivas e visuais para detectar violência. Os recursos MFCC são usados para descrever o conteúdo de áudio e os recursos de sangue, movimento e SentiBank são usados para descrever o conteúdo de vídeo. Classificadores SVM são usados para classificar cada um desses recursos e a fusão tardia é aplicada para fundir as pontuações do classificador.


Embora esta abordagem se baseie em trabalhos anteriores sobre detecção de violência, as contribuições importantes dela são: (i) Detecção de diferentes classes de violência. Trabalhos anteriores sobre detecção de violência concentraram-se apenas na detecção da presença de violência em um vídeo. Esta abordagem proposta é uma das primeiras a resolver este problema. (ii) Uso do recurso SentiBank para descrever o conteúdo visual de um vídeo. SentiBank é um recurso visual usado para descrever os sentimentos em uma imagem. Este recurso foi usado anteriormente para detectar conteúdo adulto em vídeos (Schulze et al. [52]). Neste trabalho, ele é utilizado pela primeira vez para detectar conteúdo violento. (iii) Utilização de modelo tridimensional de cores, gerado a partir de imagens da web, para detecção de pixels representando sangue. Este modelo de cores é muito robusto e mostrou resultados muito bons na detecção de sangue. (iv) Uso de informações incorporadas em um codec de vídeo para gerar recursos de movimento. Esta abordagem é muito rápida quando comparada às demais, pois os vetores de movimento de cada pixel são pré-computados e armazenados no codec de vídeo. Uma explicação detalhada desta abordagem proposta é apresentada no próximo capítulo, Capítulo 3.



Este artigo está disponível no arxiv sob licença CC 4.0.


[1] http://www.multimediaeval.org