paint-brush
Detecção de violência em vídeos: experimentos e resultadospor@kinetograph
135 leituras

Detecção de violência em vídeos: experimentos e resultados

Muito longo; Para ler

Neste artigo, os pesquisadores propõem um sistema para detecção automática de violência em vídeos, utilizando pistas sonoras e visuais para classificação.
featured image - Detecção de violência em vídeos: experimentos e resultados
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


Autores:

(1) Praveen Tirupattur, Universidade da Flórida Central.

Tabela de links

4. Experimentos e Resultados

Neste capítulo são apresentados detalhes dos experimentos realizados para avaliar o desempenho do sistema na detecção de conteúdo violento em vídeos. A primeira seção trata dos conjuntos de dados utilizados para este trabalho, a próxima seção descreve a configuração experimental e finalmente na última seção são apresentados os resultados dos experimentos realizados.

4.1. Conjuntos de dados

Neste trabalho foram utilizados dados de mais de uma fonte para extrair características audiovisuais, treinar os classificadores e testar o desempenho do sistema. Os dois principais conjuntos de dados usados aqui são o Violent Scene Dataset (VSD) e o conjunto de dados Hockey Fights. Além desses dois conjuntos de dados, também são utilizadas imagens de sites como o Google Images[1]. Cada um desses conjuntos de dados e seu uso neste trabalho são descritos em detalhes nas seções a seguir.

4.1.1. Conjunto de dados de cenas violentas

Violent Scene Dataset (VSD) é um conjunto de dados anotado para detecção de cenas violentas em filmes de Hollywood e vídeos da web. É um conjunto de dados disponível publicamente projetado especificamente para o desenvolvimento de técnicas de detecção baseadas em conteúdo visando a violência física em filmes e vídeos de sites como o YouTube[2]. O conjunto de dados VSD foi inicialmente introduzido por Demarty et al. [15] no âmbito da iniciativa de benchmark MediaEval, que serve como um quadro de validação para o conjunto de dados e estabelece uma linha de base de última geração para a tarefa de detecção de violência. A versão mais recente do conjunto de dados VSD2014 é uma extensão considerável de suas versões anteriores (Demarty et al. [19], Demarty et al. [18] e Demarty et al. [17]) em vários aspectos. Primeiro, para anotar os filmes e vídeos gerados pelos utilizadores, é utilizada uma definição de violência mais próxima do cenário do mundo real visado, concentrando-se na violência física que uma criança de 8 anos não permitiria ver. Em segundo lugar, o conjunto de dados contém um conjunto substancial de 31 filmes de Hollywood. Terceiro, o VSD2014 inclui 86 videoclipes da web e seus metadados recuperados do YouTube para servir para testar as capacidades de generalização do sistema desenvolvido para detectar violência. Quarto, inclui descritores de conteúdo audiovisual de última geração. O conjunto de dados fornece anotações de cenas violentas e de conceitos relacionados à violência para uma coleção de (i) filmes de Hollywood e (ii) vídeos gerados por usuários compartilhados na web. Além das anotações, são fornecidos recursos de áudio e visuais pré-computados e vários metadados.


O conjunto de dados VSD2014 é dividido em três subconjuntos diferentes, chamados Hollywood: Desenvolvimento, Hollywood: Teste e YouTube: Generalização. Consulte a Tabela 4.1 para obter uma visão geral dos três subconjuntos e estatísticas básicas, incluindo a duração, a fração de cenas violentas (como porcentagem por quadro) e a duração média de uma cena violenta. O conteúdo do conjunto de dados VSD2014 é categorizado em três tipos: filmes/vídeos, recursos e anotações.


Os filmes de Hollywood incluídos no conjunto de dados são escolhidos de forma que sejam de gêneros diferentes e tenham diversidade nos tipos de violência que contêm. Filmes que variam de conteúdo extremamente violento a praticamente nenhum conteúdo violento são selecionados para criar este conjunto de dados. Os filmes selecionados também contêm uma ampla gama de tipos de violência. Por exemplo, filmes de guerra, como O Resgate do Soldado Ryan, contêm tiroteios específicos e cenas de batalha envolvendo muitas pessoas, com um fluxo de áudio alto e denso contendo vários efeitos especiais. Filmes de ação, como a Identidade Bourne, contêm cenas de lutas envolvendo apenas alguns participantes, possivelmente corpo a corpo. Filmes de desastres, como Armagedom, mostram a destruição de cidades inteiras e contêm enormes explosões. Junto com eles, alguns filmes totalmente não violentos também são adicionados ao conjunto de dados para estudar o comportamento dos algoritmos nesse tipo de conteúdo. Como os filmes reais não podem ser fornecidos no conjunto de dados devido a questões de direitos autorais, são fornecidas anotações para 31 filmes, 24 em Hollywood: Desenvolvimento e 7 em Hollywood: Conjunto de testes. O conjunto YouTube: Generalização contém videoclipes compartilhados no YouTube sob licença Creative Commons. Um total de 86 clipes em formato MP4 está incluído no conjunto de dados. Juntamente com os metadados do vídeo, como identificador do vídeo, data de publicação, categoria, título, autor, proporção, duração, etc., são fornecidos como arquivos XML.


Neste conjunto de dados, é fornecido um conjunto comum de descritores de áudio e visuais. Recursos de áudio como envelope de amplitude (AE), energia quadrática média (RMS), taxa de cruzamento zero (ZCR), taxa de energia de banda (BER), centróide espectral (SC), largura de banda de frequência (BW), fluxo espectral ( SF) e coeficientes cepstrais de frequência Mel (MFCC) são fornecidos por quadro de vídeo. Como o áudio tem uma taxa de amostragem de 44.100 Hz e os vídeos são codificados com 25 fps, uma janela de tamanho de 1.764 amostras de áudio é considerada para calcular esses recursos e 22 MFCCs são calculados para cada janela, enquanto todos os outros recursos são unidimensionais. Os recursos de vídeo fornecidos no conjunto de dados incluem histogramas de nomenclatura de cores (CNH), momentos de cor (CM), padrões binários locais (LBP) e histogramas de gradientes orientados (HOG). Os recursos de áudio e visuais são fornecidos em arquivos MAT do Matlab versão 7.3, que correspondem ao formato HDF5.


Tabela 4.1: Estatísticas dos filmes e vídeos dos subconjuntos VSD2014. Todos os valores são dados em segundos.


O conjunto de dados VSD2014 contém anotações binárias de todas as cenas violentas, onde uma cena é identificada por seus quadros iniciais e finais. Essas anotações para filmes de Hollywood e vídeos do YouTube são criadas por vários avaliadores humanos e posteriormente revisadas e mescladas para garantir um certo nível de consistência. Cada segmento violento anotado contém apenas uma ação, sempre que possível. Nos casos em que diferentes ações se sobrepõem, os segmentos são mesclados. Isto é indicado nos arquivos de anotação adicionando a tag “cena de ação múltipla”. Além das anotações binárias de segmentos que contêm violência física, as anotações também incluem conceitos de alto nível para 17 filmes do conjunto Hollywood: Desenvolvimento. Em particular, 7 conceitos visuais e 3 conceitos de áudio são anotados, empregando um protocolo de anotação semelhante ao usado para anotações violentas/não violentas. Os conceitos são presença de sangue, brigas, presença de fogo, presença de armas, presença de armas frias, perseguições de carros e cenas sangrentas, para a modalidade visual; a presença de tiros, explosões e gritos para a modalidade de áudio.


Uma descrição mais detalhada deste conjunto de dados é fornecida por Schedl et al. [51] e para detalhes sobre cada uma das classes de violência, consulte Demarty et al. [19].

4.1.2. Conjunto de dados de lutas

Este conjunto de dados é apresentado por Nievas et al. [42] e foi criado especificamente para avaliar sistemas de detecção de lutas. Este conjunto de dados consiste em duas partes, a primeira parte (“Hóquei”) consiste em 1.000 clipes com resolução de 720 × 576 pixels, divididos em dois grupos, 500 lutas e 500 não lutas, extraídos de jogos de hóquei da National Hockey. Liga (NHL). Cada clipe é limitado a 50 frames e resolução reduzida para 320 × 240. A segunda parte (“Filmes”) consiste em 200 videoclipes, 100 lutas e 100 não lutas, em que as lutas são extraídas de filmes de ação e não-lutas. os vídeos de luta são extraídos de conjuntos de dados de reconhecimento de ações públicas. Ao contrário do conjunto de dados de hóquei, que era relativamente uniforme tanto em formato como em conteúdo, estes vídeos retratam uma maior variedade de cenas e foram capturados em diferentes resoluções. Consulte a Figura 4.1 para ver alguns dos quadros que mostram as lutas dos vídeos nos dois conjuntos de dados. Este conjunto de dados está disponível on-line para download[3].


Figura 4.1: Exemplos de frames dos vídeos de luta nos conjuntos de dados de hóquei (parte superior) e filmes de ação (parte inferior).

4.1.3. Dados da Web

Imagens do Google são utilizadas no desenvolvimento dos modelos de cores (Seção 3.1.1.2) para as classes sanguínea e não sanguínea, que são utilizadas na extração do descritor de características do sangue para cada quadro de um vídeo. As imagens contendo sangue são baixadas do Google Images 1 usando palavras de consulta como “imagens sangrentas”, “cenas sangrentas”, “sangramento”, “respingos de sangue real” etc. natureza”,“primavera”,“pele”,“carros” etc.


O utilitário para baixar imagens do Google, a partir de uma palavra de busca, foi desenvolvido em Python utilizando a biblioteca Beautiful Soup (Richardson [48]). Para cada consulta, a resposta continha cerca de 100 imagens, das quais apenas as primeiras 50 foram selecionadas para download e salvas em um diretório de arquivos local. Cerca de 1.000 imagens foram baixadas no total, combinando classes sanguíneas e não sanguíneas. As dimensões médias das imagens baixadas são 260 × 193 pixels com tamanho de arquivo em torno de 10 Kilobytes. Consulte a Figura 3.3 para alguns dos exemplos de imagens usadas neste trabalho.

4.2. Configurar

Nesta seção são apresentados detalhes da configuração experimental e das abordagens utilizadas para avaliar o desempenho do sistema. No parágrafo seguinte, o particionamento do conjunto de dados é discutido e os parágrafos posteriores explicam as técnicas de avaliação.


Conforme mencionado na Seção 4.1 anterior, dados de múltiplas fontes são usados neste sistema. A fonte mais importante é o conjunto de dados VSD2014. É o único conjunto de dados disponível publicamente que fornece dados de vídeo anotados com várias categorias de violência e é a principal razão para utilizar este conjunto de dados no desenvolvimento deste sistema. Conforme explicado na Seção 4.1.1 anterior, este conjunto de dados contém três subconjuntos, Hollywood: Desenvolvimento, Hollywood: Teste e YouTube: Generalização. Neste trabalho todos os três subconjuntos são usados. O subconjunto Hollywood: Desenvolvimento é o único conjunto de dados anotado com diferentes classes de violência. Este subconjunto composto por 24 filmes de Hollywood é dividido em 3 partes. A primeira parte composta por 12 filmes (Eragon, Quarteto Fantástico 1, Fargo, Clube da Luta, Harry Potter 5, Eu Sou a Lenda, Dia da Independência, Legalmente Loira, Leon, Expresso da Meia-Noite, Piratas do Caribe, Cães de Aluguel) é usada para treinamento. os classificadores. A segunda parte composta por 7 filmes (O Resgate do Soldado Ryan, A Identidade Bourne, O Deus Pai, O Pianista, O Sexto Sentido, O Homem de Vime, O Mágico de Oz) é utilizada para testar os classificadores treinados e calcular os pesos para cada violência. tipo. A parte final composta por 3 filmes (Armageddon, Billy Elliot e Dead Poets Society) é usada para avaliação. Os subconjuntos Hollywood: Teste e YouTube: Generalização também são usados para avaliação, mas para uma tarefa diferente. Os parágrafos seguintes fornecem detalhes das abordagens de avaliação utilizadas.


Para avaliar o desempenho do sistema, são definidas duas tarefas de classificação diferentes. Na primeira tarefa, o sistema deve detectar uma categoria específica de violência presente num segmento de vídeo. A segunda tarefa é mais genérica, onde o sistema deve apenas detectar a presença de violência. Para ambas as tarefas, diferentes conjuntos de dados são usados para avaliação. Na primeira tarefa, que é uma tarefa de classificação multiclasse, é utilizado o conjunto de validação composto por 3 filmes de Hollywood (Armageddon, Billy Elliot e Dead Poets Society). Neste subconjunto, cada intervalo de quadro contendo violência é anotado com a classe de violência presente. Portanto, este conjunto de dados é usado para esta tarefa. Esses 3 filmes não foram utilizados para treinamento, teste de classificadores nem para cálculo de peso para que o sistema pudesse ser avaliado com dados puramente novos. O procedimento ilustrado na Figura 3.1 é utilizado para calcular a probabilidade de um segmento de vídeo pertencer a uma classe específica de violência. As probabilidades de saída do sistema e as informações verdadeiras são usadas para gerar curvas ROC (Receiver Operating Characteristic) e para avaliar o desempenho do sistema.


Na segunda tarefa, que é uma tarefa de classificação binária, são usados os subconjuntos Hollywood: Test e YouTube: Generalization do conjunto de dados VSD2104. O subconjunto Hollywood: Teste consiste em 8 filmes de Hollywood e o subconjunto YouTube: Generalização consiste em 86 vídeos do YouTube. Em ambos os subconjuntos, os intervalos de quadros contendo violência são fornecidos como anotações e nenhuma informação sobre a classe de violência é fornecida. Portanto, esses subconjuntos são usados para esta tarefa. Nesta tarefa, semelhante à anterior, utiliza-se o procedimento ilustrado na Figura 3.1 para calcular a probabilidade de um segmento de vídeo pertencer a uma classe específica de violência. Para cada segmento de vídeo, considera-se que a probabilidade máxima obtida para qualquer classe de violência é a probabilidade de ser violento. Semelhante à tarefa acima, as curvas ROC são geradas a partir desses valores de probabilidade e da verdade básica do conjunto de dados.


Em ambas as tarefas, primeiro todos os recursos são extraídos dos conjuntos de dados de treinamento e teste. Em seguida, os conjuntos de dados de treinamento e teste são amostrados aleatoriamente para obter uma quantidade igual de amostras positivas e negativas. 2.000 amostras de recursos são selecionadas para treinamento e 3.000 são selecionadas para teste. Conforme mencionado acima, conjuntos de treinamento e teste separados são usados para evitar testes em dados de treinamento. Em ambas as tarefas, classificadores SVM com kernels Linear, Função de Base Radial e Qui-Quadrado são treinados para cada tipo de recurso e os classificadores com boas pontuações de classificação no conjunto de teste são selecionados para a etapa de fusão. Na etapa de fusão, os pesos para cada tipo de violência são calculados por meio de busca em grade das possíveis combinações que maximizam o desempenho do classificador. A medida EER (Equal Error Rate) é usada como medida de desempenho.

4.3. Experimentos e Resultados

Nesta seção são apresentados os experimentos e seus resultados. Primeiramente são apresentados os resultados da tarefa de classificação multiclasse, seguidos dos resultados da tarefa de classificação binária.

4.3.1. Classificação multiclasse

Nesta tarefa, o sistema deve detectar a categoria de violência presente em um vídeo. As categorias de violência visadas neste sistema são Sangue, Armas Frias, Explosões, Brigas, Fogo, Armas de Fogo, Tiros, Gritos. Tal como mencionado no Capítulo 1, estes são o subconjunto de categorias de violência definidas na VSD2014. Além dessas oito categorias, Perseguição de Carro e Violência Subjetiva também são definidas no VSD2014, que não são utilizadas neste trabalho porque não havia segmentos de vídeo suficientes marcados com essas categorias no conjunto de dados. Esta tarefa é muito difícil, pois a detecção de subcategorias de violência acrescenta mais complexidade ao complicado problema da detecção da violência. A tentativa de detectar conceitos refinados de violência por parte deste sistema é nova e não existe nenhum sistema que faça esta tarefa.


Conforme mencionado no Capítulo 3, este sistema utiliza uma abordagem de fusão de decisão ponderada para detectar múltiplas classes de violência, onde os pesos para cada categoria de violência são aprendidos utilizando uma técnica de pesquisa em grelha. Consulte a Seção 3.1.3 para obter mais detalhes sobre esta abordagem. Na Tabela 4.2 são apresentados os pesos para cada classe de violência encontrada utilizando esta técnica de pesquisa em grelha.


Esses pesos são usados para obter a soma ponderada dos valores de saída dos classificadores de características binárias para cada categoria de violência. A categoria com maior soma é então a categoria de violência presente naquele segmento de vídeo. Se a soma da saída for inferior a 0,5, o segmento de vídeo será classificado como Não Violento. Os segmentos de vídeo no conjunto de validação são classificados usando esta abordagem e os resultados são apresentados na Figura 4.2. Na figura, cada curva representa a curva ROC para cada uma das categorias de violência.


Tabela 4.2: Pesos do classificador obtidos para cada classe de violência utilizando a técnica Grid-Search. Aqui, o critério para selecionar os pesos para uma classe de violência foi encontrar os pesos que minimizam a EER para essa classe de violência.



Figura 4.2: Desempenho do sistema na tarefa Classificação Multiclasse.

4.3.2. Classificação Binária

Nesta tarefa de classificação binária, espera-se que o sistema detecte a presença de violência sem ter que encontrar a categoria. Semelhante à tarefa anterior, as probabilidades de saída dos classificadores de características binárias são combinadas usando uma abordagem de soma ponderada e as probabilidades de saída do segmento de vídeo pertencer a cada uma das classes de violência são calculadas. Se a probabilidade máxima para qualquer classe exceder 0,5, então o segmento de vídeo é categorizado como violência ou então é categorizado como não-violência. Conforme mencionado na Seção 4.2, esta tarefa é executada nos conjuntos de dados YouTube-Generalization e Hollywood-Test. A Figura 4.3 fornece os resultados desta tarefa em ambos os conjuntos de dados. Duas curvas ROC, uma para cada conjunto de dados, são usadas para representar o desempenho do sistema. Usando 0,5 como limite para decidir se o segmento de vídeo contém violência ou não, são calculados os valores de precisão, recall e exatidão. Consulte a Tabela 4.3 para os resultados obtidos.


Tabela 4.3: Resultados de classificação obtidos utilizando a abordagem proposta.


Tabela 4.4: Resultados de classificação obtidos pelas equipes com melhor desempenho do MediaEval-2014 (Schedl et al. [51]).

4.4. Discussão

Nesta seção são discutidos os resultados apresentados na Seção 4.3. Antes de discutir os resultados das tarefas de classificação multiclasse e binária, é discutido o desempenho dos classificadores individuais.

4.4.1. Classificadores Individuais

Em ambas as tarefas de classificação discutidas na Seção 4.3, uma fusão das pontuações do classificador é realizada para obter os resultados finais. Assim, o desempenho do sistema depende principalmente do desempenho individual de cada um dos classificadores e parcialmente dos pesos atribuídos a cada um dos classificadores. Para que o resultado da classificação final seja bom, é importante que cada um dos classificadores tenha um bom desempenho individual. Para obter classificadores de melhor desempenho, os SVMs são treinados usando três funções de kernel diferentes (Linear, RBF e Qui-Quadrado) e o classificador com desempenho ideal no conjunto de teste é selecionado. Seguindo esta abordagem, os classificadores de melhor desempenho para cada tipo de recurso são selecionados. O desempenho desses classificadores selecionados no conjunto de dados de teste é apresentado na Figura 4.4. Pode-se observar que SentiBank e Audio são os dois classificadores de recursos que apresentam desempenho razoável no conjunto de testes. O classificador de recursos de movimento tem um desempenho um pouco melhor que o acaso e o Blood tem desempenho equivalente ao acaso. Uma discussão detalhada sobre o desempenho de cada um desses classificadores em ordem crescente de desempenho é apresentada a seguir.


Figura 4.4: Desempenho de classificadores binários individuais no conjunto de testes.


Figura 4.5: Desempenho dos classificadores de recursos Motion nos conjuntos de dados Hockey e HollywoodTest. A curva vermelha é para o classificador treinado no conjunto de dados de hóquei e as três restantes são para os três classificadores treinados no conjunto de dados Hollywood-Dev com kernels Linear, RBF e Qui-Quadrado.

4.4.1.1. Movimento

Como fica evidente na Figura 4.4, o desempenho do classificador de características de movimento no conjunto de teste é apenas um pouco melhor que o acaso. Para entender a razão por trás disso, é comparado o desempenho de todos os classificadores de recursos de movimento, treinados com diferentes kernels SVM em conjuntos de dados disponíveis. Consulte a Figura 4.5 para comparação. Na figura, o gráfico à esquerda mostra o desempenho dos classificadores no conjunto de testes do conjunto de dados Hockey e o gráfico à direita mostra a comparação no conjunto de dados Hollywood-Test. Em ambos os gráficos, a curva vermelha corresponde ao classificador treinado no conjunto de dados Hockey e as três curvas restantes correspondem aos classificadores treinados no conjunto de dados Hollywood-Dev.


A partir de ambos os gráficos, pode-se observar que o desempenho dos classificadores treinados e testados no mesmo conjunto de dados é razoavelmente bom quando comparado aos classificadores que são treinados em um conjunto de dados e testados em outro. No gráfico à esquerda (TestSet: Hockey Dataset), o classificador treinado no Hockey Dataset apresenta melhor desempenho. Da mesma forma, no gráfico à direita (TestSet: Hollywood-Test), o desempenho dos classificadores treinados no conjunto de dados Hollywood-Dev apresenta melhor desempenho. A partir dessas observações, pode-se inferir que a representação da característica de movimento aprendida de um conjunto de dados não pode ser transferida para outro conjunto de dados. A razão para isso pode ser a disparidade na resolução e no formato do vídeo entre os conjuntos de dados. Os vídeos do conjunto de dados Hockey e do conjunto de dados Hollywood-Test têm formatos diferentes e, também, nem todos os vídeos do Hollywood-Development e do Hollywood-Test têm o mesmo formato. O formato de vídeo desempenha um papel importante, pois o procedimento usado para extrair recursos de movimento (explicado na Seção 3.1.1.3.1) utiliza informações de movimento de codecs de vídeo. A duração e a resolução de um vídeo também terão algum efeito, embora o procedimento usado aqui tente reduzir isso normalizando os recursos extraídos com a duração do segmento de vídeo e agregando os movimentos dos pixels em um número predefinido de sub-regiões do quadro. Os vídeos do conjunto de dados de hóquei são segmentos muito curtos de um segundo cada, têm tamanho de quadro pequeno e baixa qualidade. Já os segmentos de vídeo do conjunto de dados de Hollywood são mais longos e têm tamanho de quadro maior com melhor qualidade. Uma solução para este problema poderia ser converter todos os vídeos para o mesmo formato, mas mesmo assim pode haver um problema devido à codificação inadequada do vídeo. A outra solução poderia ser usar uma abordagem baseada em fluxo óptico para extrair características de movimento (explicado na Seção 3.1.1.3.2). Mas, como explicado anteriormente, esta abordagem é tediosa e pode não funcionar quando há desfoque devido ao movimento no vídeo.

4.4.1.2. Sangue

O desempenho do classificador de características de sangue no conjunto de teste é tão bom quanto uma chance. Consulte a Figura 4.4 para obter os resultados. Aqui o problema não está na extração de características, pois o detector de sangue usado para extração de características de sangue mostrou resultados muito bons na detecção de regiões contendo sangue em uma imagem. Consulte a Figura 3.4 para ver o desempenho do detector de sangue em imagens da web e a Figura 4.6 para ver o desempenho dele em quadros de amostra do conjunto de dados de Hollywood. A partir disso, fica claro que o extrator de características de sangue está fazendo um ótimo trabalho e esse não é o problema com a extração de características. Assim, pode-se concluir que o problema está no treinamento do classificador e se deve à disponibilidade limitada de dados de treinamento.


No conjunto de dados VSD2014 usado para treinamento, os segmentos de vídeo que contêm sangue são anotados com rótulos (“Imperceptível”, “Baixo”, “Médio” e “Alto”) representando a quantidade de sangue contida nesses segmentos. Existem muito poucos segmentos neste conjunto de dados que são anotados com o rótulo “Alto”, como resultado, os classificadores SVM são incapazes de aprender a representação de recursos dos quadros contendo sangue de forma eficaz. O desempenho deste classificador de recursos pode ser melhorado treinando-o com um conjunto de dados maior com muitas instâncias de quadros contendo uma grande quantidade de sangue. Alternativamente, imagens do Google também podem ser usadas para treinar este classificador.

4.4.1.3. Áudio

O classificador de recursos de áudio é o segundo classificador com melhor desempenho (consulte a Figura 4.4) no conjunto de teste e isso mostra a importância do áudio na detecção de violência. Embora os recursos visuais sejam bons indicadores de conteúdo violento, há algumas cenas em que o áudio desempenha um papel mais importante. Por exemplo, cenas contendo lutas, tiros e explosões. Essas cenas possuem sons característicos e recursos de áudio, como MFCCs e Entropia de Energia, podem ser usados para detectar padrões sonoros associados a essas cenas violentas. Neste trabalho, os recursos do MFCC são usados para descrever o conteúdo de áudio (consulte a Seção 3.1.1.1), como muitos trabalhos anteriores sobre detecção de violência (Acar et al. [1], Jiang et al. [33], Lam et al. [36]. ], etc.) mostraram a eficácia dos recursos do MFCC na detecção de assinaturas de áudio associadas a cenas violentas. Outros recursos de áudio, como entropia de energia, pitch e espectro de potência, também podem ser usados junto com os recursos MFCC para melhorar ainda mais o desempenho do classificador de recursos. Mas é importante notar que o áudio por si só não é suficiente para detectar violência e apenas desempenha um papel importante na detecção de algumas classes de violência, como Tiros e Explosões, que possuem assinaturas de áudio únicas.

4.4.1.4. SentiBank

O classificador de recursos SentiBank mostrou o melhor desempenho de todos os classificadores de recursos (consulte a Figura 4.4) e contribuiu fortemente para o desempenho geral do sistema. Isso demonstra o poder do SentiBank na detecção de sentimentos visuais complexos, como a violência. A Figura 4.7 mostra as pontuações médias dos 50 principais ANPs para quadros contendo violência e sem violência. Como pode ser observado, a lista de ANPs com pontuações médias mais altas para as classes de violência e não-violência são muito diferentes e esta é a razão por trás do muito bom desempenho do SentiBank na separação da classe de violência da classe de não-violência. Observe que nem todos os adjetivos da lista da ANP para classe de violência descrevem violência. Isto pode dever-se a muitas razões diferentes, uma das quais pode ser o facto de, dos 1.200 ANP utilizados no SentiBank, apenas alguns descreverem as emoções relacionadas com a violência (como medo, terror, raiva, raiva, etc.). Consulte a Figura 4.8 que mostra a Roda de Emoções de Plutchik e a distribuição de ANPs para cada categoria de emoção no VSO.


Figura 4.6: Figura que mostra o desempenho do detector de sangue em amostras do conjunto de dados de Hollywood. As imagens na primeira coluna (A e D) são as imagens de entrada, as imagens da segunda coluna (B e E) são os mapas de probabilidade de sangue e as imagens na última coluna (C e F) são os mapas de probabilidade de sangue binarizados.

4.4.2. Pesos de fusão

Conforme mencionado anteriormente (Seção 3.1.3), as pontuações da classificação final são calculadas pela fusão tardia das pontuações dos classificadores individuais usando a abordagem da soma ponderada. Os pesos usados aqui são calculados usando uma abordagem de pesquisa em grade com o objetivo de minimizar a Equal Error Rate (EER). Portanto, os pesos desempenham um papel importante na determinação do desempenho geral da classificação do sistema. Observe que todos esses pesos são calculados no conjunto de teste. Na Tabela 4.2 são apresentados os pesos dos classificadores para cada uma das oito classes de violência, obtidos pela técnica de grid search. A partir dos pesos obtidos, podem ser feitas as seguintes observações sobre a distribuição de pesos: (i) Para a maioria das classes de violência, o peso mais elevado é atribuído ao SentiBank por ser a característica mais discriminativa. (ii) O áudio recebeu o maior peso para classes de violência como Tiros, Explosões e Brigas, onde o áudio desempenha um papel muito importante. (iii) O sangue recebeu pesos elevados para classes de violência como Gritos, Tiros e Armas de Fogo. Isto é interessante porque um segmento de vídeo pertencente a qualquer uma dessas classes de violência também pode conter sangue. (iv) O movimento recebeu o menor peso na maioria das classes de violência por ser o recurso com menor desempenho. Mas também pode-se observar que tem um peso maior para a classe Lutas onde se pode esperar muito movimento.


Se forem analisados os pesos atribuídos a cada uma das classes de violência, podem ser feitas as seguintes observações: (i) Para a classe Tiros, os maiores pesos de distribuição estão entre Áudio (0,5) e Sangue (0,45). Isso é esperado, pois os recursos de áudio desempenham um papel importante na detecção de tiros e também se espera que as cenas contendo tiros tenham muito sangue. (ii) Áudio (0,4) e recursos visuais (Movimento - 0,25 e SentiBank - 0,30) receberam peso quase igual para a classe Lutas. Isso é esperado, pois os recursos de áudio e visuais são importantes na detecção de cenas que contenham lutas. (iii) Para a classe Explosões, os maiores pesos são atribuídos ao Áudio (0,9), o que é esperado, uma vez que os recursos de áudio são cruciais na detecção de explosões. (iv) Fogo é uma classe de violência onde se espera que as características visuais tenham pesos elevados e, como esperado, a característica visual com melhor desempenho, SentiBank (0,85), recebe o peso mais alto. (v) Aula de violência Fria


Figura 4.7: Gráficos que mostram as pontuações médias dos 50 principais ANPs do SentiBank para frames contendo violência e sem violência.


Figura 4.8: Roda de emoções de Plutchik e número de ANPs por emoção no VSO.


armas contêm cenas que possuem a presença de qualquer arma fria (por exemplo, facas, espadas, flechas, alabardas, etc.). Para esta classe, espera-se que os recursos visuais tenham pesos elevados. E como esperado, o SentiBank (0,95) tem o maior peso para esta classe. (vi) “Armas de fogo” é a classe de violência em que as cenas contêm armas de fogo e armas de fogo. Semelhante à classe acima, espera-se que os recursos visuais tenham pesos elevados. Para esta classe, SentiBank (0,6) e Blood (0,3) receberam a maior distribuição de pesos. A razão pela qual Blood recebeu um peso maior pode ser devido ao fato de que a maioria das cenas contendo armas também conterão derramamento de sangue. (vii) Para a classe Sangue, espera-se que o traço Sangue tenha o maior peso. Mas o recurso Sangue (0,05) recebeu apenas um peso pequeno e o SentiBank (0,95) ganhou o peso mais alto. Este não é um resultado esperado e pode ser devido ao baixo desempenho do classificador de recursos Blood no conjunto de teste. (viii) É intuitivo esperar que o Áudio tenha pesos mais altos para a classe “Gritos”, pois os recursos de áudio desempenham um papel importante na detecção de gritos. Mas, os pesos aqui obtidos vão contra esta intuição. O áudio recebeu muito menos peso, enquanto o SentiBank recebeu o maior peso. No geral, os pesos obtidos na pesquisa em grade são mais ou menos os esperados para a maioria das classes. Uma melhor distribuição de peso poderia ser obtida se o desempenho dos classificadores individuais no teste fosse melhorado.

4.4.3. Classificação multiclasse

Nesta seção são discutidos os resultados obtidos na tarefa de classificação multiclasse. Consulte a Figura 4.2 para os resultados obtidos nesta tarefa. Da figura podem ser tiradas as seguintes observações (i) O sistema apresenta bom desempenho (EER em torno de 30%) na detecção de tiros. (ii) Para as classes de violência, Armas Frias, Sangue e Explosões, o sistema apresenta desempenho moderado (EER em torno de 40%). (iii) Para as restantes classes de violência (Britas, Gritos, Fogo, Armas de Fogo) o desempenho é quase uma chance (EER superior a 45%). Estes resultados sugerem que há uma enorme margem para melhorias, mas é importante lembrar que a detecção da violência não é uma tarefa trivial e que distinguir entre diferentes classes de violência é ainda mais difícil. Todas as abordagens propostas até agora concentraram-se apenas na detecção da presença ou ausência de violência, mas não na detecção da categoria de violência. A nova abordagem proposta neste trabalho é uma das primeiras nesta direção e não existem sistemas de base para comparar o desempenho. Os resultados obtidos neste trabalho servirão de base para futuros trabalhos nesta área.


Neste sistema, é seguida a abordagem de fusão tardia, que tem mostrado bons resultados em uma tarefa semelhante de detecção de conceito multimídia de detecção de conteúdo adulto (Schulze et al. [52]). Portanto, o fraco desempenho do sistema não pode ser atribuído à abordagem seguida. O desempenho do sistema depende do desempenho dos classificadores individuais e do peso de fusão atribuído a eles para cada uma das classes de violência. Como os pesos de fusão são ajustados para minimizar o EER usando a técnica Grid-Search, o desempenho geral do sistema depende exclusivamente do desempenho dos classificadores individuais. Assim, para melhorar o desempenho do sistema nesta tarefa, é necessário melhorar o desempenho dos classificadores individuais na detecção da violência.

4.4.4. Classificação Binária

Os resultados da tarefa de classificação binária são apresentados na Figura 4.3. Esta tarefa é uma extensão da tarefa de classificação multiclasse. Conforme explicado anteriormente, nesta tarefa, um segmento de vídeo é categorizado como “Violência” se a probabilidade de saída para qualquer uma das classes de violência for superior ao limite de 0,5. O desempenho do sistema nesta tarefa é avaliado em dois conjuntos de dados, Hollywood-Test e YouTube-Generalization. Pode-se observar que o desempenho do sistema nesses conjuntos de dados é um pouco melhor que o acaso. Também pode ser observado que o desempenho é melhor no conjunto de dados Hollywood-Test do que no conjunto de dados YouTube-Generalization. Isso é esperado, pois todos os classificadores são treinados em dados do conjunto de dados Hollywood-Development, que possuem conteúdo de vídeo semelhante ao do conjunto de dados Hollywood-Test. Os valores de precisão, recall e exatidão obtidos pelo sistema para esta tarefa são apresentados na Tabela 4.3. Os resultados obtidos pela equipe com melhor desempenho nesta tarefa do MediaEval-2014 são apresentados na Tabela 4.4.


Estes resultados não podem ser comparados diretamente, embora seja utilizado o mesmo conjunto de dados, pois o processo utilizado para avaliação não é o mesmo. No MediaEval-2014, espera-se que um sistema produza o quadro inicial e final para os segmentos de vídeo que contêm violência e, se a sobreposição entre a verdade fundamental e os intervalos do quadro de saída for superior a 50%, então é considerado um acerto. Consulte Schedl et al. [51] para mais informações sobre o processo seguido no MediaEval-2014. Na abordagem proposta, o sistema categoriza cada segmento de 1 segundo do vídeo de entrada como sendo da classe “Violência” ou “Sem violência” e o desempenho do sistema é calculado comparando-o com a verdade básica. Este critério de avaliação utilizado aqui é muito mais rigoroso e granular quando comparado ao utilizado no MediaEval-2014. Aqui, como a classificação é feita para cada segmento de 1 segundo, não há necessidade de uma estratégia para penalizar a detecção de segmentos mais curtos. A métrica MAP é usada para selecionar o sistema de melhor desempenho no MediaEval enquanto, no sistema proposto, o EER do sistema é otimizado.


Embora os resultados obtidos com este sistema não possam ser diretamente comparados com os resultados do MediaEval, pode-se observar que o desempenho deste sistema é comparável, se não melhor, ao sistema com melhor desempenho do MediaEval-2014, apesar de critérios de avaliação rigorosos. são usados. Estes resultados sugerem que o sistema desenvolvido utilizando a nova abordagem proposta é melhor do que os sistemas de última geração existentes nesta área de detecção de violência.

4.5. Resumo

Neste capítulo é apresentada uma discussão detalhada sobre a avaliação do sistema desenvolvido. Na Seção 4.1, são explicados detalhes dos conjuntos de dados utilizados neste trabalho e na próxima seção, Seção 4.2, a configuração experimental é discutida. Na Seção 4.3 são apresentados os experimentos e seus resultados, seguidos de uma discussão detalhada dos resultados obtidos na Seção 4.4.



Este artigo está disponível no arxiv sob licença CC 4.0.


[1] http://www.images.google.com


[2] http://www.youtube.com


[3] http://visilab.etsii.uclm.es/personas/oscar/FightDetection/index.html