paint-brush
Detecção de violência em vídeos: conclusões e trabalhos futurospor@kinetograph
118 leituras

Detecção de violência em vídeos: conclusões e trabalhos futuros

Muito longo; Para ler

Neste artigo, os pesquisadores propõem um sistema para detecção automática de violência em vídeos, utilizando pistas sonoras e visuais para classificação.
featured image - Detecção de violência em vídeos: conclusões e trabalhos futuros
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


Autores:

(1) Praveen Tirupattur, Universidade da Flórida Central.

Tabela de Links

5. Conclusões e trabalhos futuros

Neste capítulo, as conclusões e as direções nas quais o trabalho existente pode ser estendido são discutidas na Seção 5.1 e na Seção 5.2, respectivamente.

5.1. Conclusões

Neste trabalho, foi feita uma tentativa de desenvolver um sistema para detectar conteúdo violento em vídeos utilizando recursos visuais e sonoros. Embora a abordagem utilizada neste trabalho seja motivada por trabalhos anteriores nesta área, os seguintes são os seus aspectos únicos: (i) Detecção de diferentes classes de violência, (ii) o uso do recurso SentiBank para descrever o conteúdo visual de um vídeo, (iii) o detector de sangue e o modelo de sangue desenvolvido a partir de imagens da web, e (iv) a utilização de informações do codec de vídeo para gerar recursos de movimento. Aqui está uma breve visão geral do processo usado para desenvolver este sistema.


Como a violência não é uma entidade física, a sua detecção num vídeo não é uma tarefa trivial. A violência é um conceito visual e para detectá-la é necessário utilizar múltiplos recursos. Neste trabalho, os recursos MFCC foram usados para descrever o conteúdo de áudio e os recursos Blood, Motion e SentiBank são usados para descrever o conteúdo visual. Os classificadores SVM foram treinados para cada uma das características selecionadas e as pontuações individuais dos classificadores foram combinadas por soma ponderada para obter as pontuações finais da classificação para cada uma das classes de violência. Os pesos para cada classe são encontrados usando uma abordagem de pesquisa em grade com o critério de otimização sendo o EER mínimo. Diferentes conjuntos de dados são utilizados neste trabalho, mas o mais importante é o conjunto de dados VSD, que é utilizado para treinar os classificadores, calcular os pesos do classificador e testar o sistema.


O desempenho do sistema é avaliado em duas tarefas de classificação diferentes, MultiClass e classificação binária. Na tarefa de classificação Multiclasse, o sistema deve detectar a classe de violência presente em um segmento de vídeo. Esta é uma tarefa muito mais difícil do que apenas detectar a presença de violência e o sistema aqui apresentado é um dos primeiros a resolver este problema. A tarefa de classificação binária é onde o sistema deve apenas detectar a presença de violência sem ter que encontrar a classe de violência. Nesta tarefa, se a pontuação final da tarefa de classificação multiclasse para qualquer classe de violência for superior a 0,5, então o segmento de vídeo é categorizado como “Violência”, caso contrário, é categorizado como “Sem violência”. Os resultados da tarefa de classificação multiclasse estão longe de ser perfeitos e há espaço para melhorias, enquanto os resultados nas tarefas de classificação binária são melhores do que os resultados de benchmark existentes do MediaEval-2014. No entanto, estes resultados são definitivamente encorajadores. Na Seção 5.2, é apresentada uma discussão detalhada sobre as possíveis direções nas quais o trabalho atual pode ser estendido.

5.2. Trabalho futuro

Existem muitas direções possíveis nas quais o trabalho atual pode ser estendido. Uma direção seria melhorar o desempenho do sistema existente. Para isso, o desempenho dos classificadores individuais deve ser melhorado. Movimento e Sangue são os dois recursos cujo desempenho do classificador precisa de melhorias consideráveis. Conforme explicado na Seção 4.4, a abordagem usada para extrair características de movimento deve ser alterada para melhorar o desempenho do classificador de movimento. Para Blood, o problema está no conjunto de dados usado para treinar o classificador, mas não no extrator de recursos. Um conjunto de dados apropriado com uma quantidade razoável de quadros contendo sangue deve ser usado para treinamento. Fazer essas melhorias deve ser o primeiro passo para a construção de um sistema melhor. Outra direção para o trabalho futuro seria adaptar este sistema e desenvolver diferentes ferramentas para diferentes aplicações. Por exemplo, (i) poderia ser desenvolvida uma ferramenta que pudesse extrair os segmentos de vídeo contendo violência de um determinado vídeo de entrada. Isso pode ser útil na marcação de vídeos. (ii) Uma ferramenta semelhante poderia ser desenvolvida para o controle parental, onde o sistema poderia ser usado para classificar um filme dependendo da quantidade de conteúdo violento nele contido. Outra possível direção para trabalhos futuros é melhorar a velocidade do sistema para que possa ser utilizado na detecção em tempo real de violência a partir do vídeo das câmeras de segurança. As melhorias necessárias para desenvolver tal sistema não serão triviais.


Este artigo está disponível no arxiv sob licença CC 4.0.