paint-brush
Detección de violencia en vídeos: conclusiones y trabajo futuropor@kinetograph
117 lecturas

Detección de violencia en vídeos: conclusiones y trabajo futuro

Demasiado Largo; Para Leer

En este artículo, los investigadores proponen un sistema para la detección automática de violencia en videos, utilizando señales de audio y visuales para la clasificación.
featured image - Detección de violencia en vídeos: conclusiones y trabajo futuro
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


Autores:

(1) Praveen Tirupattur, Universidad de Florida Central.

Tabla de enlaces

5. Conclusiones y trabajo futuro

En este capítulo, las conclusiones y las direcciones en las que se puede ampliar el trabajo existente se analizan en la Sección 5.1 y la Sección 5.2 respectivamente.

5.1. Conclusiones

En este trabajo, se ha intentado desarrollar un sistema para detectar contenido violento en vídeos utilizando funciones tanto visuales como de audio. Aunque el enfoque utilizado en este trabajo está motivado por trabajos anteriores en esta área, los siguientes son sus aspectos únicos: (i) Detección de diferentes clases de violencia, (ii) el uso de la función SentiBank para describir el contenido visual de un video, (iii) el detector de sangre y el modelo de sangre desarrollados usando imágenes de la web, y (iv) usando información del códec de video para generar características de movimiento. A continuación se ofrece una breve descripción general del proceso utilizado para desarrollar este sistema.


Como la violencia no es una entidad física, detectarla en un vídeo no es una tarea baladí. La violencia es un concepto visual y para detectarla es necesario utilizar múltiples funciones. En este trabajo, se utilizaron funciones MFCC para describir contenido de audio y funciones Blood, Motion y SentiBank para describir contenido visual. Se entrenaron clasificadores SVM para cada una de las características seleccionadas y las puntuaciones de los clasificadores individuales se combinaron mediante suma ponderada para obtener las puntuaciones de clasificación finales para cada una de las clases de violencia. Los pesos para cada clase se encuentran utilizando un enfoque de búsqueda en cuadrícula con el criterio de optimización como el EER mínimo. En este trabajo se utilizan diferentes conjuntos de datos, pero el más importante es el conjunto de datos VSD, que se utiliza para entrenar los clasificadores, calcular los pesos de los clasificadores y probar el sistema.


El rendimiento del sistema se evalúa en dos tareas de clasificación diferentes, clasificación multiclase y binaria. En la tarea de clasificación de clases múltiples, el sistema debe detectar la clase de violencia presente en un segmento de video. Esta es una tarea mucho más difícil que simplemente detectar la presencia de violencia y el sistema presentado aquí es uno de los primeros en abordar este problema. La tarea de clasificación binaria es donde el sistema solo tiene que detectar la presencia de violencia sin tener que encontrar la clase de violencia. En esta tarea, si el puntaje de clasificación final de la tarea de clasificación de clases múltiples para cualquiera de las clases de violencia es superior a 0,5, entonces el segmento de video se clasifica como "Violencia"; de lo contrario, se clasifica como "Sin violencia". Los resultados de la tarea de clasificación multiclase están lejos de ser perfectos y hay margen de mejora, mientras que los resultados de las tareas de clasificación binaria son mejores que los resultados de referencia existentes de MediaEval-2014. Sin embargo, estos resultados son definitivamente alentadores. En la Sección 5.2 se presenta una discusión detallada sobre las posibles direcciones en las que se puede ampliar el trabajo actual.

5.2. Trabajo futuro

Hay muchas direcciones posibles en las que se puede ampliar el trabajo actual. Una dirección sería mejorar el rendimiento del sistema existente. Para ello es necesario mejorar el rendimiento de los clasificadores individuales. Motion y Blood son las dos características cuyo rendimiento del clasificador necesita una mejora considerable. Como se explica en la Sección 4.4, el enfoque utilizado para extraer características de movimiento debe cambiarse para mejorar el rendimiento del clasificador de movimiento. Para Blood, el problema está en el conjunto de datos utilizado para entrenar el clasificador pero no en el extractor de características. Para el entrenamiento se debe utilizar un conjunto de datos apropiado con una cantidad decente de fotogramas que contengan sangre. Realizar estas mejoras debería ser el primer paso hacia la construcción de un sistema mejor. Otra dirección para el trabajo futuro sería adaptar este sistema y desarrollar diferentes herramientas para diferentes aplicaciones. Por ejemplo, (i) se podría desarrollar una herramienta que pudiera extraer los segmentos de video que contienen violencia de un video de entrada determinado. Esto podría resultar útil al etiquetar vídeos. (ii) Se podría desarrollar una herramienta similar para el control parental donde el sistema podría usarse para calificar una película dependiendo de la cantidad de contenido violento que contenga. Otra posible dirección para el trabajo futuro es mejorar la velocidad del sistema para que pueda usarse en la detección de violencia en tiempo real a partir de la transmisión de video de las cámaras de seguridad. Las mejoras necesarias para desarrollar un sistema de estas características no serán triviales.


Este documento está disponible en arxiv bajo licencia CC 4.0.