paint-brush
Detección de violencia en videos: experimentos y resultadospor@kinetograph
109 lecturas

Detección de violencia en videos: experimentos y resultados

Demasiado Largo; Para Leer

En este artículo, los investigadores proponen un sistema para la detección automática de violencia en videos, utilizando señales de audio y visuales para la clasificación.
featured image - Detección de violencia en videos: experimentos y resultados
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


Autores:

(1) Praveen Tirupattur, Universidad de Florida Central.

Tabla de enlaces

4. Experimentos y resultados

En este capítulo se presentan detalles de los experimentos realizados para evaluar el desempeño del sistema en la detección de contenido violento en videos. La primera sección trata sobre los conjuntos de datos utilizados para este trabajo, la siguiente sección describe la configuración experimental y finalmente, en la última sección, se presentan los resultados de los experimentos realizados.

4.1. Conjuntos de datos

En este trabajo, se han utilizado datos de más de una fuente para extraer características visuales y de audio, entrenar a los clasificadores y probar el rendimiento del sistema. Los dos conjuntos de datos principales utilizados aquí son el conjunto de datos de escenas violentas (VSD) y el conjunto de datos de peleas de hockey. Además de estos dos conjuntos de datos, también se utilizan imágenes de sitios web como Google Images[1]. Cada uno de estos conjuntos de datos y su uso en este trabajo se describe en detalle en las siguientes secciones.

4.1.1. Conjunto de datos de escenas violentas

El conjunto de datos de escenas violentas (VSD) es un conjunto de datos anotado para la detección de escenas violentas en películas y vídeos de Hollywood de la web. Se trata de un conjunto de datos disponible públicamente diseñado específicamente para el desarrollo de técnicas de detección basadas en contenidos dirigidas a la violencia física en películas y vídeos de sitios web como YouTube[2]. El conjunto de datos VSD fue introducido inicialmente por Demarty et al. [15] en el marco de la iniciativa de referencia MediaEval, que sirve como marco de validación del conjunto de datos y establece una línea de base del estado del arte para la tarea de detección de violencia. La última versión del conjunto de datos VSD2014 es una extensión considerable de sus versiones anteriores (Demarty et al. [19], Demarty et al. [18] y Demarty et al. [17]) en varios aspectos. En primer lugar, para comentar las películas y los vídeos generados por los usuarios, se utiliza una definición de violencia que se acerca más al escenario del mundo real objetivo, centrándose en la violencia física que no permitiría que viera un niño de 8 años. En segundo lugar, el conjunto de datos tiene un conjunto sustancial de 31 películas de Hollywood. En tercer lugar, VSD2014 incluye 86 clips de vídeo web y sus metadatos recuperados de YouTube para probar las capacidades de generalización del sistema desarrollado para detectar violencia. En cuarto lugar, incluye descriptores de contenidos audiovisuales de última generación. El conjunto de datos proporciona anotaciones de escenas violentas y de conceptos relacionados con la violencia para una colección de (i) películas de Hollywood y (ii) videos generados por usuarios compartidos en la web. Además de las anotaciones, se proporcionan características visuales y de audio precalculadas y varios metadatos.


El conjunto de datos VSD2014 se divide en tres subconjuntos diferentes, denominados Hollywood: Desarrollo, Hollywood: Prueba y YouTube: Generalización. Consulte la Tabla 4.1 para obtener una descripción general de los tres subconjuntos y estadísticas básicas, incluida la duración, la fracción de escenas violentas (como porcentaje por cuadro) y la duración promedio de una escena violenta. El contenido del conjunto de datos VSD2014 se clasifica en tres tipos: películas/vídeos, funciones y anotaciones.


Las películas de Hollywood incluidas en el conjunto de datos se eligen de manera que sean de diferentes géneros y tengan diversidad en los tipos de violencia que contienen. Para crear este conjunto de datos se seleccionan películas que van desde contenido extremadamente violento hasta prácticamente ningún contenido violento. Las películas seleccionadas también contienen una amplia gama de tipos de violencia. Por ejemplo, las películas de guerra, como Salvar al soldado Ryan, contienen tiroteos específicos y escenas de batalla que involucran a mucha gente, con un flujo de audio alto y denso que contiene numerosos efectos especiales. Las películas de acción, como El caso Bourne, contienen escenas de peleas que involucran sólo a unos pocos participantes, posiblemente cuerpo a cuerpo. Las películas de catástrofes, como Armageddon, muestran la destrucción de ciudades enteras y contienen enormes explosiones. Junto con estas, también se añaden al conjunto de datos algunas películas completamente no violentas para estudiar el comportamiento de los algoritmos en dicho contenido. Como las películas reales no se pueden proporcionar en el conjunto de datos debido a problemas de derechos de autor, se proporcionan anotaciones para 31 películas, 24 en Hollywood: Desarrollo y 7 en Hollywood: Conjunto de prueba. El conjunto YouTube: Generalización contiene videoclips compartidos en YouTube bajo licencia Creative Commons. En el conjunto de datos se incluye un total de 86 clips en formato MP4. Junto con los metadatos del vídeo, como el identificador del vídeo, la fecha de publicación, la categoría, el título, el autor, la relación de aspecto, la duración, etc., se proporcionan como archivos XML.


En este conjunto de datos, se proporciona un conjunto común de descriptores visuales y de audio. Funciones de audio como envolvente de amplitud (AE), energía cuadrática media (RMS), tasa de cruce por cero (ZCR), relación de energía de banda (BER), centroide espectral (SC), ancho de banda de frecuencia (BW), flujo espectral ( SF) y los coeficientes cepstrales de frecuencia Mel (MFCC) se proporcionan por cuadro de video. Como el audio tiene una frecuencia de muestreo de 44,100 Hz y los videos están codificados con 25 fps, se considera una ventana de tamaño 1,764 muestras de audio de longitud para calcular estas características y se calculan 22 MFCC para cada ventana, mientras que todas las demás características son unidimensionales. Las características de video proporcionadas en el conjunto de datos incluyen histogramas de nombres de colores (CNH), momentos de color (CM), patrones binarios locales (LBP) e histogramas de gradientes orientados (HOG). Las funciones de audio y visuales se proporcionan en archivos MAT de la versión 7.3 de Matlab, que corresponden al formato HDF5.


Tabla 4.1: Estadísticas de las películas y vídeos de los subconjuntos VSD2014. Todos los valores se dan en segundos.


El conjunto de datos VSD2014 contiene anotaciones binarias de todas las escenas violentas, donde una escena se identifica por sus fotogramas inicial y final. Estas anotaciones para películas de Hollywood y vídeos de YouTube son creadas por varios evaluadores humanos y posteriormente se revisan y fusionan para garantizar un cierto nivel de coherencia. Cada segmento violento anotado contiene sólo una acción, siempre que sea posible. En los casos en los que se superponen diferentes acciones, los segmentos se fusionan. Esto se indica en los archivos de anotaciones agregando la etiqueta "escena de acción múltiple". Además de las anotaciones binarias de segmentos que contienen violencia física, las anotaciones también incluyen conceptos de alto nivel para 17 películas en Hollywood: set de desarrollo. En particular, se anotan 7 conceptos visuales y 3 conceptos de audio, empleando un protocolo de anotación similar al utilizado para las anotaciones violentas/no violentas. Los conceptos son presencia de sangre, peleas, presencia de fuego, presencia de armas de fuego, presencia de armas frías, persecuciones de autos y escenas sangrientas, para la modalidad visual; la presencia de disparos, explosiones y gritos para la modalidad de audio.


Schedl et al. proporcionan una descripción más detallada de este conjunto de datos. [51] y para obtener detalles sobre cada una de las clases de violencia, consulte Demarty et al. [19].

4.1.2. Lucha contra el conjunto de datos

Este conjunto de datos es presentado por Nievas et al. [42] y está creado específicamente para evaluar sistemas de detección de peleas. Este conjunto de datos consta de dos partes, la primera parte (“Hockey”) consta de 1000 clips con una resolución de 720 × 576 píxeles, divididos en dos grupos, 500 peleas y 500 no peleas, extraídos de juegos de hockey de la Liga Nacional de Hockey. Liga (NHL). Cada clip está limitado a 50 fotogramas y la resolución se reduce a 320 × 240. La segunda parte (“Películas”) consta de 200 videoclips, 100 peleas y 100 no peleas, en los que las peleas se extraen de películas de acción y las no peleas. Los vídeos de lucha se extraen de conjuntos de datos de reconocimiento de acciones públicas. A diferencia del conjunto de datos de hockey, que era relativamente uniforme tanto en formato como en contenido, estos vídeos representan una variedad más amplia de escenas y fueron capturados con diferentes resoluciones. Consulte la Figura 4.1 para ver algunos de los cuadros que muestran peleas de los videos en los dos conjuntos de datos. Este conjunto de datos está disponible en línea para su descarga[3].


Figura 4.1: Fotogramas de muestra de los videos de peleas en los conjuntos de datos de Hockey (arriba) y películas de acción (abajo).

4.1.3. Datos de la web

Las imágenes de Google se utilizan para desarrollar los modelos de color (Sección 3.1.1.2) para las clases con y sin sangre, que se utilizan para extraer el descriptor de características sanguíneas para cada fotograma de un vídeo. Las imágenes que contienen sangre se descargan de Google Imágenes 1 utilizando palabras de consulta como “imágenes sangrientas”, “escenas sangrientas”, “sangrado”, “salpicaduras de sangre real”, etc. De manera similar, las imágenes que no contienen sangre se descargan utilizando palabras de búsqueda como “ naturaleza”,“primavera”,“piel”,“coches”,etc.


La utilidad para descargar imágenes de Google, dada una palabra de búsqueda, fue desarrollada en Python utilizando la biblioteca Beautiful Soup (Richardson [48]). Para cada consulta, la respuesta contenía alrededor de 100 imágenes de las cuales solo se seleccionaron las primeras 50 para descargarlas y guardarlas en un directorio de archivos local. Se descargaron alrededor de 1.000 imágenes en total, combinando clases sanguíneas y no sanguíneas. Las dimensiones medias de las imágenes descargadas son 260 × 193 píxeles con un tamaño de archivo de unos 10 kilobytes. Consulte la Figura 3.3 para ver algunas de las imágenes de muestra utilizadas en este trabajo.

4.2. Configuración

En esta sección, se presentan detalles de la configuración experimental y los enfoques utilizados para evaluar el desempeño del sistema. En el siguiente párrafo, se analiza la partición del conjunto de datos y los párrafos posteriores explican las técnicas de evaluación.


Como se mencionó en la Sección 4.1 anterior, en este sistema se utilizan datos de múltiples fuentes. La fuente más importante es el conjunto de datos VSD2014. Es el único conjunto de datos disponible públicamente que proporciona datos de video comentados con varias categorías de violencia y es la razón principal para utilizar este conjunto de datos en el desarrollo de este sistema. Como se explicó en la Sección 4.1.1 anterior, este conjunto de datos contiene tres subconjuntos, Hollywood: Desarrollo, Hollywood: Prueba y YouTube: Generalización. En este trabajo se utilizan los tres subconjuntos. El subconjunto Hollywood: Desarrollo es el único conjunto de datos que está anotado con diferentes clases de violencia. Este subconjunto que consta de 24 películas de Hollywood se divide en 3 partes. La primera parte compuesta por 12 películas (Eragon, Los Cuatro Fantásticos 1, Fargo, El Club de la Lucha, Harry Potter 5, Soy Leyenda, Día de la Independencia, Legalmente Rubio, León, Expreso de Medianoche, Piratas del Caribe, Reservoir Dogs) se utiliza para el entrenamiento. los clasificadores. La segunda parte, que consta de 7 películas (Salvar al soldado Ryan, El caso Bourne, El Dios Padre, El pianista, El sexto sentido, El hombre de mimbre, El mago de Oz) se utiliza para probar los clasificadores entrenados y calcular los pesos de cada violencia. tipo. Para la evaluación se utiliza la parte final que consta de 3 películas (Armageddon, Billy Elliot y Dead Poets Society). Los subconjuntos Hollywood: Test y YouTube: Generalization también se utilizan para la evaluación, pero para una tarea diferente. Los siguientes párrafos proporcionan detalles de los enfoques de evaluación utilizados.


Para evaluar el desempeño del sistema, se definen dos tareas de clasificación diferentes. En la primera tarea, el sistema debe detectar una categoría específica de violencia presente en un segmento de video. La segunda tarea es más genérica donde el sistema sólo debe detectar la presencia de violencia. Para ambas tareas, se utilizan diferentes conjuntos de datos para la evaluación. En la primera tarea, que es una tarea de clasificación de clases múltiples, se utiliza el conjunto de validación que consta de 3 películas de Hollywood (Armageddon, Billy Elliot y Dead Poets Society). En este subconjunto, cada intervalo de fotograma que contiene violencia está anotado con la clase de violencia que está presente. Por lo tanto, este conjunto de datos se utiliza para esta tarea. Estas 3 películas no se utilizaron para entrenamiento, prueba de clasificadores ni para cálculo de peso, de modo que el sistema pueda evaluarse basándose en datos puramente nuevos. El procedimiento ilustrado en la Figura 3.1 se utiliza para calcular la probabilidad de que un segmento de vídeo pertenezca a una clase específica de violencia. Las probabilidades de salida del sistema y la información real del terreno se utilizan para generar curvas ROC (características operativas del receptor) y para evaluar el rendimiento del sistema.


En la segunda tarea, que es una tarea de clasificación binaria, se utilizan los subconjuntos Hollywood: Test y YouTube: Generalization del conjunto de datos VSD2104. El subconjunto Hollywood: Prueba consta de 8 películas de Hollywood y el subconjunto YouTube: Generalización consta de 86 vídeos de YouTube. En ambos subconjuntos, los intervalos de fotogramas que contienen violencia se proporcionan como anotaciones y no se proporciona información sobre la clase de violencia. Por tanto, estos subconjuntos se utilizan para esta tarea. En esta tarea, similar a la anterior, se utiliza el procedimiento ilustrado en la Figura 3.1 para calcular la probabilidad de que un segmento de video pertenezca a una clase específica de violencia. Para cada segmento de vídeo, se considera que la probabilidad máxima obtenida para cualquiera de las clases de violencia es la probabilidad de que sea violento. De manera similar a la tarea anterior, las curvas ROC se generan a partir de estos valores de probabilidad y la verdad fundamental del conjunto de datos.


En ambas tareas, primero se extraen todas las características de los conjuntos de datos de entrenamiento y prueba. A continuación, se muestrean aleatoriamente los conjuntos de datos de entrenamiento y prueba para obtener una cantidad igual de muestras positivas y negativas. Se seleccionan 2000 muestras de funciones para capacitación y 3000 para pruebas. Como se mencionó anteriormente, los conjuntos de prueba y entrenamiento separados se utilizan para evitar realizar pruebas con datos de entrenamiento. En ambas tareas, se entrenan clasificadores SVM con núcleos lineales, de función de base radial y de chi-cuadrado para cada tipo de característica y los clasificadores con buenas puntuaciones de clasificación en el conjunto de pruebas se seleccionan para el paso de fusión. En el paso de fusión, las ponderaciones para cada tipo de violencia se calculan buscando en una cuadrícula las posibles combinaciones que maximizan el rendimiento del clasificador. La medida EER (tasa de error igual) se utiliza como medida de rendimiento.

4.3. Experimentos y resultados

En esta sección se presentan los experimentos y sus resultados. Primero, se presentan los resultados de la tarea de clasificación multiclase, seguidos de los resultados de la tarea de clasificación binaria.

4.3.1. Clasificación multiclase

En esta tarea, el sistema tiene que detectar la categoría de violencia presente en un vídeo. Las categorías de violencia a las que se dirige este sistema son Sangre, Armas frías, Explosiones, Peleas, Fuego, Armas de fuego, Disparos, Gritos. Como se mencionó en el Capítulo 1, estos son el subconjunto de categorías de violencia que se definen en el VSD2014. Además de estas ocho categorías, en VSD2014 también se definen Persecución en automóvil y Violencia subjetiva, que no se utilizan en este trabajo porque no había suficientes segmentos de video etiquetados con estas categorías en el conjunto de datos. Esta tarea es muy difícil ya que la detección de subcategorías de violencia añade más complejidad al complicado problema de la detección de la violencia. El intento de detectar conceptos detallados de violencia mediante este sistema es novedoso y no existe ningún sistema que realice esta tarea.


Como se mencionó en el Capítulo 3, este sistema utiliza un enfoque de fusión de decisiones ponderadas para detectar múltiples clases de violencia donde las ponderaciones para cada categoría de violencia se aprenden utilizando una técnica de búsqueda en cuadrícula. Consulte la Sección 3.1.3 para obtener más detalles sobre este enfoque. En la Tabla 4.2 se presentan las ponderaciones para cada clase de violencia que se encuentra utilizando esta técnica de búsqueda en cuadrícula.


Estas ponderaciones se utilizan para obtener la suma ponderada de los valores de salida de los clasificadores de características binarias para cada categoría de violencia. La categoría con la suma más alta es entonces la categoría de violencia presente en ese segmento de video. Si la suma de salida es inferior a 0,5, el segmento de vídeo se clasifica como no violento. Los segmentos de vídeo en el conjunto de validación se clasifican utilizando este enfoque y los resultados se presentan en la Figura 4.2. En la figura, cada curva representa la curva ROC para cada una de las categorías de violencia.


Tabla 4.2: Ponderaciones del clasificador obtenidas para cada una de las clases de violencia utilizando la técnica Grid-Search. Aquí el criterio para seleccionar las ponderaciones para una clase de violencia fue encontrar las ponderaciones que minimicen el EER para esa clase de violencia.



Figura 4.2: Desempeño del sistema en la tarea de Clasificación Multiclase.

4.3.2. Clasificación binaria

En esta tarea de clasificación binaria, se espera que el sistema detecte la presencia de violencia sin tener que encontrar la categoría. De manera similar a la tarea anterior, las probabilidades de salida de los clasificadores de características binarias se combinan utilizando un enfoque de suma ponderada y se calculan las probabilidades de salida del segmento de video que pertenece a cada una de las clases de violencia. Si la probabilidad máxima para cualquiera de la clase excede 0,5, entonces el segmento de video se clasifica como violento o como no violento. Como se mencionó en la Sección 4.2, esta tarea se realiza en los conjuntos de datos de Generalización de YouTube y Prueba de Hollywood. La Figura 4.3 proporciona los resultados de esta tarea en ambos conjuntos de datos. Se utilizan dos curvas ROC, una para cada uno de los conjuntos de datos, para representar el rendimiento del sistema. Utilizando 0,5 como umbral para tomar la decisión de si el segmento de vídeo contiene violencia o no, se calculan los valores de precisión, recuperación y exactitud. Consulte la Tabla 4.3 para conocer los resultados obtenidos.


Tabla 4.3: Resultados de clasificación obtenidos utilizando el enfoque propuesto.


Tabla 4.4: Resultados de clasificación obtenidos por los equipos con mejor desempeño de MediaEval-2014 (Schedl et al. [51]).

4.4. Discusión

En esta sección, se discuten los resultados presentados en la Sección 4.3. Antes de discutir los resultados de las tareas de clasificación binaria y multiclase, se analiza el desempeño de los clasificadores individuales.

4.4.1. Clasificadores individuales

En ambas tareas de clasificación analizadas en la Sección 4.3, se realiza una fusión de puntuaciones del clasificador para obtener los resultados finales. Por lo tanto, el desempeño del sistema depende principalmente del desempeño individual de cada uno de los clasificadores y parcialmente de los pesos asignados a cada uno de los clasificadores. Para que los resultados finales de la clasificación sean buenos es importante que cada uno de los clasificadores tenga un buen desempeño individual. Para obtener clasificadores de mejor rendimiento, las SVM se entrenan utilizando tres funciones del kernel diferentes (Lineal, RBF y Chi-Cuadrado) y se selecciona el clasificador con rendimiento óptimo en el conjunto de prueba. Siguiendo este enfoque, se seleccionan los clasificadores de mejor rendimiento para cada tipo de característica. El desempeño de estos clasificadores seleccionados en el conjunto de datos de prueba se presenta en la Figura 4.4. Se puede observar que SentiBank y Audio son los dos clasificadores de funciones que muestran un rendimiento razonable en el conjunto de prueba. El clasificador de características de movimiento tiene un rendimiento un poco mejor que el azar y Blood tiene un rendimiento equivalente al azar. A continuación se presenta una discusión detallada sobre el desempeño de cada uno de estos clasificadores en orden creciente de desempeño.


Figura 4.4: Rendimiento de clasificadores binarios individuales en el conjunto de prueba.


Figura 4.5: Rendimiento de los clasificadores de funciones de Motion en conjuntos de datos de Hockey y HollywoodTest. La curva roja es para el clasificador entrenado en el conjunto de datos de Hockey y las tres restantes son para los tres clasificadores entrenados en el conjunto de datos Hollywood-Dev con núcleos Linear, RBF y Chi-Square.

4.4.1.1. Movimiento

Como se desprende de la Figura 4.4, el rendimiento del clasificador de características de movimiento en el conjunto de prueba es sólo un poco mejor que el azar. Para comprender la razón detrás de esto, se compara el rendimiento de todos los clasificadores de características de movimiento, entrenados con diferentes núcleos SVM en conjuntos de datos disponibles. Consulte la Figura 4.5 para ver la comparación. En la figura, el gráfico de la izquierda muestra el rendimiento de los clasificadores en el conjunto de pruebas del conjunto de datos de Hockey y el gráfico de la derecha muestra la comparación en el conjunto de datos de Hollywood-Test. En ambos gráficos, la curva roja corresponde al clasificador entrenado en el conjunto de datos de Hockey y las tres curvas restantes corresponden a clasificadores entrenados en el conjunto de datos de Hollywood-Dev.


En ambos gráficos, se puede observar que el rendimiento de los clasificadores entrenados y probados en el mismo conjunto de datos es razonablemente bueno en comparación con los clasificadores entrenados en un conjunto de datos y probados en otro. En el gráfico de la izquierda (TestSet: Hockey Dataset), el clasificador entrenado en Hockey Dataset tiene mejor rendimiento. De manera similar, en el gráfico de la derecha (TestSet: Hollywood-Test), el rendimiento de los clasificadores entrenados en el conjunto de datos de Hollywood-Dev tiene un mejor rendimiento. A partir de estas observaciones, se puede inferir que la representación de la característica de movimiento aprendida de un conjunto de datos no se puede transferir a otro conjunto de datos. La razón de esto podría ser la disparidad en la resolución y el formato de video entre los conjuntos de datos. Los videos del conjunto de datos de Hockey y del conjunto de datos de Hollywood-Test tienen formatos diferentes y, además, no todos los videos de Hollywood-Development y Hollywood-Test tienen el mismo formato. El formato de video juega un papel importante ya que el procedimiento utilizado para extraer características de movimiento (explicado en la Sección 3.1.1.3.1) utiliza información de movimiento de códecs de video. La duración y la resolución de un vídeo también tendrán algún efecto, aunque el procedimiento utilizado aquí intenta reducirlo normalizando las características extraídas con la duración del segmento de vídeo y agregando los movimientos de píxeles en un número predefinido de subregiones. del marco. Los vídeos del conjunto de datos de Hockey son segmentos muy cortos de un segundo cada uno y tienen un tamaño de fotograma pequeño y baja calidad. Mientras que los segmentos de vídeo del conjunto de datos de Hollywood son más largos y tienen un tamaño de fotograma mayor con mejor calidad. Una solución para este problema podría ser convertir todos los vídeos al mismo formato, pero incluso así podría haber un problema debido a una codificación de vídeo incorrecta. La otra solución podría ser utilizar un enfoque basado en flujo óptico para extraer características de movimiento (explicado en la Sección 3.1.1.3.2). Pero como se explicó anteriormente, este enfoque es tedioso y puede no funcionar cuando hay desenfoque debido al movimiento en un video.

4.4.1.2. Sangre

El rendimiento del clasificador de características sanguíneas en el equipo de prueba es tan bueno como una posibilidad. Consulte la Figura 4.4 para ver los resultados. Aquí el problema no está en la extracción de características, ya que el detector de sangre utilizado para la extracción de características de sangre ha mostrado muy buenos resultados en la detección de regiones que contienen sangre en una imagen. Consulte la Figura 3.4 para conocer el rendimiento del detector de sangre en imágenes de la web y la Figura 4.6 para conocer su rendimiento en fotogramas de muestra del conjunto de datos de Hollywood. A partir de esto, queda claro que el extractor de características sanguíneas está haciendo un trabajo bastante bueno y no es el problema con la extracción de características. Por lo tanto, se puede concluir que el problema está en el entrenamiento del clasificador y se debe a la disponibilidad limitada de datos de entrenamiento.


En el conjunto de datos VSD2014 que se utiliza para el entrenamiento, los segmentos de video que contienen sangre están anotados con etiquetas ("Imperceptible", "Bajo", "Medio" y "Alto") que representan la cantidad de sangre contenida en estos segmentos. Hay muy pocos segmentos en este conjunto de datos que están anotados con la etiqueta "Alto", como resultado de lo cual, los clasificadores SVM no pueden aprender la representación de características de los marcos que contienen sangre de manera efectiva. El rendimiento de este clasificador de características se puede mejorar entrenándolo con un conjunto de datos más grande con muchas instancias de cuadros que contienen una gran cantidad de sangre. Alternativamente, también se pueden utilizar imágenes de Google para entrenar este clasificador.

4.4.1.3. Audio

El clasificador de funciones de audio es el segundo clasificador con mejor rendimiento (consulte la Figura 4.4) en el conjunto de prueba y esto muestra la importancia del audio en la detección de violencia. Aunque las características visuales son buenos indicadores de contenido violento, hay algunas escenas en las que el audio juega un papel más importante. Por ejemplo, escenas que contengan peleas, disparos y explosiones. Estas escenas tienen sonidos característicos y características de audio, como MFCC y entropía de energía, que se pueden utilizar para detectar patrones de sonido asociados con estas escenas violentas. En este trabajo, las funciones MFCC se utilizan para describir el contenido de audio (consulte la Sección 3.1.1.1) como muchos trabajos anteriores sobre detección de violencia (Acar et al. [1], Jiang et al. [33], Lam et al. [36] ], etc.) han demostrado la efectividad de las funciones de MFCC en la detección de firmas de audio asociadas con escenas violentas. También se pueden utilizar otras funciones de audio, como la entropía de energía, el tono y el espectro de potencia, junto con las funciones MFCC para mejorar aún más el rendimiento del clasificador de funciones. Pero es importante tener en cuenta que el audio por sí solo no es suficiente para detectar violencia y solo juega un papel importante en la detección de algunas clases de violencia, como disparos y explosiones, que tienen firmas de audio únicas.

4.4.1.4. SentiBank

El clasificador de funciones SentiBank ha mostrado el mejor rendimiento de todos los clasificadores de funciones (consulte la Figura 4.4) y ha contribuido en gran medida al rendimiento general del sistema. Esto demuestra el poder de SentiBank a la hora de detectar sentimientos visuales complejos como la violencia. La Figura 4.7 muestra las puntuaciones promedio de las 50 ANP principales para marcos que contienen violencia y no violencia. Como se puede observar, la lista de ANP con puntuaciones promedio más altas en violencia y clase de no violencia es muy diferente y esta es la razón detrás del muy buen desempeño de SentiBank al separar la clase de violencia de la clase de no violencia. Tenga en cuenta que no todos los adjetivos de la lista ANP para la clase de violencia describen la violencia. Esto podría deberse a muchas razones diferentes, una de las cuales podría ser el hecho de que, de los 1200 ANP utilizados en SentiBank, solo unos pocos describen las emociones relacionadas con la violencia (como miedo, terror, rabia, ira, etc.). Consulte la Figura 4.8 que muestra la Rueda de Emociones de Plutchik y la distribución de ANP para cada categoría de emoción en VSO.


Figura 4.6: Figura que muestra el rendimiento del detector de sangre en marcos de muestra del conjunto de datos de Hollywood. Las imágenes de la primera columna (A y D) son las imágenes de entrada, las imágenes de la segunda columna (B y E) son los mapas de probabilidad de sangre y las imágenes de la última columna (C y F) son los mapas de probabilidad de sangre binarizados.

4.4.2. Pesos de fusión

Como se mencionó anteriormente (Sección 3.1.3), las puntuaciones de clasificación finales se calculan mediante la fusión tardía de las puntuaciones de los clasificadores individuales utilizando un enfoque de suma ponderada. Las ponderaciones utilizadas aquí se calculan mediante un enfoque de búsqueda en cuadrícula con el objetivo de minimizar la tasa de error igual (EER). Por tanto, los pesos juegan un papel importante a la hora de determinar el rendimiento de clasificación general del sistema. Tenga en cuenta que todos estos pesos se calculan en el conjunto de prueba. En la Tabla 4.2 se presentan las ponderaciones de los clasificadores para cada una de las ocho clases de violencia, obtenidas mediante la técnica de búsqueda en cuadrícula. A partir de las ponderaciones obtenidas, se pueden hacer las siguientes observaciones sobre la distribución del peso: (i) Para la mayoría de las clases de violencia, el peso más alto se asigna a SentiBank, ya que es la característica más discriminatoria. (ii) El audio ha recibido el mayor peso para clases de violencia como disparos, explosiones y peleas, donde el audio juega un papel muy importante. (iii) La sangre ha recibido ponderaciones altas para clases de violencia como gritos, disparos y armas de fuego. Esto es interesante ya que un segmento de vídeo que pertenece a cualquiera de estas clases de violencia también puede contener sangre. (iv) El movimiento ha recibido el menor peso en la mayoría de las clases de violencia, ya que es la característica de menor rendimiento. Pero también se puede observar que tiene un peso mayor para la clase Peleas donde se puede esperar mucho movimiento.


Si se analizan los pesos asignados a cada una de las clases de violencia, se pueden hacer las siguientes observaciones: (i) Para la clase Disparos, los pesos de distribución más altos se encuentran entre Audio (0,5) y Sangre (0,45). Esto es de esperar ya que las funciones de audio juegan un papel importante en la detección de disparos y también se espera que las escenas que contienen disparos tengan mucha sangre. (ii) Las características de audio (0.4) y visuales (Motion - 0.25 y SentiBank - 0.30) han recibido una cantidad casi igual de peso para la clase Fights. Esto es de esperarse, ya que tanto las funciones de audio como las visuales son importantes para detectar escenas que contienen peleas. (iii) Para la clase Explosiones, se asignan las ponderaciones más altas al Audio (0,9), lo que se esperaba, ya que las características de audio son cruciales para detectar explosiones. (iv) El fuego es una clase de violencia en la que se espera que las características visuales tengan ponderaciones altas y, como se esperaba, a la característica visual con mejor desempeño, SentiBank (0,85), se le asigna la ponderación más alta. (v) Clase de violencia Fría


Figura 4.7: Gráficos que muestran las puntuaciones promedio de los 50 principales ANP de SentiBank para marcos que contienen violencia y sin violencia.


Figura 4.8: Rueda de emociones de Plutchik y número de ANP por emoción en VSO.


Las armas contienen escenas que tienen la presencia de cualquier arma blanca (por ejemplo, cuchillos, espadas, flechas, alabardas, etc.). Para esta clase, se espera que las características visuales tengan pesos elevados. Y como era de esperar, SentiBank (0,95) tiene la ponderación más alta para esta clase. (vi) “Armas de fuego” es la clase de violencia en la que las escenas contienen armas de fuego y armas de fuego. Al igual que en la clase anterior, se espera que las características visuales tengan pesos elevados. Para esta clase, SentiBank (0,6) y Blood (0,3) han recibido la mayor distribución de ponderaciones. La razón por la que a Blood se le asigna un peso más alto podría deberse al hecho de que la mayoría de las escenas que contienen armas también contendrán derramamiento de sangre. (vii) Para la clase Sangre, se espera que la característica Sangre tenga el mayor peso. Pero la función Blood (0,05) recibió solo una pequeña ponderación y SentiBank (0,95) obtuvo la mayor ponderación. Este no es un resultado esperado y podría deberse al bajo rendimiento del clasificador de características de sangre en el conjunto de prueba. (viii) Es intuitivo esperar que el audio tenga pesos más altos para la clase "Gritos", ya que las funciones de audio desempeñan un papel importante en la detección de gritos. Pero las ponderaciones obtenidas aquí van en contra de esta intuición. El audio recibió menos peso, mientras que SentiBank recibió el mayor peso. En general, las ponderaciones obtenidas a partir de la búsqueda en la cuadrícula son más o menos las esperadas para la mayoría de las clases. Se podría obtener una mejor distribución del peso si se mejora el desempeño de los clasificadores individuales en la prueba.

4.4.3. Clasificación multiclase

En esta sección se discuten los resultados obtenidos en la tarea de clasificación multiclase. Consulte la Figura 4.2 para conocer los resultados obtenidos en esta tarea. De la figura, se pueden extraer las siguientes observaciones (i) El sistema muestra un buen rendimiento (EER de alrededor del 30 %) en la detección de disparos. (ii) Para las clases de violencia, Armas frías, Sangre y Explosiones, el sistema muestra un desempeño moderado (TCE de alrededor del 40%). (iii) Para las clases de violencia restantes (peleas, gritos, fuego, armas de fuego), el rendimiento es tan bueno como una probabilidad (EER de más del 45%). Estos resultados sugieren que existe un enorme margen de mejora, pero es importante recordar que la detección de la violencia no es una tarea trivial y distinguir entre diferentes clases de violencia es, aún más, difícil. Todos los enfoques propuestos hasta ahora se han concentrado únicamente en detectar la presencia o ausencia de violencia, pero no en detectar la categoría de violencia. El novedoso enfoque propuesto en este trabajo es uno de los primeros en esta dirección y no existen sistemas de referencia con los que comparar el rendimiento. Los resultados obtenidos de este trabajo servirán como base para futuros trabajos en esta área.


En este sistema, se sigue el enfoque de fusión tardía que ha mostrado buenos resultados en una tarea de detección de conceptos multimedia similar a la detección de contenido para adultos (Schulze et al. [52]). Por lo tanto, el mal desempeño del sistema no puede atribuirse al enfoque seguido. El desempeño del sistema depende del desempeño de los clasificadores individuales y del peso de fusión que se les asigna para cada una de las clases de violencia. A medida que los pesos de fusión se ajustan para minimizar el EER utilizando la técnica Grid-Search, el rendimiento general del sistema depende únicamente del rendimiento de los clasificadores individuales. Entonces, para mejorar el desempeño del sistema en esta tarea, es necesario mejorar el desempeño de los clasificadores individuales en la detección de violencia.

4.4.4. Clasificación binaria

Los resultados de la tarea de clasificación binaria se presentan en la Figura 4.3. Esta tarea es una extensión de la tarea de clasificación de clases múltiples. Como se explicó anteriormente, en esta tarea, un segmento de video se clasifica como “Violencia” si la probabilidad de salida para cualquiera de las clases de violencia es superior al umbral de 0,5. El rendimiento del sistema en esta tarea se evalúa en dos conjuntos de datos, Hollywood-Test y YouTube-Generalization. Se puede observar que el rendimiento del sistema en estos conjuntos de datos es un poco mejor que el azar. También se puede observar que el rendimiento es mejor en el conjunto de datos de prueba de Hollywood que en el conjunto de datos de generalización de YouTube. Esto es de esperar ya que todos los clasificadores están entrenados con datos del conjunto de datos de Hollywood-Development que tienen contenido de video similar al del conjunto de datos de Hollywood-Test. Los valores de precisión, recuperación y exactitud obtenidos por el sistema para esta tarea se presentan en la Tabla 4.3. Los resultados obtenidos por el equipo con mejor desempeño en esta tarea de MediaEval-2014 se muestran en la Tabla 4.4.


Estos resultados no se pueden comparar directamente, aunque se utilice el mismo conjunto de datos, ya que el proceso utilizado para la evaluación no es el mismo. En MediaEval-2014, se espera que un sistema genere el fotograma inicial y final de los segmentos de vídeo que contienen violencia y, si la superposición entre la verdad básica y los intervalos de fotogramas de salida es superior al 50%, se considera un éxito. Consulte Schedl et al. [51] para más información sobre el proceso seguido en MediaEval-2014. En el enfoque propuesto, el sistema clasifica cada segmento de 1 segundo del vídeo de entrada como de clase "Violencia" o "Sin violencia" y el rendimiento del sistema se calcula comparándolo con la verdad del terreno. Este criterio de evaluación utilizado aquí es mucho más estricto y granular en comparación con el utilizado en MediaEval-2014. Aquí, como la clasificación se realiza para cada segmento de 1 segundo, no hay necesidad de una estrategia para penalizar la detección de segmentos más cortos. La métrica MAP se utiliza para seleccionar el sistema con mejor rendimiento en MediaEval mientras que, en el sistema propuesto, el EER del sistema está optimizado.


Aunque los resultados obtenidos de este sistema no se pueden comparar directamente con los resultados de MediaEval, se puede observar que el rendimiento de este sistema es comparable, si no mejor, al sistema con mejor rendimiento de MediaEval-2014, a pesar de los estrictos criterios de evaluación. son usados. Estos resultados sugieren que el sistema desarrollado utilizando el novedoso enfoque propuesto es mejor que los sistemas de última generación existentes en esta área de detección de violencia.

4.5. Resumen

En este capítulo se presenta una discusión detallada sobre la evaluación del sistema desarrollado. En la Sección 4.1, se explican los detalles de los conjuntos de datos utilizados en este trabajo y en la siguiente sección, Sección 4.2, se analiza la configuración experimental. En la Sección 4.3 se presentan los experimentos y sus resultados, seguido de una discusión detallada sobre los resultados obtenidos en la Sección 4.4.



Este documento está disponible en arxiv bajo licencia CC 4.0.


[1] http://www.images.google.com


[2] http://www.youtube.com


[3] http://visilab.etsii.uclm.es/personas/oscar/FightDetection/index.html