paint-brush
Detección de violencia en vídeos: Introducciónpor@kinetograph

Detección de violencia en vídeos: Introducción

Demasiado Largo; Para Leer

En este artículo, los investigadores proponen un sistema para la detección automática de violencia en videos, utilizando señales de audio y visuales para la clasificación.
featured image - Detección de violencia en vídeos: Introducción
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


Autores:

(1) Praveen Tirupattur, Universidad de Florida Central.

Tabla de enlaces

1. Introducción

La cantidad de contenido multimedia subido a sitios web de redes sociales y la facilidad con la que los niños pueden acceder a ellos está planteando un problema para los padres que desean proteger a sus hijos de la exposición a contenido violento y para adultos en la web. El número de subidas de vídeos a sitios web como YouTube y Facebook va en aumento. Hay un aumento del 75% en el número de publicaciones de vídeo en Facebook (Blog-FB [3]) en el último año y cada día se suben más de 120.000 vídeos a YouTube (Wesch [56], Gill et al. [ 26]). Se estima que el 20% de los vídeos subidos a estos sitios web contienen contenido violento o para adultos (Sparks [54]). Esto facilita que los niños accedan o se expongan accidentalmente a estos contenidos inseguros. Los efectos de ver contenido violento en los niños están bien estudiados en psicología (Tompkins [55], Sparks [54], Bushman y Huesmann [6], y Huesmann y Taylor [32]) y los resultados de estos estudios sugieren que ver contenido violento El contenido tiene un efecto sustancial en las emociones de los niños. Los principales efectos son un aumento en la probabilidad de comportamiento agresivo o temeroso y una menor sensibilidad al dolor y sufrimiento de los demás. Huesmann y Eron [31] llevaron a cabo un estudio en el que participaron niños de la escuela primaria que veían muchas horas de violencia en la televisión. Al observar a estos niños hasta la edad adulta, descubrieron que los que veían mucha violencia en la televisión cuando tenían 8 años tenían más probabilidades de ser arrestados y procesados por actos criminales cuando fueran adultos. Estudios similares realizados por Flood [25] y Mitchell et al. [40] sugieren que la exposición a contenido para adultos también tiene efectos perjudiciales en los niños. Esto motivó la investigación en el campo de la detección automática de contenidos violentos y para adultos en vídeos.


La detección de contenido para adultos (Chan et al. [8], Schulze et al. [52], Pogrebnyak et al. [47]) está bien estudiada y se han logrado muchos avances. La detección de la violencia, por otra parte, ha sido menos estudiada y sólo ha cobrado interés en el pasado reciente. En el pasado se propusieron pocos enfoques para la detección de la violencia y cada uno de estos enfoques intentó detectar la violencia utilizando diferentes características visuales y auditivas. Por ejemplo, Nam et al. [41] combinaron múltiples características audiovisuales para identificar escenas violentas. En su trabajo se detectaron llamas y sangre mediante tablas de colores predefinidas y también se explotaron diversos efectos de audio representativos (disparos, explosiones, etc.). Datta et al. [14] propusieron un enfoque basado en vectores de movimiento acelerado para detectar violencia humana, como peleas con puños, patadas, etc. Cheng et al. [11] presentaron un enfoque jerárquico para localizar escenas de juegos de armas y carreras de autos mediante la detección de eventos de audio típicos (por ejemplo, disparos, explosiones y frenado de automóviles).


En el Capítulo 2 se analizan más enfoques propuestos para la detección de la violencia. Todos estos enfoques se centraron principalmente únicamente en la detección de la violencia en las películas de Hollywood, pero no en videos de sitios web para compartir videos y redes sociales como YouTube o Facebook. La detección de violencia en las películas de Hollywood es relativamente fácil ya que estas películas siguen algunas reglas cinematográficas. Por ejemplo, para exhibir escenas de acción emocionantes, la atmósfera de ritmo rápido se crea a través de movimientos visuales de alta velocidad y sonido de ritmo rápido. Pero los vídeos de los sitios web para compartir vídeos, como YouTube y Facebook, no siguen estas reglas de creación cinematográfica y, a menudo, tienen mala calidad de audio y vídeo. Estas características de los vídeos generados por usuarios hacen que sea muy difícil detectar violencia en ellos.


Antes de discutir el enfoque para detectar la violencia, es importante proporcionar una definición del término "Violencia". Todos los enfoques anteriores para la detección de la violencia no han seguido la misma definición de violencia y han utilizado diferentes características y diferentes conjuntos de datos. Esto hace que la comparación de diferentes enfoques sea muy difícil. Para superar este problema y fomentar la investigación en esta área, Demarty et al. introdujeron un conjunto de datos denominado Detección de escenas violentas (VSD). [15] en 2011 y la versión reciente de este conjunto de datos es el VSD2014. Según este último conjunto de datos, la “violencia” en un vídeo es “cualquier escena que no dejaría ver a un niño de 8 años porque contiene violencia física”Schedl et al. [51]. Se cree que esta definición está formulada en base a los resultados de las investigaciones en psicología mencionadas anteriormente. De esta definición se puede observar que la violencia no es una entidad física sino un concepto muy genérico, abstracto y también muy subjetivo. Por tanto, la detección de la violencia no es una tarea trivial.


El objetivo de este trabajo es construir un sistema que detecte automáticamente la violencia no sólo en las películas de Hollywood, sino también en vídeos de sitios web para compartir vídeos como YouTube y Facebook. En este trabajo se intenta detectar también la categoría de violencia en un vídeo, que no fue abordada en enfoques anteriores. Las categorías de violencia a las que se dirige este trabajo son presencia de sangre, presencia de armas frías, explosiones, peleas, gritos, presencia de fuego, armas de fuego y disparos. Estos representan el subconjunto de conceptos definidos y utilizados en VSD2014 para anotar segmentos de video. Las categorías “escenas sangrientas” y “persecución de autos” de VSD2014 no fueron seleccionadas porque no había muchos segmentos de video en VSD2014 anotados con estos conceptos. Otra categoría de este tipo es la “violencia subjetiva”. No se selecciona porque las escenas que pertenecen a esta categoría no tienen violencia visible y, por lo tanto, son muy difíciles de detectar. En este trabajo, se utilizan características tanto de audio como visuales para la detección de violencia, ya que la combinación de información de audio y visual proporciona resultados más confiables en la clasificación.


Las ventajas de desarrollar un sistema como este, que puede detectar automáticamente la violencia en contenidos multimedia, son muchas. Se puede utilizar para calificar películas según la cantidad de violencia. Los sitios de redes sociales pueden utilizar esto para detectar y bloquear la carga de videos violentos a sus plataformas. Además, se puede utilizar para caracterizar escenas y clasificar géneros, lo que ayuda a buscar y explorar películas. El reconocimiento de la violencia en secuencias de vídeo procedentes de sistemas de cámaras en tiempo real será muy útil para la videovigilancia en lugares como aeropuertos, hospitales, centros comerciales, lugares públicos, prisiones, pabellones psiquiátricos, patios de escuelas, etc. Sin embargo, la detección de la violencia en tiempo real es mucho más difícil y en este trabajo no se intenta abordarlo.


A continuación se presenta una descripción general del trabajo relacionado, una descripción detallada del enfoque propuesto y la evaluación. Los siguientes capítulos están organizados de la siguiente manera. En el Capítulo 2 se explican en detalle algunos de los trabajos previos en el área de detección de violencia. En el Capítulo 3, se presentan los detalles del enfoque utilizado para entrenar y probar clasificadores de características. También incluye los detalles de la extracción de características y el entrenamiento del clasificador. El Capítulo 4 describe los detalles de los conjuntos de datos utilizados, la configuración experimental y los resultados obtenidos de los experimentos. Finalmente, en el Capítulo 5 se proporcionan las conclusiones seguidas del posible trabajo futuro.


Este documento está disponible en arxiv bajo licencia CC 4.0.