Autoren:
(1) Praveen Tirupattur, University of Central Florida.
Die Menge an Multimedia-Inhalten, die auf Social-Networking-Websites hochgeladen werden, und die Leichtigkeit, mit der Kinder darauf zugreifen können, stellen ein Problem für Eltern dar, die ihre Kinder vor Gewalt und Erwachseneninhalten im Internet schützen möchten. Die Anzahl der Video-Uploads auf Websites wie YouTube und Facebook steigt. Die Anzahl der Video-Posts auf Facebook (Blog-FB [3]) hat im letzten Jahr um 75 % zugenommen, und täglich werden mehr als 120.000 Videos auf YouTube hochgeladen (Wesch [56], Gill et al. [26]). Schätzungsweise 20 % der auf diese Websites hochgeladenen Videos enthalten Gewalt oder Erwachseneninhalte (Sparks [54]). Dies macht es Kindern leicht, auf diese unsicheren Inhalte zuzugreifen oder versehentlich mit ihnen in Kontakt zu kommen. Die Auswirkungen des Ansehens von Gewaltinhalten auf Kinder sind in der Psychologie gut untersucht (Tompkins [55], Sparks [54], Bushman und Huesmann [6] und Huesmann und Taylor [32]) und die Ergebnisse dieser Studien legen nahe, dass das Ansehen von Gewaltinhalten erhebliche Auswirkungen auf die Emotionen der Kinder hat. Die wichtigsten Auswirkungen sind eine erhöhte Wahrscheinlichkeit aggressiven oder ängstlichen Verhaltens und eine geringere Sensibilität gegenüber dem Schmerz und Leid anderer. Huesmann und Eron [31] führten eine Studie mit Kindern von der Grundschule durch, die viele Stunden Gewalt im Fernsehen sahen. Indem sie diese Kinder bis ins Erwachsenenalter beobachteten, fanden sie heraus, dass diejenigen, die im Alter von 8 Jahren viel Gewalt im Fernsehen sahen, als Erwachsene eher verhaftet und wegen krimineller Handlungen angeklagt wurden. Ähnliche Studien von Flood [25] und Mitchell et al. [40] legen nahe, dass die Konfrontation mit Inhalten für Erwachsene auch nachteilige Auswirkungen auf Kinder hat. Dies motivierte Forschungen auf dem Gebiet der automatischen Erkennung von Gewalt- und Erwachseneninhalten in Videos.
Die Erkennung von Inhalten für Erwachsene (Chan et al. [8], Schulze et al. [52], Pogrebnyak et al. [47]) ist gut erforscht und es wurden große Fortschritte erzielt. Die Erkennung von Gewalt hingegen wurde weniger erforscht und hat erst in der jüngsten Vergangenheit an Interesse gewonnen. In der Vergangenheit wurden nur wenige Ansätze zur Gewalterkennung vorgeschlagen und jeder dieser Ansätze versuchte, Gewalt anhand unterschiedlicher visueller und akustischer Merkmale zu erkennen. So kombinierten beispielsweise Nam et al. [41] mehrere audiovisuelle Merkmale, um Gewaltszenen zu identifizieren. In ihrer Arbeit wurden Flammen und Blut anhand vordefinierter Farbtabellen erkannt und verschiedene repräsentative Audioeffekte (Schüsse, Explosionen usw.) ausgenutzt. Datta et al. [14] schlugen einen beschleunigten, auf Bewegungsvektoren basierenden Ansatz zur Erkennung menschlicher Gewalt wie Faustkämpfen, Treten usw. vor. Cheng et al. [11] präsentierten einen hierarchischen Ansatz zur Lokalisierung von Schießereien und Autorennenszenen durch Erkennung typischer Audioereignisse (z. B. Schüsse, Explosionen und Autobremsen).
Weitere Ansätze zur Gewalterkennung werden in Kapitel 2 erörtert. Alle diese Ansätze konzentrierten sich hauptsächlich auf die Erkennung von Gewalt in Hollywoodfilmen, nicht aber in Videos von Video-Sharing- und Social-Media-Websites wie YouTube oder Facebook. Die Erkennung von Gewalt in Hollywoodfilmen ist relativ einfach, da diese Filme bestimmten Filmregeln folgen. Um beispielsweise spannende Actionszenen zu zeigen, wird die Atmosphäre eines rasanten Tempos durch schnelle visuelle Bewegungen und schnellen Ton erzeugt. Aber die Videos von Video-Sharing-Websites wie YouTube und Facebook folgen diesen Filmregeln nicht und weisen häufig eine schlechte Audio- und Videoqualität auf. Diese Eigenschaften benutzergenerierter Videos machen es sehr schwer, Gewalt in ihnen zu erkennen.
Bevor der Ansatz zur Gewalterkennung erörtert wird, ist es wichtig, eine Definition des Begriffs „Gewalt“ zu geben. Alle bisherigen Ansätze zur Gewalterkennung folgten nicht derselben Definition von Gewalt und verwendeten unterschiedliche Merkmale und unterschiedliche Datensätze. Dies macht den Vergleich verschiedener Ansätze sehr schwierig. Um dieses Problem zu lösen und die Forschung in diesem Bereich zu fördern, wurde 2011 von Demarty et al. [15] ein Datensatz mit dem Namen Violent Scene Detection (VSD) eingeführt, dessen aktuelle Version VSD2014 ist. Laut diesem neuesten Datensatz ist „Gewalt“ in einem Video „jede Szene, die man einem 8-jährigen Kind nicht ansehen lassen würde, weil sie körperliche Gewalt enthält“Schedl et al. [51]. Diese Definition basiert vermutlich auf den oben genannten Forschungsergebnissen aus der Psychologie. Aus dieser Definition lässt sich ableiten, dass Gewalt keine physische Entität ist, sondern ein Konzept, das sehr allgemein, abstrakt und auch sehr subjektiv ist. Daher ist die Gewalterkennung keine triviale Aufgabe.
Ziel dieser Arbeit ist es, ein System zu entwickeln, das Gewalt nicht nur in Hollywoodfilmen, sondern auch in Videos von Video-Sharing-Websites wie YouTube und Facebook automatisch erkennt. In dieser Arbeit wird versucht, auch die Kategorie der Gewalt in einem Video zu erkennen, was in früheren Ansätzen nicht berücksichtigt wurde. Die Gewaltkategorien, auf die sich diese Arbeit konzentriert, sind das Vorhandensein von Blut, das Vorhandensein kalter Waffen, Explosionen, Kämpfe, Schreie, das Vorhandensein von Feuer, Schusswaffen und Schüssen. Diese stellen die Teilmenge der Konzepte dar, die in VSD2014 definiert und zur Annotation von Videosegmenten verwendet werden. Die Kategorien „blutige Szenen“ und „Verfolgungsjagd“ aus VSD2014 wurden nicht ausgewählt, da es in VSD2014 nicht viele Videosegmente gab, die mit diesen Konzepten annotiert waren. Eine weitere solche Kategorie ist „Subjektive Gewalt“. Sie wurde nicht ausgewählt, da die zu dieser Kategorie gehörenden Szenen keine sichtbare Gewalt aufweisen und daher sehr schwer zu erkennen sind. In dieser Arbeit werden sowohl Audio- als auch visuelle Merkmale zur Gewalterkennung verwendet, da die Kombination von Audio- und visuellen Informationen zuverlässigere Ergebnisse bei der Klassifizierung liefert.
Die Entwicklung eines solchen Systems, das Gewalt in Multimediainhalten automatisch erkennen kann, bietet viele Vorteile. Es kann dazu verwendet werden, Filme je nach Gewaltgrad zu bewerten. Dies kann von sozialen Netzwerken genutzt werden, um das Hochladen von Gewaltvideos auf ihre Plattformen zu erkennen und zu blockieren. Es kann auch zur Szenencharakterisierung und Genreklassifizierung verwendet werden, was bei der Suche und beim Durchsuchen von Filmen hilft. Die Erkennung von Gewalt in Videostreams von Echtzeit-Kamerasystemen wird für die Videoüberwachung an Orten wie Flughäfen, Krankenhäusern, Einkaufszentren, öffentlichen Plätzen, Gefängnissen, psychiatrischen Stationen, Schulhöfen usw. sehr hilfreich sein. Die Echtzeiterkennung von Gewalt ist jedoch viel schwieriger und in dieser Arbeit wird kein Versuch unternommen, sich damit zu befassen.
Als Nächstes werden ein Überblick über verwandte Arbeiten, eine detaillierte Beschreibung des vorgeschlagenen Ansatzes und die Bewertung präsentiert. Die folgenden Kapitel sind wie folgt organisiert. In Kapitel 2 werden einige der früheren Arbeiten im Bereich der Gewalterkennung ausführlich erläutert. In Kapitel 3 werden die Details des Ansatzes vorgestellt, der zum Trainieren und Testen von Merkmalsklassifizierern verwendet wurde. Es enthält auch die Details der Merkmalsextraktion und des Klassifizierertrainings. Kapitel 4 beschreibt die Details der verwendeten Datensätze, des Versuchsaufbaus und der aus den Experimenten erzielten Ergebnisse. Schließlich werden in Kapitel 5 Schlussfolgerungen gegeben, gefolgt von möglichen zukünftigen Arbeiten.
Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar .