paint-brush
Gewalterkennung in Videos: Verwandte Arbeitenvon@kinetograph

Gewalterkennung in Videos: Verwandte Arbeiten

Zu lang; Lesen

In diesem Artikel schlagen Forscher ein System zur automatischen Erkennung von Gewalt in Videos vor, das zur Klassifizierung Audio- und visuelle Hinweise nutzt.
featured image - Gewalterkennung in Videos: Verwandte Arbeiten
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


Autoren:

(1) Praveen Tirupattur, University of Central Florida.

Linktabelle

2. Verwandte Arbeiten

Die Gewalterkennung ist eine Unteraufgabe der Aktivitätserkennung, bei der gewalttätige Aktivitäten anhand eines Videos erkannt werden sollen. Sie kann auch als eine Art Multimedia-Ereigniserkennung betrachtet werden. Zur Lösung dieses Problems wurden bereits einige Ansätze vorgeschlagen. Diese vorgeschlagenen Ansätze können in drei Kategorien eingeteilt werden: (i) Ansätze, bei denen nur die visuellen Merkmale verwendet werden. (ii) Ansätze, bei denen nur die Audiomerkmale verwendet werden. (iii) Ansätze, bei denen sowohl Audio- als auch visuelle Merkmale verwendet werden. Die hier interessierende Kategorie ist die dritte, bei der sowohl Video als auch Audio verwendet werden. Dieses Kapitel bietet einen Überblick über einige der vorherigen Ansätze, die zu jeder dieser Kategorien gehören.

2.1. Audio und Video verwenden

Der erste Versuch, Gewalt sowohl anhand von Audio- als auch visuellen Hinweisen zu erkennen, wurde von Nam et al. [41] unternommen. In ihrer Arbeit werden sowohl die Audio- als auch die visuellen Merkmale genutzt, um Gewaltszenen zu erkennen und Indizes zu generieren, die eine inhaltsbasierte Suche in Videos ermöglichen. Dabei wird für jede Aufnahme die räumlich-zeitliche dynamische Aktivitätssignatur extrahiert, um sie als gewalttätig oder nicht gewalttätig zu kategorisieren. Dieses räumlich-zeitliche dynamische Aktivitätsmerkmal basiert auf der Menge an dynamischer Bewegung, die in der Aufnahme vorhanden ist.


Je mehr räumliche Bewegung zwischen den Einzelbildern in der Aufnahme vorhanden ist, desto signifikanter ist das Merkmal. Der Grund für diesen Ansatz ist, dass die meisten Actionszenen eine schnelle und signifikante Bewegung von Personen oder Objekten beinhalten. Um das räumlich-zeitliche Aktivitätsmerkmal für eine Aufnahme zu berechnen, werden Bewegungssequenzen aus der Aufnahme abgerufen und anhand der Länge der Aufnahme normalisiert, um sicherzustellen, dass nur die Aufnahmen mit kürzerer Länge und hoher räumlicher Bewegung zwischen den Einzelbildern einen höheren Wert des Aktivitätsmerkmals aufweisen.


Um Flammen von Schüssen oder Explosionen zu erkennen, wird außerdem eine plötzliche Veränderung der Intensitätswerte der Pixel zwischen den Bildern untersucht. Um falsche Ergebnisse, wie Intensitätsschwankungen aufgrund von Blitzlichtern der Kamera, auszuschließen, wird eine vordefinierte Farbtabelle mit Farbwerten verwendet, die den Flammenfarben ähnlich sind, wie Gelb, Orange und Rot. Um Blut zu erkennen, das in den meisten Gewaltszenen häufig vorkommt, werden die Pixelfarben innerhalb eines Bildes mit einer vordefinierten Farbtabelle abgeglichen, die blutähnliche Farben enthält. Diese visuellen Merkmale allein reichen nicht aus, um Gewalt effektiv zu erkennen. Daher werden auch Audiomerkmale berücksichtigt.


Die plötzliche Änderung des Energieniveaus des Audiosignals wird als Audiohinweis verwendet. Die Energieentropie wird für jedes Bild berechnet und die plötzliche Änderung dieses Wertes wird verwendet, um Gewaltereignisse wie Explosionen oder Schüsse zu identifizieren. Die Audio- und visuellen Hinweise werden zeitlich synchronisiert, um Aufnahmen mit Gewaltdarstellungen mit höherer Genauigkeit zu erhalten. Einer der Hauptbeiträge dieses Dokuments besteht darin, die Notwendigkeit sowohl von Audio- als auch von visuellen Hinweisen zur Erkennung von Gewalt hervorzuheben.


Gong et al. [27] verwendeten ebenfalls visuelle und akustische Hinweise, um Gewalt in Filmen zu erkennen. Es wird ein dreistufiger Ansatz zur Gewalterkennung beschrieben. In der ersten Stufe werden für jede Einstellung des Videos visuelle und akustische Merkmale auf niedriger Ebene extrahiert. Diese Merkmale werden verwendet, um einen Klassifikator zu trainieren, der Kandidatenaufnahmen mit potenziell gewalttätigem Inhalt erkennt. In der nächsten Stufe werden Audioeffekte auf hoher Ebene verwendet, um Kandidatenaufnahmen zu erkennen. In dieser Stufe werden zur Erkennung von Audioeffekten auf hoher Ebene SVM-Klassifikatoren für jede Kategorie des Audioeffekts trainiert, indem Audiomerkmale auf niedriger Ebene wie Leistungsspektrum, Tonhöhe, MFCC (Mel-Frequency Cepstral Coefficients) und Harmonicity Prominence verwendet werden (Cai et al. [7]). Die Ausgabe jedes SVMs kann als Wahrscheinlichkeitsabbildung auf eine Sigmoidfunktion interpretiert werden, die einen kontinuierlichen Wert zwischen [0,1] darstellt (Platt et al. [46]). Im letzten Schritt werden die Wahrscheinlichkeitsergebnisse der ersten beiden Schritte mittels Boosting kombiniert und der endgültige Gewaltwert für einen Schuss als gewichtete Summe der Werte aus den ersten beiden Schritten berechnet.


Diese Gewichte werden unter Verwendung eines Validierungsdatensatzes berechnet und sollen die durchschnittliche Präzision maximieren. Die Arbeit von Gong et al. [27] konzentriert sich nur auf die Erkennung von Gewalt in Filmen, in denen universelle Filmregeln befolgt werden. Zum Beispiel der schnelle Ton während Actionszenen. Gewalthaltige Inhalte werden durch die Erkennung von schnellen Szenen und Audioereignissen identifiziert, die mit Gewalt verbunden sind, wie Explosionen und Schüsse. Die verwendeten Trainings- und Testdaten stammen aus einer Sammlung von vier Hollywood-Actionfilmen, die viele Gewaltszenen enthalten. Obwohl dieser Ansatz gute Ergebnisse lieferte, sollte beachtet werden, dass er optimiert ist, um Gewalt nur in Filmen zu erkennen, die bestimmten Filmregeln folgen, und nicht mit Videos funktioniert, die von den Benutzern auf Websites wie Facebook, YouTube usw. hochgeladen werden.


In der Arbeit von Lin und Wang [38] wird eine Videosequenz in Aufnahmen unterteilt und für jede Aufnahme werden sowohl die Audio- als auch die Videomerkmale darin als gewalttätig oder nicht gewalttätig klassifiziert und die Ergebnisse werden mithilfe von Co-Training kombiniert. Ein modifizierter pLSA-Algorithmus (Hofmann [30]) wird verwendet, um Gewalt im Audiosegment zu erkennen. Das Audiosegment wird in Audioclips von jeweils einer Sekunde aufgeteilt und durch einen Merkmalsvektor dargestellt, der Low-Level-Merkmale wie Leistungsspektrum, MFCC, Tonhöhe, Zero Cross Rate (ZCR)-Verhältnis und Harmonizitätsprominenz enthält (Cai et al. [7]). Diese Vektoren werden gruppiert, um Clusterzentren zu erhalten, die ein Audiovokabular bezeichnen. Dann wird jedes Audiosegment unter Verwendung dieses Vokabulars als Audiodokument dargestellt. Der Expectation Maximization-Algorithmus (Dempster et al. [20]) wird verwendet, um ein Audiomodell anzupassen, das später zur Klassifizierung von Audiosegmenten verwendet wird. Um Gewalt in einem Videosegment zu erkennen, werden die drei häufigsten visuellen Gewaltereignisse verwendet: Bewegung, Flammen/Explosionen und Blut. Die Bewegungsintensität wird verwendet, um Bereiche mit schneller Bewegung zu erkennen und Bewegungsmerkmale für jedes Bild zu extrahieren, die dann verwendet werden, um ein Bild als gewalttätig oder nicht gewalttätig zu klassifizieren. Farbmodelle und Bewegungsmodelle werden verwendet, um Flammen und Explosionen in einem Bild zu erkennen und zu klassifizieren. Ebenso werden Farbmodell und Bewegungsintensität verwendet, um den Bereich mit Blut zu erkennen, und wenn dieser größer als ein vordefinierter Wert für ein Bild ist, wird es als gewalttätig klassifiziert. Der endgültige Gewaltwert für das Videosegment ergibt sich aus der gewichteten Summe der drei oben genannten Einzelwerte. Die hier verwendeten Merkmale sind dieselben wie die von Nam et al. [41]. Um die Klassifizierungswerte aus dem Video- und dem Audiostream zu kombinieren, wird Co-Training verwendet. Für Training und Tests wird ein Datensatz verwendet, der aus fünf Hollywood-Filmen besteht, und es wird eine Genauigkeit von etwa 0,85 und ein Rückruf von etwa 0,90 bei der Erkennung von Gewaltszenen erreicht. Auch diese Arbeit zielt nur auf die Gewalterkennung in Filmen ab, nicht aber in den im Internet verfügbaren Videos. Die Ergebnisse legen jedoch nahe, dass visuelle Merkmale wie Bewegung und Blut für die Gewalterkennung sehr wichtig sind.

2.2. Audio oder Video verwenden

Alle bisher genannten Ansätze verwenden sowohl Audio- als auch visuelle Hinweise, es gibt jedoch auch andere, die entweder Video oder Audio zur Erkennung von Gewalt verwenden, und wieder andere versuchen, nur eine bestimmte Art von Gewalt wie Faustkämpfe zu erkennen. Im Folgenden wird ein kurzer Überblick über diese Ansätze gegeben.


Eine der wenigen Arbeiten, die ausschließlich Audio verwendet haben, um semantischen Kontext in Videos zu erkennen, stammt von Cheng et al. [11], wo ein hierarchischer Ansatz auf Basis von Gaußschen Mischmodellen und Hidden-Markov-Modellen verwendet wird, um Schüsse, Explosionen und Bremsmanöver zu erkennen. Datta et al. [14] versuchten, Gewalt zwischen Personen in Videos zu erkennen, in denen es nur um Faustkämpfe, Treten, Schlagen mit Gegenständen usw. geht, indem sie die Gewalt auf Objektebene und nicht auf Szenenebene analysierten, wie dies bei den meisten Ansätzen der Fall ist. Hierbei werden die bewegten Objekte in einer Szene erkannt, und ein Personenmodell wird verwendet, um nur die Objekte zu erkennen, die Personen darstellen. Daraus werden Bewegungsbahn und Orientierung der Gliedmaßen einer Person abgeleitet, um Kämpfe zwischen Personen zu erkennen.


Clarin et al. [12] entwickelten ein automatisiertes System namens DOVE zur Erkennung von Gewalt in Filmen. Dabei wird ausschließlich Blut zur Erkennung von Gewaltszenen verwendet. Das System extrahiert Schlüsselbilder aus jeder Szene und übergibt sie an eine trainierte selbstorganisierende Karte, um die Pixel mit den Bezeichnungen Haut, Blut oder Nicht-Haut/Nicht-Blut zu kennzeichnen. Die gekennzeichneten Pixel werden dann durch verbundene Komponenten gruppiert und auf mögliche Gewalt beobachtet. Eine Szene gilt als gewalttätig, wenn sich die Pixelbereiche mit Haut- und Blutkomponenten stark ändern. Eine weitere Arbeit zur Kampferkennung stammt von Nievas et al. [42], in der das Bag-of-Words-Framework zusammen mit den Aktionsdeskriptoren Space-Time Interest Points (STIP - Laptev [37]) und Motion Scale-invariant Feature Transform (MoSIFT - Chen und Hauptmann [10]) verwendet wird. Die Autoren führten einen neuen Videodatensatz ein, der aus 1.000 Videos besteht, die in zwei Gruppen unterteilt sind: Kämpfe und Nicht-Kämpfe. Jede Gruppe umfasst 500 Videos und jedes Video hat eine Dauer von einer Sekunde. Experimente mit diesem Datensatz haben eine Genauigkeit von 90 % bei einem Datensatz mit Kämpfen aus Actionfilmen ergeben.


Deniz et al. [21] schlugen eine neuartige Methode zur Erkennung von Gewalt in Videos vor, die extreme Beschleunigungsmuster als Hauptmerkmal verwendet. Diese Methode ist 15-mal schneller als die modernsten Aktionserkennungssysteme und weist auch eine sehr hohe Genauigkeit bei der Erkennung von Szenen mit Kämpfen auf. Dieser Ansatz ist sehr nützlich in Echtzeit-Gewalterkennungssystemen, bei denen es nicht nur auf Genauigkeit, sondern auch auf Geschwindigkeit ankommt. Dieser Ansatz vergleicht das Leistungsspektrum zweier aufeinanderfolgender Bilder, um plötzliche Bewegungen zu erkennen, und je nach Bewegungsstärke wird eine Szene als gewalttätig oder gewaltfrei klassifiziert. Diese Methode verwendet kein Feature-Tracking zur Erkennung von Bewegungen, wodurch sie unempfindlich gegen Unschärfe ist. Hassner et al. [28] führten einen Ansatz zur Echtzeiterkennung von Gewalt in überfüllten Szenen ein. Diese Methode berücksichtigt die Änderung der Flussvektorgrößen im Laufe der Zeit. Diese Änderungen für kurze Bildsequenzen werden als Violent Flows (ViF)-Deskriptoren bezeichnet. Diese Deskriptoren werden dann verwendet, um gewalttätige und gewaltfreie Szenen mithilfe einer linearen Support Vector Machine (SVM) zu klassifizieren. Da diese Methode nur Flussinformationen zwischen den Bildern verwendet und auf eine hochrangige Form- und Bewegungsanalyse verzichtet, kann sie in Echtzeit ausgeführt werden. Für diese Arbeit erstellten die Autoren ihren eigenen Datensatz, indem sie Videos mit gewalttätigem Menschenmengenverhalten von YouTube herunterluden.


Alle diese Arbeiten verwenden unterschiedliche Ansätze, um Gewalt in Videos zu erkennen, und alle verwenden ihre eigenen Datensätze für Training und Tests. Sie alle haben ihre eigene Definition von Gewalt. Dies zeigt ein großes Problem bei der Gewalterkennung, nämlich das Fehlen unabhängiger Basisdatensätze und einer gemeinsamen Definition von Gewalt, ohne die der Vergleich zwischen verschiedenen Ansätzen sinnlos ist.


Um dieses Problem zu lösen, haben Demarty et al. [16] im Rahmen der Multimedia-Benchmarking-Initiative MediaEval-2011 [1] einen Benchmark zur automatischen Erkennung von Gewaltszenen in Filmen vorgestellt. Dieser Benchmark ist sehr nützlich, da er einen konsistenten und umfangreichen Datensatz mit einer gemeinsamen Definition von Gewalt sowie Bewertungsprotokollen und -metriken bietet. Die Details des bereitgestellten Datensatzes werden in Abschnitt 4.1 ausführlich erläutert. Neuere Arbeiten zur Gewalterkennung in Videos haben diesen Datensatz verwendet, und Einzelheiten zu einigen von ihnen werden im Folgenden bereitgestellt.

2.3. MediaEval VSD verwenden

Acar et al. [1] schlugen einen Ansatz vor, der visuelle und Audio-Features in einer überwachten Weise zusammenführt, indem ein- und zweiklassige SVMs zur Gewalterkennung in Filmen verwendet werden. Visuelle und Audio-Features auf niedriger Ebene werden aus Videoaufnahmen der Filme extrahiert und dann in einer frühen Fusionsmethode kombiniert, um SVMs zu trainieren. MFCC-Features werden extrahiert, um den Audio-Inhalt zu beschreiben, und der auf SIFT (Scale-Invariant Feature Transform - Lowe [39]) basierende Bag-of-Words-Ansatz wird für visuelle Inhalte verwendet.


Jiang et al. [33] schlugen eine Methode zur Erkennung von Gewalt vor, die auf einer Reihe von Merkmalen basiert, die aus dem Aussehen und der Bewegung lokaler Patch-Trajektorien abgeleitet wurden (Jiang et al. [34]). Zusammen mit diesen Patch-Trajektorien werden andere Merkmale wie SIFT-, STIP- und MFCC-Merkmale extrahiert und verwendet, um einen SVM-Klassifikator zu trainieren, der verschiedene Kategorien von Gewalt erkennen kann. Zur Erhöhung der Genauigkeit werden Score- und Merkmalsglättung durchgeführt.


Lam et al. [36] bewerteten die Leistung von Audio-/Videomerkmalen auf niedriger Ebene für die Aufgabe der Erkennung von Gewaltszenen unter Verwendung der von MediaEval bereitgestellten Datensätze und Bewertungsprotokolle. In dieser Arbeit werden sowohl die lokalen als auch die globalen visuellen Merkmale zusammen mit Bewegungs- und MFCC-Audiomerkmalen verwendet. Alle diese Merkmale werden für jedes Keyframe in einer Aufnahme extrahiert und zu einem einzigen Merkmalsvektor für diese Aufnahme zusammengefasst. Ein SVM-Klassifikator wird trainiert, um die Aufnahmen basierend auf diesem Merkmalsvektor als gewalttätig oder gewaltfrei zu klassifizieren. Eyben et al. [23] verwendeten eine groß angelegte segmentale Merkmalsextraktion zusammen mit einer audiovisuellen Klassifizierung zur Erkennung von Gewalt. Die Audiomerkmalsextraktion wird mit dem Open-Source-Toolkit zur Merkmalsextraktion openSmile (Eyben und Schuller [22]) durchgeführt. Visuelle Merkmale auf niedriger Ebene wie das Farbton-Sättigung-Wert-Histogramm (HSV), die optische Flussanalyse und die Laplace-Kantenerkennung werden berechnet und zur Gewalterkennung verwendet. Zur Klassifizierung werden lineare SVM-Klassifikatoren verwendet und zur Fusion wird eine einfache Punktemittelung verwendet.

2.4. Zusammenfassung

Zusammenfassend lässt sich sagen, dass fast alle oben beschriebenen Methoden versuchen, Gewalt in Filmen mithilfe verschiedener Audio- und Videofunktionen zu erkennen, wobei nur ein paar davon erwartet werden [Nievas et al. [42], Hassner et al. [28]], die Videodaten von Überwachungskameras oder anderen Echtzeit-Videosystemen verwenden. Es ist auch zu beobachten, dass nicht alle diese Werke denselben Datensatz verwenden und jede ihre eigene Definition von Gewalt hat. Die Einführung des MediaEval-Datensatzes zur Erkennung von Gewaltszenen (VSD) im Jahr 2011 hat dieses Problem gelöst. Die aktuelle Version des Datensatzes, VSD2014, enthält neben den Hollywood-Filmen auch Videoinhalte von YouTube und ermutigt Forscher, ihren Ansatz an benutzergenerierten Videoinhalten zu testen.

2.5. Beiträge

Der in Kapitel 3 vorgestellte Ansatz basiert auf früheren Arbeiten zur Gewalterkennung, die in Kapitel 2 erörtert wurden. Im vorgeschlagenen Ansatz werden sowohl Audio- als auch visuelle Hinweise zur Gewalterkennung verwendet. MFCC-Funktionen werden zur Beschreibung von Audioinhalten und Blut-, Bewegungs- und SentiBank-Funktionen zur Beschreibung von Videoinhalten verwendet. SVM-Klassifikatoren werden zur Klassifizierung jedes dieser Merkmale verwendet und eine späte Fusion wird angewendet, um die Klassifikatorwerte zu fusionieren.


Obwohl dieser Ansatz auf früheren Arbeiten zur Gewalterkennung basiert, sind seine wichtigsten Beiträge: (i) Erkennung verschiedener Gewaltklassen. Frühere Arbeiten zur Gewalterkennung konzentrierten sich nur auf die Erkennung des Vorhandenseins von Gewalt in einem Video. Dieser vorgeschlagene Ansatz ist einer der ersten, der sich mit diesem Problem befasst. (ii) Verwendung der SentiBank-Funktion zur Beschreibung des visuellen Inhalts eines Videos. SentiBank ist eine visuelle Funktion, die zur Beschreibung der Stimmungen in einem Bild verwendet wird. Diese Funktion wurde früher zur Erkennung von Erwachseneninhalten in Videos verwendet (Schulze et al. [52]). In dieser Arbeit wird sie zum ersten Mal zur Erkennung von gewalttätigen Inhalten verwendet. (iii) Verwendung eines dreidimensionalen Farbmodells, das mithilfe von Bildern aus dem Internet generiert wurde, zur Erkennung von Pixeln, die Blut darstellen. Dieses Farbmodell ist sehr robust und hat bei der Erkennung von Blut sehr gute Ergebnisse gezeigt. (iv) Verwendung von in einem Videocodec eingebetteten Informationen zur Generierung von Bewegungsmerkmalen. Dieser Ansatz ist im Vergleich zu den anderen sehr schnell, da die Bewegungsvektoren für jedes Pixel vorab berechnet und im Videocodec gespeichert werden. Eine detaillierte Erklärung dieses vorgeschlagenen Ansatzes finden Sie im nächsten Kapitel, Kapitel 3.




[1] http://www.multimediaeval.org