Autoren:
(1) Praveen Tirupattur, University of Central Florida.
In diesem Kapitel werden Einzelheiten der Experimente vorgestellt, die zur Bewertung der Leistung des Systems bei der Erkennung von gewalttätigen Inhalten in Videos durchgeführt wurden. Der erste Abschnitt befasst sich mit den für diese Arbeit verwendeten Datensätzen, der nächste Abschnitt beschreibt den Versuchsaufbau und schließlich werden im letzten Abschnitt die Ergebnisse der durchgeführten Experimente vorgestellt.
In dieser Arbeit wurden Daten aus mehreren Quellen verwendet, um Audio- und visuelle Merkmale zu extrahieren, die Klassifikatoren zu trainieren und die Leistung des Systems zu testen. Die beiden hier verwendeten Hauptdatensätze sind der Violent Scene Dataset (VSD) und der Hockey Fights Dataset. Neben diesen beiden Datensätzen werden auch Bilder von Websites wie Google Images[1] verwendet. Jeder dieser Datensätze und ihre Verwendung in dieser Arbeit werden in den folgenden Abschnitten ausführlich beschrieben.
Violent Scene Dataset (VSD) ist ein annotierter Datensatz zur Erkennung von Gewaltszenen in Hollywoodfilmen und -videos aus dem Internet. Es handelt sich um einen öffentlich verfügbaren Datensatz, der speziell für die Entwicklung inhaltsbasierter Erkennungstechniken zur Erkennung von körperlicher Gewalt in Filmen und Videos von Websites wie YouTube[2] entwickelt wurde. Der VSD-Datensatz wurde ursprünglich von Demarty et al. [15] im Rahmen der MediaEval-Benchmark-Initiative eingeführt, die als Validierungsrahmen für den Datensatz dient und eine hochmoderne Basis für die Gewalterkennungsaufgabe schafft. Die neueste Version des Datensatzes VSD2014 ist in mehrerer Hinsicht eine erhebliche Erweiterung der vorherigen Versionen (Demarty et al. [19], Demarty et al. [18] und Demarty et al. [17]). Erstens wird zur Annotation der Filme und benutzergenerierten Videos eine Gewaltdefinition verwendet, die dem angestrebten realen Szenario näher kommt, indem der Schwerpunkt auf körperlicher Gewalt liegt, die man einem 8-jährigen Kind nicht einmal ansehen lassen würde. Zweitens enthält der Datensatz eine umfangreiche Auswahl von 31 Hollywoodfilmen. Drittens enthält VSD2014 86 Web-Videoclips und deren Metadaten, die von YouTube abgerufen wurden, um die Generalisierungsfähigkeiten des zur Gewalterkennung entwickelten Systems zu testen. Viertens enthält es hochmoderne audiovisuelle Inhaltsdeskriptoren. Der Datensatz enthält Anmerkungen zu Gewaltszenen und gewaltbezogenen Konzepten für eine Sammlung (i) von Hollywood-Filmen und (ii) von Benutzern erstellten und im Internet geteilten Videos. Zusätzlich zu den Anmerkungen werden vorab berechnete Audio- und visuelle Merkmale sowie verschiedene Metadaten bereitgestellt.
Der VSD2014-Datensatz ist in drei verschiedene Untergruppen unterteilt: Hollywood: Entwicklung, Hollywood: Test und YouTube: Verallgemeinerung. Eine Übersicht über die drei Untergruppen und grundlegende Statistiken, einschließlich Dauer, Anteil der Gewaltszenen (als Prozentsatz pro Frame) und durchschnittliche Länge einer Gewaltszene, finden Sie in Tabelle 4.1. Der Inhalt des VSD2014-Datensatzes ist in drei Kategorien unterteilt: Filme/Videos, Features und Anmerkungen.
Die im Datensatz enthaltenen Hollywoodfilme werden so ausgewählt, dass sie aus verschiedenen Genres stammen und eine Vielfalt an Gewaltarten aufweisen. Für diesen Datensatz werden Filme ausgewählt, die von extrem gewalttätig bis praktisch gewaltfrei reichen. Die ausgewählten Filme enthalten auch eine große Bandbreite an Gewaltarten. Kriegsfilme wie „Der Soldat James Ryan“ enthalten beispielsweise bestimmte Schießereien und Kampfszenen mit vielen Beteiligten und einem lauten und dichten Audiostream mit zahlreichen Spezialeffekten. Actionfilme wie „Die Bourne Identität“ enthalten Szenen von Kämpfen mit nur wenigen Beteiligten, möglicherweise Mann gegen Mann. Katastrophenfilme wie „Armageddon“ zeigen die Zerstörung ganzer Städte und enthalten gewaltige Explosionen. Darüber hinaus werden dem Datensatz auch einige völlig gewaltfreie Filme hinzugefügt, um das Verhalten von Algorithmen bei solchen Inhalten zu untersuchen. Da die eigentlichen Filme aus Urheberrechtsgründen nicht im Datensatz bereitgestellt werden können, werden Anmerkungen für 31 Filme bereitgestellt, 24 im „Hollywood: Entwicklung“- und 7 im „Hollywood: Test“-Set. Das „YouTube: Generalisierung“-Set enthält Videoclips, die auf YouTube unter einer Creative Commons-Lizenz geteilt werden. Insgesamt sind 86 Clips im MP4-Format im Datensatz enthalten. Zusammen mit den Video-Metadaten wie Videokennung, Veröffentlichungsdatum, Kategorie, Titel, Autor, Seitenverhältnis, Dauer usw. werden diese als XML-Dateien bereitgestellt.
In diesem Datensatz wird ein gemeinsamer Satz von Audio- und visuellen Deskriptoren bereitgestellt. Audiofunktionen wie Amplitudenhüllkurve (AE), quadratischer Mittelwert der Energie (RMS), Nulldurchgangsrate (ZCR), Bandenergieverhältnis (BER), spektraler Schwerpunkt (SC), Frequenzbandbreite (BW), spektraler Fluss (SF) und Mel-Frequenz-Cepstrumkoeffizienten (MFCC) werden pro Videobild bereitgestellt. Da Audio eine Abtastrate von 44.100 Hz hat und die Videos mit 25 fps codiert sind, wird zur Berechnung dieser Funktionen ein Fenster mit einer Länge von 1.764 Audioproben berücksichtigt und für jedes Fenster werden 22 MFCCs berechnet, während alle anderen Funktionen eindimensional sind. Zu den im Datensatz bereitgestellten Videofunktionen gehören Farbbenennungshistogramme (CNH), Farbmomente (CM), lokale Binärmuster (LBP) und Histogramme orientierter Gradienten (HOG). Audio- und visuelle Funktionen werden in MAT-Dateien der Matlab-Version 7.3 bereitgestellt, die dem HDF5-Format entsprechen.
Der VSD2014-Datensatz enthält binäre Annotationen aller Gewaltszenen, wobei eine Szene durch ihre Start- und Endbilder identifiziert wird. Diese Annotationen für Hollywoodfilme und YouTube-Videos werden von mehreren menschlichen Gutachtern erstellt und anschließend überprüft und zusammengeführt, um ein gewisses Maß an Konsistenz zu gewährleisten. Jedes annotierte Gewaltsegment enthält, soweit möglich, nur eine Handlung. In Fällen, in denen sich verschiedene Handlungen überschneiden, werden die Segmente zusammengeführt. Dies wird in den Annotationsdateien durch das Hinzufügen des Tags „Szene mit mehreren Handlungen“ angezeigt. Neben binären Annotationen von Segmenten mit körperlicher Gewalt enthalten die Annotationen auch übergeordnete Konzepte für 17 Filme im Hollywood: Development-Set. Insbesondere werden 7 visuelle Konzepte und 3 Audiokonzepte annotiert, wobei ein ähnliches Annotationsprotokoll wie für gewalttätige/gewaltfreie Annotationen verwendet wird. Die Konzepte sind das Vorhandensein von Blut, Kämpfen, das Vorhandensein von Feuer, das Vorhandensein von Waffen, das Vorhandensein von kalten Waffen, Verfolgungsjagden und blutigen Szenen für die visuelle Modalität; das Vorhandensein von Schüssen, Explosionen und Schreien für die Audiomodalität.
Eine detailliertere Beschreibung dieses Datensatzes wird von Schedl et al. [51] bereitgestellt und für Details zu den einzelnen Gewaltklassen verweisen wir auf Demarty et al. [19].
Dieser Datensatz wurde von Nievas et al. [42] eingeführt und speziell für die Bewertung von Kampferkennungssystemen erstellt. Dieser Datensatz besteht aus zwei Teilen, der erste Teil („Hockey“) besteht aus 1.000 Clips mit einer Auflösung von 720 × 576 Pixeln, aufgeteilt in zwei Gruppen, 500 Kämpfe und 500 Nicht-Kämpfe, extrahiert aus Hockeyspielen der National Hockey League (NHL). Jeder Clip ist auf 50 Bilder begrenzt und die Auflösung ist auf 320 × 240 verringert. Der zweite Teil („Filme“) besteht aus 200 Videoclips, 100 Kämpfen und 100 Nicht-Kämpfen, wobei die Kämpfe aus Actionfilmen und die Nicht-Kampfvideos aus öffentlichen Actionerkennungsdatensätzen extrahiert wurden. Anders als der Hockey-Datensatz, der in Format und Inhalt relativ einheitlich war, zeigen diese Videos eine größere Vielfalt an Szenen und wurden mit unterschiedlichen Auflösungen aufgenommen. In Abbildung 4.1 sind einige Frames zu sehen, die Kämpfe aus den Videos in den beiden Datensätzen zeigen. Dieser Datensatz steht online zum Download zur Verfügung[3].
Bilder von Google werden zur Entwicklung der Farbmodelle (Abschnitt 3.1.1.2) für die Klassen Blut und Nicht-Blut verwendet, die zum Extrahieren des Blutmerkmalsdeskriptors für jedes Bild in einem Video verwendet werden. Die Bilder, die Blut enthalten, werden von Google Bilder 1 mit Suchbegriffen wie „blutige Bilder“, „blutige Szenen“, „Bluten“, „echte Blutspritzer“ usw. heruntergeladen. Ebenso werden Bilder, die kein Blut enthalten, mit Suchbegriffen wie „Natur“, „Frühling“, „Haut“, „Autos“ usw. heruntergeladen.
Das Dienstprogramm zum Herunterladen von Bildern von Google bei Angabe eines Suchbegriffs wurde in Python unter Verwendung der Bibliothek Beautiful Soup (Richardson [48]) entwickelt. Für jede Abfrage enthielt die Antwort etwa 100 Bilder, von denen nur die ersten 50 zum Herunterladen ausgewählt und in einem lokalen Dateiverzeichnis gespeichert wurden. Insgesamt wurden etwa 1.000 Bilder heruntergeladen, die sowohl Blut- als auch Nicht-Blut-Klassen kombinierten. Die durchschnittlichen Abmessungen der heruntergeladenen Bilder betragen 260 × 193 Pixel bei einer Dateigröße von etwa 10 Kilobyte. In Abbildung 3.3 finden Sie einige der in dieser Arbeit verwendeten Beispielbilder.
In diesem Abschnitt werden Einzelheiten zum Versuchsaufbau und den Ansätzen zur Bewertung der Leistung des Systems vorgestellt. Im folgenden Absatz wird die Partitionierung des Datensatzes erläutert und in den späteren Absätzen werden die Bewertungstechniken erläutert.
Wie bereits im Abschnitt 4.1 erwähnt, werden in diesem System Daten aus mehreren Quellen verwendet. Die wichtigste Quelle ist der Datensatz VSD2014. Dies ist der einzige öffentlich verfügbare Datensatz, der annotierte Videodaten mit verschiedenen Gewaltkategorien bereitstellt, und das ist der Hauptgrund dafür, diesen Datensatz bei der Entwicklung dieses Systems zu verwenden. Wie bereits im Abschnitt 4.1.1 erläutert, enthält dieser Datensatz drei Teilmengen: Hollywood: Entwicklung, Hollywood: Test und YouTube: Verallgemeinerung. In dieser Arbeit werden alle drei Teilmengen verwendet. Die Teilmenge Hollywood: Entwicklung ist der einzige Datensatz, der mit verschiedenen Gewaltklassen annotiert ist. Diese Teilmenge bestehend aus 24 Hollywood-Filmen ist in drei Teile aufgeteilt. Der erste Teil bestehend aus 12 Filmen (Eragon, Fantastic Four 1, Fargo, Fight Club, Harry Potter 5, I Am Legend, Independence Day, Natürlich blond, Leon, 12 Uhr nachts, Fluch der Karibik, Reservoir Dogs) wird zum Trainieren der Klassifikatoren verwendet. Der zweite Teil, bestehend aus 7 Filmen (Der Soldat James Ryan, Die Bourne Identität, Der Pate, Der Pianist, Der sechste Sinn, The Wicker Man, Der Zauberer von Oz), wird zum Testen der trainierten Klassifikatoren und zum Berechnen der Gewichte für jeden Gewalttyp verwendet. Der letzte Teil, bestehend aus 3 Filmen (Armageddon, Billy Elliot und Der Club der toten Dichter), wird zur Bewertung verwendet. Die Teilmengen „Hollywood: Test“ und „YouTube: Generalisierung“ werden ebenfalls zur Bewertung verwendet, allerdings für eine andere Aufgabe. Die folgenden Absätze enthalten Einzelheiten zu den verwendeten Bewertungsansätzen.
Um die Leistung des Systems zu bewerten, werden zwei verschiedene Klassifizierungsaufgaben definiert. Bei der ersten Aufgabe muss das System eine bestimmte Kategorie von Gewalt erkennen, die in einem Videosegment vorhanden ist. Die zweite Aufgabe ist allgemeiner, da das System nur das Vorhandensein von Gewalt erkennen muss. Für beide Aufgaben werden unterschiedliche Datensätze zur Bewertung verwendet. Bei der ersten Aufgabe, einer Klassifizierungsaufgabe für mehrere Klassen, wird der Validierungssatz verwendet, der aus 3 Hollywoodfilmen (Armageddon, Billy Elliot und Der Club der toten Dichter) besteht. In dieser Teilmenge wird jedes Bildintervall, das Gewalt enthält, mit der vorhandenen Gewaltklasse versehen. Daher wird dieser Datensatz für diese Aufgabe verwendet. Diese 3 Filme wurden weder zum Trainieren noch zum Testen der Klassifikatoren oder zur Gewichtsberechnung verwendet, sodass das System anhand rein neuer Daten bewertet werden kann. Das in Abbildung 3.1 dargestellte Verfahren wird verwendet, um die Wahrscheinlichkeit zu berechnen, dass ein Videosegment zu einer bestimmten Gewaltklasse gehört. Die Ausgabewahrscheinlichkeiten des Systems und die Grundwahrheitsinformationen werden verwendet, um ROC-Kurven (Receiver Operating Characteristic) zu generieren und die Leistung des Systems zu bewerten.
Bei der zweiten Aufgabe, einer binären Klassifizierungsaufgabe, werden die Teilmengen „Hollywood: Test“ und „YouTube: Generalisierung“ des Datensatzes VSD2104 verwendet. Die Teilmenge „Hollywood: Test“ besteht aus 8 Hollywood-Filmen und die Teilmenge „YouTube: Generalisierung“ aus 86 YouTube-Videos. In beiden Teilmengen werden die Bildintervalle, die Gewalt enthalten, als Anmerkungen bereitgestellt, aber es werden keine Informationen über die Gewaltklasse bereitgestellt. Daher werden diese Teilmengen für diese Aufgabe verwendet. Bei dieser Aufgabe wird, ähnlich wie bei der vorherigen, das in Abbildung 3.1 dargestellte Verfahren verwendet, um die Wahrscheinlichkeit zu berechnen, dass ein Videosegment zu einer bestimmten Gewaltklasse gehört. Für jedes Videosegment wird die maximale Wahrscheinlichkeit, die für eine beliebige Gewaltklasse erzielt wird, als die Wahrscheinlichkeit betrachtet, dass es sich um Gewalt handelt. Ähnlich wie bei der obigen Aufgabe werden ROC-Kurven aus diesen Wahrscheinlichkeitswerten und der Grundwahrheit aus dem Datensatz generiert.
Bei beiden Aufgaben werden zunächst alle Merkmale aus den Trainings- und Testdatensätzen extrahiert. Anschließend werden aus den Trainings- und Testdatensätzen zufällige Stichproben gezogen, um eine gleiche Anzahl positiver und negativer Stichproben zu erhalten. Für das Training werden 2.000 Merkmalsstichproben ausgewählt und für das Testen 3.000. Wie oben erwähnt, werden disjunkte Trainings- und Testsätze verwendet, um Tests der Trainingsdaten zu vermeiden. Bei beiden Aufgaben werden SVM-Klassifikatoren mit linearen, radialen Basisfunktionen und Chi-Quadrat-Kerneln für jeden Merkmalstyp trainiert und die Klassifikatoren mit guten Klassifizierungsergebnissen im Testsatz für den Fusionsschritt ausgewählt. Im Fusionsschritt werden die Gewichte für jeden Gewalttyp berechnet, indem rasterweise die möglichen Kombinationen durchsucht werden, die die Leistung des Klassifikators maximieren. Als Leistungsmaß wird das EER-Maß (Equal Error Rate) verwendet.
In diesem Abschnitt werden die Experimente und ihre Ergebnisse vorgestellt. Zuerst werden die Ergebnisse der Mehrklassenklassifizierungsaufgabe vorgestellt, gefolgt von den Ergebnissen der Binärklassifizierungsaufgabe.
Bei dieser Aufgabe muss das System die in einem Video vorhandene Gewaltkategorie erkennen. Die Gewaltkategorien, auf die dieses System abzielt, sind Blut, Kalte Waffen, Explosionen, Kämpfe, Feuer, Schusswaffen, Schüsse, Schreie. Wie in Kapitel 1 erwähnt, handelt es sich hierbei um eine Untermenge der im VSD2014 definierten Gewaltkategorien. Neben diesen acht Kategorien sind in VSD2014 auch Verfolgungsjagd und Subjektive Gewalt definiert, die in dieser Arbeit nicht verwendet werden, da im Datensatz nicht ausreichend Videosegmente mit diesen Kategorien markiert waren. Diese Aufgabe ist sehr schwierig, da die Erkennung von Unterkategorien von Gewalt das komplizierte Problem der Gewalterkennung noch komplexer macht. Der Versuch dieses Systems, feinkörnige Gewaltkonzepte zu erkennen, ist neuartig und es gibt noch kein System, das diese Aufgabe erfüllt.
Wie in Kapitel 3 erwähnt, verwendet dieses System einen gewichteten Entscheidungsfusionsansatz, um mehrere Gewaltklassen zu erkennen, wobei die Gewichte für jede Gewaltkategorie mithilfe einer Rastersuchtechnik ermittelt werden. Weitere Einzelheiten zu diesem Ansatz finden Sie in Abschnitt 3.1.3. In Tabelle 4.2 werden die Gewichte für jede Gewaltklasse dargestellt, die mithilfe dieser Rastersuchtechnik ermittelt werden.
Diese Gewichte werden verwendet, um die gewichtete Summe der Ausgabewerte der binären Merkmalsklassifizierer für jede Gewaltkategorie zu erhalten. Die Kategorie mit der höchsten Summe ist dann die Kategorie der Gewalt, die in diesem Videosegment vorhanden ist. Wenn die Ausgabesumme kleiner als 0,5 ist, wird das Videosegment als gewaltfrei kategorisiert. Die Videosegmente im Validierungssatz werden mit diesem Ansatz klassifiziert und die Ergebnisse werden in Abbildung 4.2 dargestellt. In der Abbildung stellt jede Kurve die ROC-Kurve für jede der Gewaltkategorien dar.
Tabelle 4.2: Klassifikatorgewichte, die für jede Gewaltklasse mithilfe der Grid-Search-Technik ermittelt wurden. Das Kriterium zur Auswahl der Gewichte für eine Gewaltklasse bestand hier darin, die Gewichte zu finden, die den EER für diese Gewaltklasse minimieren.
Abbildung 4.2: Leistung des Systems bei der Multi-Class-Klassifizierungsaufgabe.
Bei dieser binären Klassifizierungsaufgabe wird vom System erwartet, dass es das Vorhandensein von Gewalt erkennt, ohne die Kategorie finden zu müssen. Ähnlich wie bei der vorherigen Aufgabe werden die Ausgabewahrscheinlichkeiten der binären Merkmalsklassifizierer mithilfe eines gewichteten Summenansatzes kombiniert und die Ausgabewahrscheinlichkeiten des Videosegments, das zu jeder der Gewaltklassen gehört, berechnet. Wenn die maximale Wahrscheinlichkeit für eine der Klassen 0,5 überschreitet, wird das Videosegment als gewalttätig oder als gewaltfrei eingestuft. Wie in Abschnitt 4.2 erwähnt, wird diese Aufgabe mit den Datensätzen YouTube-Generalization und Hollywood-Test durchgeführt. Abbildung 4.3 zeigt die Ergebnisse dieser Aufgabe für beide Datensätze. Zwei ROC-Kurven, eine für jeden Datensatz, werden verwendet, um die Leistung des Systems darzustellen. Unter Verwendung von 0,5 als Schwellenwert zur Entscheidung, ob das Videosegment Gewalt enthält oder nicht, werden die Werte für Präzision, Rückruf und Genauigkeit berechnet. Die erzielten Ergebnisse finden Sie in Tabelle 4.3.
In diesem Abschnitt werden die in Abschnitt 4.3 vorgestellten Ergebnisse erörtert. Bevor die Ergebnisse der Multi-Class- und Binary-Klassifizierungsaufgaben erörtert werden, wird die Leistung der einzelnen Klassifikatoren erörtert.
In beiden in Abschnitt 4.3 besprochenen Klassifizierungsaufgaben wird eine Fusion der Klassifikatorwerte durchgeführt, um die Endergebnisse zu erhalten. Daher hängt die Leistung des Systems hauptsächlich von der individuellen Leistung jedes Klassifikators und teilweise von den jedem Klassifikator zugewiesenen Gewichten ab. Damit die endgültigen Klassifizierungsergebnisse gut sind, ist es wichtig, dass jeder der Klassifikatoren eine gute individuelle Leistung aufweist. Um die leistungsstärksten Klassifikatoren zu erhalten, werden SVMs mithilfe von drei verschiedenen Kernelfunktionen (Linear, RBF und Chi-Quadrat) trainiert und der Klassifikator mit der optimalen Leistung im Testsatz ausgewählt. Nach diesem Ansatz werden die leistungsstärksten Klassifikatoren für jeden Merkmalstyp ausgewählt. Die Leistung dieser ausgewählten Klassifikatoren im Testdatensatz ist in Abbildung 4.4 dargestellt. Es ist zu beobachten, dass SentiBank und Audio die beiden Merkmalsklassifikatoren sind, die im Testsatz eine angemessene Leistung zeigen. Der Merkmalsklassifikator „Bewegung“ weist eine Leistung auf, die etwas besser als der Zufall ist, und „Blood“ weist eine Leistung auf, die dem Zufall entspricht. Eine detaillierte Diskussion der Leistung jedes dieser Klassifikatoren in aufsteigender Reihenfolge ihrer Leistung folgt als Nächstes.
Wie aus Abbildung 4.4 ersichtlich, ist die Leistung des Bewegungsmerkmalklassifizierers im Testsatz nur etwas besser als der Zufall. Um den Grund dafür zu verstehen, wird die Leistung aller Bewegungsmerkmalklassifizierer verglichen, die mit verschiedenen SVM-Kerneln auf verfügbaren Datensätzen trainiert wurden. Den Vergleich finden Sie in Abbildung 4.5. In der Abbildung zeigt das linke Diagramm die Leistung der Klassifizierer auf dem Testsatz aus dem Hockey-Datensatz und das rechte Diagramm zeigt den Vergleich auf dem Hollywood-Test-Datensatz. In beiden Diagrammen entspricht die rote Kurve dem Klassifizierer, der auf dem Hockey-Datensatz trainiert wurde, und die verbleibenden drei Kurven entsprechen den Klassifizierern, die auf dem Hollywood-Dev-Datensatz trainiert wurden.
Aus beiden Diagrammen lässt sich erkennen, dass die Leistung der mit demselben Datensatz trainierten und getesteten Klassifikatoren im Vergleich zu den mit einem Datensatz trainierten und mit einem anderen getesteten Klassifikatoren recht gut ist. Im Diagramm links (Testsatz: Hockey-Datensatz) erbringt der mit dem Hockey-Datensatz trainierte Klassifikator eine bessere Leistung. Ebenso erbringt im Diagramm rechts (Testsatz: Hollywood-Test) die mit dem Hollywood-Dev-Datensatz trainierte Klassifikator eine bessere Leistung. Aus diesen Beobachtungen lässt sich schlussfolgern, dass die aus einem Datensatz erlernte Darstellung der Bewegungsmerkmale nicht auf einen anderen Datensatz übertragen werden kann. Der Grund dafür könnten Unterschiede bei der Videoauflösung und dem Videoformat der Datensätze sein. Die Videos aus dem Hockey-Datensatz und dem Hollywood-Test-Datensatz haben unterschiedliche Formate, und auch haben nicht alle Videos aus Hollywood-Development und Hollywood-Test dasselbe Format. Das Videoformat spielt eine wichtige Rolle, da das Verfahren zum Extrahieren von Bewegungsmerkmalen (erläutert in Abschnitt 3.1.1.3.1) Bewegungsinformationen aus Videocodecs verwendet. Länge und Auflösung eines Videos haben ebenfalls einen gewissen Einfluss, obwohl das hier verwendete Verfahren versucht, diese zu reduzieren, indem die extrahierten Merkmale mit der Länge des Videosegments normalisiert werden und die Pixelbewegungen über eine vordefinierte Anzahl von Unterbereichen des Frames aggregiert werden. Videos aus dem Hockey-Datensatz sind sehr kurze Segmente von jeweils einer Sekunde und haben eine kleine Framegröße und niedrige Qualität. Die Videosegmente aus dem Hollywood-Datensatz sind dagegen länger und haben eine größere Framegröße bei besserer Qualität. Eine Lösung für dieses Problem könnte darin bestehen, alle Videos in dasselbe Format zu konvertieren, aber selbst dann könnte aufgrund einer falschen Videokodierung ein Problem auftreten. Die andere Lösung könnte darin bestehen, einen auf optischem Fluss basierenden Ansatz zum Extrahieren von Bewegungsmerkmalen zu verwenden (erläutert in Abschnitt 3.1.1.3.2). Aber wie bereits zuvor erläutert, ist dieser Ansatz mühsam und funktioniert möglicherweise nicht, wenn ein Video aufgrund von Bewegung unscharf ist.
Die Leistung des Blutmerkmalsklassifizierers im Testsatz ist nur so gut wie ein Zufall. Die Ergebnisse finden Sie in Abbildung 4.4. Hier liegt das Problem nicht bei der Merkmalsextraktion, da der für die Blutmerkmalsextraktion verwendete Blutdetektor sehr gute Ergebnisse beim Erkennen von bluthaltigen Bereichen in einem Bild gezeigt hat. Die Leistung des Blutdetektors bei Bildern aus dem Internet finden Sie in Abbildung 3.4 und die Leistung bei Beispielbildern aus dem Hollywood-Datensatz in Abbildung 4.6. Daraus ist ersichtlich, dass der Blutmerkmalsextraktor ziemlich gute Arbeit leistet und das Problem nicht bei der Merkmalsextraktion liegt. Daraus lässt sich schlussfolgern, dass das Problem beim Training des Klassifizierers liegt und auf die begrenzte Verfügbarkeit von Trainingsdaten zurückzuführen ist.
Im VSD2014-Datensatz, der zum Training verwendet wird, sind die Videosegmente, die Blut enthalten, mit Beschriftungen („Unauffällig“, „Niedrig“, „Mittel“ und „Hoch“) versehen, die die in diesen Segmenten enthaltene Blutmenge darstellen. Es gibt nur sehr wenige Segmente in diesem Datensatz, die mit der Beschriftung „Hoch“ versehen sind, weshalb die SVM-Klassifizierer die Merkmalsdarstellung der Bilder, die Blut enthalten, nicht effektiv erlernen können. Die Leistung dieses Merkmalsklassifizierers kann verbessert werden, indem er mit einem größeren Datensatz mit vielen Instanzen von Bildern, die eine große Menge Blut enthalten, trainiert wird. Alternativ können auch Bilder von Google zum Trainieren dieses Klassifizierers verwendet werden.
Der Audiomerkmalsklassifizierer ist der zweitbeste Klassifizierer (siehe Abbildung 4.4) im Testset und dies zeigt die Bedeutung von Audio bei der Gewalterkennung. Obwohl visuelle Merkmale gute Indikatoren für gewalttätige Inhalte sind, gibt es einige Szenen, in denen Audio eine wichtigere Rolle spielt. Zum Beispiel Szenen mit Kämpfen, Schüssen und Explosionen. Diese Szenen haben charakteristische Geräusche und Audiomerkmale wie MFCCs und Energie-Entropie können verwendet werden, um mit diesen Gewaltszenen verbundene Klangmuster zu erkennen. In dieser Arbeit werden MFCC-Merkmale verwendet, um Audioinhalte zu beschreiben (siehe Abschnitt 3.1.1.1), da viele frühere Arbeiten zur Gewalterkennung (Acar et al. [1], Jiang et al. [33], Lam et al. [36] usw.) die Wirksamkeit von MFCC-Merkmalen bei der Erkennung von Audiosignaturen gezeigt haben, die mit Gewaltszenen verbunden sind. Andere Audiomerkmale wie Energie-Entropie, Tonhöhe und Leistungsspektrum können ebenfalls zusammen mit MFCC-Merkmalen verwendet werden, um die Leistung des Merkmalsklassifizierers weiter zu verbessern. Es muss jedoch beachtet werden, dass Audiodaten allein nicht ausreichen, um Gewalt zu erkennen. Sie spielen nur bei der Erkennung einiger Gewaltarten eine wichtige Rolle, beispielsweise bei Schüssen und Explosionen, die über einzigartige Audiosignaturen verfügen.
Der Merkmalsklassifizierer von SentiBank hat von allen Merkmalsklassifizierern die beste Leistung gezeigt (siehe Abbildung 4.4) und stark zur Gesamtleistung des Systems beigetragen. Dies demonstriert die Leistungsfähigkeit von SentiBank beim Erkennen komplexer visueller Stimmungen wie Gewalt. Abbildung 4.7 zeigt die Durchschnittswertungen der 50 besten ANPs für Frames mit und ohne Gewalt. Wie man sehen kann, unterscheiden sich die Listen der ANPs mit den höchsten Durchschnittswertungen für die Klasse Gewalt und die Klasse Gewaltlosigkeit sehr stark, und dies ist der Grund für die sehr gute Leistung von SentiBank beim Unterscheiden der Klasse Gewalt von der Klasse Gewaltlosigkeit. Beachten Sie, dass nicht alle Adjektive in der ANP-Liste für die Klasse Gewalt Gewalt beschreiben. Dies könnte viele verschiedene Gründe haben, einer davon könnte die Tatsache sein, dass von den 1.200 in SentiBank verwendeten ANPs nur wenige die mit Gewalt verbundenen Emotionen (wie Angst, Schrecken, Wut, Zorn usw.) beschreiben. Bitte beachten Sie Abbildung 4.8, die Plutchiks Rad der Emotionen und die Verteilung der ANPs für jede Emotionskategorie in VSO zeigt.
Wie bereits erwähnt (Abschnitt 3.1.3), werden die endgültigen Klassifizierungsergebnisse durch späte Fusion der Einzelklassifikatorergebnisse unter Verwendung eines gewichteten Summenansatzes berechnet. Die hier verwendeten Gewichte werden unter Verwendung eines Rastersuchansatzes berechnet, mit dem Ziel, die Equal Error Rate (EER) zu minimieren. Gewichte spielen also eine wichtige Rolle bei der Bestimmung der Gesamtklassifizierungsleistung des Systems. Beachten Sie, dass alle diese Gewichte auf Grundlage des Testsatzes berechnet werden. In Tabelle 4.2 werden die Gewichte der Klassifikatoren für jede der acht Gewaltklassen dargestellt, die unter Verwendung der Rastersuchtechnik ermittelt wurden. Aus den ermittelten Gewichten können die folgenden Beobachtungen zur Gewichtsverteilung gemacht werden: (i) Für die meisten Gewaltklassen wird SentiBank das höchste Gewicht zugewiesen, da es das diskriminierendste Merkmal ist. (ii) Audio hat das höchste Gewicht für Gewaltklassen wie Schüsse, Explosionen und Kämpfe erhalten, bei denen Audio eine sehr wichtige Rolle spielt. (iii) Blut hat hohe Gewichte für Gewaltklassen wie Schreie, Schüsse und Schusswaffen erhalten. Dies ist deshalb interessant, weil ein Videosegment, das zu einer dieser Gewaltklassen gehört, auch Blut enthalten kann. (iv) Bewegung hat in den meisten Gewaltklassen die geringste Gewichtung erhalten, da sie das am wenigsten effektive Merkmal ist. Es lässt sich jedoch auch beobachten, dass sie in der Klasse „Kämpfe“, in der viel Bewegung zu erwarten ist, eine höhere Gewichtung hat.
Wenn die den einzelnen Gewaltklassen zugewiesenen Gewichte analysiert werden, können die folgenden Beobachtungen gemacht werden: (i) Für die Klasse „Schüsse“ liegen die höchsten Verteilungsgewichte zwischen Audio (0,5) und Blut (0,45). Dies ist zu erwarten, da Audiofunktionen eine wichtige Rolle bei der Erkennung von Schüssen spielen und die Szenen mit Schüssen voraussichtlich auch viel Blut enthalten. (ii) Audio (0,4) und visuelle Funktionen (Bewegung – 0,25 und SentiBank – 0,30) haben für die Klasse „Kämpfe“ eine fast gleich hohe Gewichtung erhalten. Dies ist zu erwarten, da sowohl Audio- als auch visuelle Funktionen bei der Erkennung von Szenen mit Kämpfen wichtig sind. (iii) Für die Klasse „Explosionen“ werden Audio (0,9) die höchsten Gewichte zugewiesen, was zu erwarten ist, da Audiofunktionen bei der Erkennung von Explosionen entscheidend sind. (iv) „Feuer“ ist eine Gewaltklasse, bei der visuelle Funktionen voraussichtlich hohe Gewichte haben, und wie erwartet wird die leistungsstärkste visuelle Funktion, SentiBank (0,85), mit der höchsten Gewichtung versehen. (v) Gewaltklasse „Kälte“
Waffen enthalten Szenen, in denen kalte Waffen vorkommen (z. B. Messer, Schwerter, Pfeile, Hellebarden usw.). Für diese Klasse wird erwartet, dass visuelle Merkmale hohe Gewichtungen haben. Und wie erwartet hat SentiBank (0,95) die höchste Gewichtung für diese Klasse. (vi) „Schusswaffen“ ist die Gewaltklasse, in der die Szenen Gewehre und Schusswaffen enthalten. Ähnlich wie bei der obigen Klasse wird erwartet, dass visuelle Merkmale hohe Gewichtungen haben. Für diese Klasse haben SentiBank (0,6) und Blut (0,3) die höchste Gewichtungsverteilung erhalten. Der Grund dafür, dass Blut eine höhere Gewichtung zugewiesen wird, könnte darin liegen, dass die meisten Szenen mit Waffen auch Blutvergießen enthalten. (vii) Für die Klasse Blut wird erwartet, dass das Merkmal Blut die höchste Gewichtung hat. Aber das Merkmal Blut (0,05) erhielt nur eine geringe Gewichtung und SentiBank (0,95) erhielt die höchste Gewichtung. Dies ist kein erwartetes Ergebnis und könnte an der schlechten Leistung des Merkmalsklassifizierers Blut im Testsatz liegen. (viii) Intuitiv ist zu erwarten, dass Audio für die Klasse „Schreie“ höhere Gewichte erhält, da Audiomerkmale eine wichtige Rolle bei der Erkennung von Schreien spielen. Die hier erhaltenen Gewichte widersprechen jedoch dieser Intuition. Audio hat sehr wenig Gewicht erhalten, während SentiBank das höchste Gewicht erhalten hat. Insgesamt entsprechen die aus der Rastersuche erhaltenen Gewichte für die meisten Klassen mehr oder weniger den Erwartungen. Eine bessere Gewichtsverteilung könnte erreicht werden, wenn die Leistung einzelner Klassifikatoren im Test verbessert wird.
In diesem Abschnitt werden die Ergebnisse der Mehrklassenklassifizierung erörtert. Die Ergebnisse dieser Aufgabe finden Sie in Abbildung 4.2. Aus der Abbildung können die folgenden Beobachtungen gezogen werden: (i) Das System zeigt eine gute Leistung (EER von etwa 30 %) beim Erkennen von Schüssen. (ii) Für die Gewaltklassen Kalte Waffen, Blut und Explosionen zeigt das System eine mäßige Leistung (EER von etwa 40 %). (iii) Für die übrigen Gewaltklassen (Kämpfe, Schreie, Feuer, Schusswaffen) ist die Leistung so gut wie möglich (EER von mehr als 45 %). Diese Ergebnisse deuten darauf hin, dass es viel Raum für Verbesserungen gibt, aber es ist wichtig, sich daran zu erinnern, dass die Gewalterkennung keine triviale Aufgabe ist und die Unterscheidung zwischen verschiedenen Gewaltklassen noch schwieriger ist. Alle bisher vorgeschlagenen Ansätze konzentrierten sich nur auf das Erkennen des Vorhandenseins oder Fehlens von Gewalt, nicht aber auf das Erkennen der Gewaltkategorie. Der in dieser Arbeit vorgeschlagene neuartige Ansatz ist einer der ersten in dieser Richtung und es gibt keine Basissysteme, mit denen die Leistung verglichen werden könnte. Die aus dieser Arbeit gewonnenen Ergebnisse werden als Grundlage für künftige Arbeiten auf diesem Gebiet dienen.
Dieses System verwendet den Late-Fusion-Ansatz, der bei einer ähnlichen Multimedia-Konzepterkennungsaufgabe zur Erkennung von Inhalten für Erwachsene gute Ergebnisse gezeigt hat (Schulze et al. [52]). Die schlechte Leistung des Systems kann daher nicht dem gewählten Ansatz zugeschrieben werden. Die Leistung des Systems hängt von der Leistung einzelner Klassifikatoren und dem ihnen für jede der Gewaltklassen zugewiesenen Fusionsgewicht ab. Da die Fusionsgewichte mithilfe der Grid-Search-Technik angepasst werden, um den EER zu minimieren, hängt die Gesamtleistung des Systems ausschließlich von der Leistung der einzelnen Klassifikatoren ab. Um die Leistung des Systems bei dieser Aufgabe zu verbessern, ist es also notwendig, die Leistung einzelner Klassifikatoren bei der Erkennung von Gewalt zu verbessern.
Die Ergebnisse der binären Klassifizierungsaufgabe sind in Abbildung 4.3 dargestellt. Diese Aufgabe ist eine Erweiterung der Mehrklassenklassifizierungsaufgabe. Wie bereits zuvor erläutert, wird bei dieser Aufgabe ein Videosegment als „Gewalt“ kategorisiert, wenn die Ausgabewahrscheinlichkeit für eine der Gewaltklassen über dem Schwellenwert von 0,5 liegt. Die Leistung des Systems bei dieser Aufgabe wird anhand von zwei Datensätzen bewertet, Hollywood-Test und YouTube-Generalization. Es lässt sich beobachten, dass die Leistung des Systems bei diesen Datensätzen etwas besser als der Zufall ist. Es lässt sich auch beobachten, dass die Leistung beim Hollywood-Test-Datensatz besser ist als beim YouTube-Generalization-Datensatz. Dies ist zu erwarten, da alle Klassifikatoren mit Daten aus dem Hollywood-Development-Datensatz trainiert werden, der ähnliche Videoinhalte wie der Hollywood-Test-Datensatz aufweist. Die vom System für diese Aufgabe erzielten Präzisions-, Rückruf- und Genauigkeitswerte sind in Tabelle 4.3 dargestellt. Die Ergebnisse des am besten abschneidenden Teams bei dieser Aufgabe von MediaEval-2014 sind in Tabelle 4.4 aufgeführt.
Diese Ergebnisse können nicht direkt verglichen werden, auch wenn derselbe Datensatz verwendet wird, da der zur Auswertung verwendete Prozess nicht derselbe ist. In MediaEval-2014 wird von einem System erwartet, dass es das Start- und Endbild für die Videosegmente ausgibt, die Gewalt enthalten, und wenn die Überlappung zwischen der Grundwahrheit und den Ausgabebildintervallen mehr als 50 % beträgt, wird dies als Treffer betrachtet. Weitere Informationen zum in MediaEval-2014 verfolgten Prozess finden Sie bei Schedl et al. [51]. Bei dem vorgeschlagenen Ansatz kategorisiert das System jedes 1-Sekunden-Segment des Eingabevideos in die Klasse „Gewalt“ oder „Keine Gewalt“, und die Systemleistung wird durch Vergleich mit der Grundwahrheit berechnet. Dieses hier verwendete Bewertungskriterium ist viel strenger und detaillierter als das in MediaEval-2014 verwendete. Da die Klassifizierung hier für jedes 1-Sekunden-Segment erfolgt, ist keine Strategie erforderlich, um die Erkennung kürzerer Segmente zu bestrafen. Die MAP-Metrik wird zur Auswahl des Systems mit der besten Leistung in MediaEval verwendet, während im vorgeschlagenen System der EER des Systems optimiert wird.
Auch wenn die mit diesem System erzielten Ergebnisse nicht direkt mit den MediaEval-Ergebnissen verglichen werden können, lässt sich feststellen, dass die Leistung dieses Systems mit der des leistungsstärksten Systems von MediaEval-2014 vergleichbar, wenn nicht sogar besser ist, obwohl strenge Bewertungskriterien angewendet werden. Diese Ergebnisse legen nahe, dass das mit dem vorgeschlagenen neuen Ansatz entwickelte System in diesem Bereich der Gewalterkennung besser ist als die bestehenden hochmodernen Systeme.
In diesem Kapitel wird die Bewertung des entwickelten Systems ausführlich erläutert. In Abschnitt 4.1 werden Einzelheiten zu den in dieser Arbeit verwendeten Datensätzen erläutert und im nächsten Abschnitt 4.2 wird der Versuchsaufbau erläutert. In Abschnitt 4.3 werden die Experimente und ihre Ergebnisse vorgestellt, gefolgt von einer ausführlichen Diskussion der erzielten Ergebnisse in Abschnitt 4.4.
Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar .
[1] http://www.images.google.com
[2] http://www.youtube.com
[3] http://visilab.etsii.uclm.es/personas/oscar/FightDetection/index.html