paint-brush
Gewalterkennung in Videos: Schlussfolgerungen und zukünftige Arbeitenvon@kinetograph

Gewalterkennung in Videos: Schlussfolgerungen und zukünftige Arbeiten

Zu lang; Lesen

In diesem Artikel schlagen Forscher ein System zur automatischen Erkennung von Gewalt in Videos vor, das zur Klassifizierung Audio- und visuelle Hinweise nutzt.
featured image - Gewalterkennung in Videos: Schlussfolgerungen und zukünftige Arbeiten
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


Autoren:

(1) Praveen Tirupattur, University of Central Florida.

Linktabelle

5. Schlussfolgerungen und zukünftige Arbeiten

In diesem Kapitel werden in Abschnitt 5.1 und Abschnitt 5.2 die Schlussfolgerungen sowie die Richtungen erörtert, in denen die bestehende Arbeit erweitert werden kann.

5.1. Schlussfolgerungen

In dieser Arbeit wurde versucht, ein System zu entwickeln, das gewalttätige Inhalte in Videos anhand visueller und akustischer Merkmale erkennt. Obwohl der in dieser Arbeit verwendete Ansatz von früheren Arbeiten auf diesem Gebiet inspiriert ist, sind folgende Aspekte einzigartig: (i) Erkennung verschiedener Gewaltklassen, (ii) Verwendung der SentiBank-Funktion zur Beschreibung visueller Inhalte eines Videos, (iii) der Blutdetektor und das Blutmodell, die anhand von Bildern aus dem Internet entwickelt wurden, und (iv) Verwendung von Informationen aus Videocodecs zur Generierung von Bewegungsmerkmalen. Hier ist ein kurzer Überblick über den Prozess, der zur Entwicklung dieses Systems verwendet wurde.


Da Gewalt kein physisches Objekt ist, ist ihre Erkennung in einem Video keine triviale Aufgabe. Gewalt ist ein visuelles Konzept und um sie zu erkennen, müssen mehrere Merkmale verwendet werden. In dieser Arbeit wurden MFCC-Merkmale zur Beschreibung von Audioinhalten und die Merkmale Blood, Motion und SentiBank zur Beschreibung von visuellen Inhalten verwendet. Für jedes der ausgewählten Merkmale wurden SVM-Klassifikatoren trainiert und die einzelnen Klassifikatorwerte durch eine gewichtete Summe kombiniert, um die endgültigen Klassifizierungswerte für jede der Gewaltklassen zu erhalten. Die Gewichte für jede Klasse werden mithilfe eines Grid-Search-Ansatzes ermittelt, wobei das Optimierungskriterium der minimale EER ist. In dieser Arbeit werden unterschiedliche Datensätze verwendet, der wichtigste ist jedoch der VSD-Datensatz, der zum Trainieren der Klassifikatoren, Berechnen der Klassifikatorgewichte und zum Testen des Systems verwendet wird.


Die Leistung des Systems wird anhand von zwei verschiedenen Klassifizierungsaufgaben bewertet: MultiClass und Binary-Klassifizierung. Bei der Multi-Class-Klassifizierung muss das System die in einem Videosegment vorhandene Gewaltklasse erkennen. Dies ist eine viel schwierigere Aufgabe als nur das Erkennen des Vorhandenseins von Gewalt, und das hier vorgestellte System ist eines der ersten, das dieses Problem angeht. Bei der Binary-Klassifizierungsaufgabe muss das System nur das Vorhandensein von Gewalt erkennen, ohne die Gewaltklasse finden zu müssen. Bei dieser Aufgabe wird das Videosegment als „Gewalt“ kategorisiert, wenn der endgültige Klassifizierungswert der Multi-Class-Klassifizierungsaufgabe für eine der Gewaltklassen über 0,5 liegt, andernfalls wird es als „keine Gewalt“ kategorisiert. Die Ergebnisse der Multi-Class-Klassifizierungsaufgabe sind alles andere als perfekt und es besteht Verbesserungsbedarf, während die Ergebnisse der Binary-Klassifizierungsaufgaben besser sind als die bestehenden Benchmark-Ergebnisse von MediaEval-2014. Diese Ergebnisse sind jedoch definitiv ermutigend. In Abschnitt 5.2 wird eine detaillierte Diskussion über die möglichen Richtungen präsentiert, in die die aktuelle Arbeit erweitert werden kann.

5.2. Zukünftige Arbeit

Es gibt viele mögliche Richtungen, in die die aktuelle Arbeit erweitert werden kann. Eine Richtung wäre, die Leistung des bestehenden Systems zu verbessern. Dafür muss die Leistung der einzelnen Klassifikatoren verbessert werden. Bewegung und Blut sind die beiden Merkmale, deren Klassifikatorleistung erheblich verbessert werden muss. Wie in Abschnitt 4.4 erläutert, muss der Ansatz zum Extrahieren von Bewegungsmerkmalen geändert werden, um die Leistung des Bewegungsklassifikators zu verbessern. Bei Blut liegt das Problem beim Datensatz, der zum Trainieren des Klassifikators verwendet wird, nicht jedoch beim Merkmalsextraktor. Für das Training sollte ein geeigneter Datensatz mit einer angemessenen Anzahl von Bildern verwendet werden, die Blut enthalten. Diese Verbesserungen sollten der erste Schritt zum Aufbau eines besseren Systems sein. Eine weitere Richtung für die zukünftige Arbeit wäre, dieses System anzupassen und verschiedene Tools für verschiedene Anwendungen zu entwickeln. Beispielsweise könnte (i) ein Tool entwickelt werden, das die Videosegmente mit Gewalt aus einem gegebenen Eingabevideo extrahieren könnte. Dies könnte beim Taggen von Videos hilfreich sein. (ii) Ein ähnliches Tool könnte für die Kindersicherung entwickelt werden, bei der das System verwendet werden könnte, um einen Film je nach dem Grad des darin enthaltenen Gewaltgehalts zu bewerten. Ein weiterer möglicher Schwerpunkt für zukünftige Arbeiten ist die Verbesserung der Geschwindigkeit des Systems, damit es zur Echtzeiterkennung von Gewalt anhand der Videoübertragung von Überwachungskameras eingesetzt werden kann. Die für die Entwicklung eines solchen Systems erforderlichen Verbesserungen werden nicht trivial sein.