Autoren:  (1) Praveen Tirupattur, University of Central Florida.  Linktabelle   Abstrakt   Danksagung   Kapitel 1 Einleitung   Kapitel 2: Verwandte Arbeiten   Kapitel 3: Vorgeschlagener Ansatz   Kapitel 4: Experimente und Ergebnisse   Kapitel 5: Schlussfolgerungen und zukünftige Arbeiten   Literaturverzeichnis  5. Schlussfolgerungen und zukünftige Arbeiten  In diesem Kapitel werden in Abschnitt 5.1 und Abschnitt 5.2 die Schlussfolgerungen sowie die Richtungen erörtert, in denen die bestehende Arbeit erweitert werden kann.  5.1. Schlussfolgerungen  In dieser Arbeit wurde versucht, ein System zu entwickeln, das gewalttätige Inhalte in Videos anhand visueller und akustischer Merkmale erkennt. Obwohl der in dieser Arbeit verwendete Ansatz von früheren Arbeiten auf diesem Gebiet inspiriert ist, sind folgende Aspekte einzigartig: (i) Erkennung verschiedener Gewaltklassen, (ii) Verwendung der SentiBank-Funktion zur Beschreibung visueller Inhalte eines Videos, (iii) der Blutdetektor und das Blutmodell, die anhand von Bildern aus dem Internet entwickelt wurden, und (iv) Verwendung von Informationen aus Videocodecs zur Generierung von Bewegungsmerkmalen. Hier ist ein kurzer Überblick über den Prozess, der zur Entwicklung dieses Systems verwendet wurde.  Da Gewalt kein physisches Objekt ist, ist ihre Erkennung in einem Video keine triviale Aufgabe. Gewalt ist ein visuelles Konzept und um sie zu erkennen, müssen mehrere Merkmale verwendet werden. In dieser Arbeit wurden MFCC-Merkmale zur Beschreibung von Audioinhalten und die Merkmale Blood, Motion und SentiBank zur Beschreibung von visuellen Inhalten verwendet. Für jedes der ausgewählten Merkmale wurden SVM-Klassifikatoren trainiert und die einzelnen Klassifikatorwerte durch eine gewichtete Summe kombiniert, um die endgültigen Klassifizierungswerte für jede der Gewaltklassen zu erhalten. Die Gewichte für jede Klasse werden mithilfe eines Grid-Search-Ansatzes ermittelt, wobei das Optimierungskriterium der minimale EER ist. In dieser Arbeit werden unterschiedliche Datensätze verwendet, der wichtigste ist jedoch der VSD-Datensatz, der zum Trainieren der Klassifikatoren, Berechnen der Klassifikatorgewichte und zum Testen des Systems verwendet wird.  Die Leistung des Systems wird anhand von zwei verschiedenen Klassifizierungsaufgaben bewertet: MultiClass und Binary-Klassifizierung. Bei der Multi-Class-Klassifizierung muss das System die in einem Videosegment vorhandene Gewaltklasse erkennen. Dies ist eine viel schwierigere Aufgabe als nur das Erkennen des Vorhandenseins von Gewalt, und das hier vorgestellte System ist eines der ersten, das dieses Problem angeht. Bei der Binary-Klassifizierungsaufgabe muss das System nur das Vorhandensein von Gewalt erkennen, ohne die Gewaltklasse finden zu müssen. Bei dieser Aufgabe wird das Videosegment als „Gewalt“ kategorisiert, wenn der endgültige Klassifizierungswert der Multi-Class-Klassifizierungsaufgabe für eine der Gewaltklassen über 0,5 liegt, andernfalls wird es als „keine Gewalt“ kategorisiert. Die Ergebnisse der Multi-Class-Klassifizierungsaufgabe sind alles andere als perfekt und es besteht Verbesserungsbedarf, während die Ergebnisse der Binary-Klassifizierungsaufgaben besser sind als die bestehenden Benchmark-Ergebnisse von MediaEval-2014. Diese Ergebnisse sind jedoch definitiv ermutigend. In Abschnitt 5.2 wird eine detaillierte Diskussion über die möglichen Richtungen präsentiert, in die die aktuelle Arbeit erweitert werden kann.  5.2. Zukünftige Arbeit  Es gibt viele mögliche Richtungen, in die die aktuelle Arbeit erweitert werden kann. Eine Richtung wäre, die Leistung des bestehenden Systems zu verbessern. Dafür muss die Leistung der einzelnen Klassifikatoren verbessert werden. Bewegung und Blut sind die beiden Merkmale, deren Klassifikatorleistung erheblich verbessert werden muss. Wie in Abschnitt 4.4 erläutert, muss der Ansatz zum Extrahieren von Bewegungsmerkmalen geändert werden, um die Leistung des Bewegungsklassifikators zu verbessern. Bei Blut liegt das Problem beim Datensatz, der zum Trainieren des Klassifikators verwendet wird, nicht jedoch beim Merkmalsextraktor. Für das Training sollte ein geeigneter Datensatz mit einer angemessenen Anzahl von Bildern verwendet werden, die Blut enthalten. Diese Verbesserungen sollten der erste Schritt zum Aufbau eines besseren Systems sein. Eine weitere Richtung für die zukünftige Arbeit wäre, dieses System anzupassen und verschiedene Tools für verschiedene Anwendungen zu entwickeln. Beispielsweise könnte (i) ein Tool entwickelt werden, das die Videosegmente mit Gewalt aus einem gegebenen Eingabevideo extrahieren könnte. Dies könnte beim Taggen von Videos hilfreich sein. (ii) Ein ähnliches Tool könnte für die Kindersicherung entwickelt werden, bei der das System verwendet werden könnte, um einen Film je nach dem Grad des darin enthaltenen Gewaltgehalts zu bewerten. Ein weiterer möglicher Schwerpunkt für zukünftige Arbeiten ist die Verbesserung der Geschwindigkeit des Systems, damit es zur Echtzeiterkennung von Gewalt anhand der Videoübertragung von Überwachungskameras eingesetzt werden kann. Die für die Entwicklung eines solchen Systems erforderlichen Verbesserungen werden nicht trivial sein.  Dieses Dokument ist   . auf Arxiv unter der CC 4.0-Lizenz verfügbar

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

Dieses Audio ist in der Originalsprache der Geschichte produziert!

Gewalterkennung in Videos: Schlussfolgerungen und zukünftige Arbeiten

About Author

KOMMENTARE

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN

Related Stories

Starting 2025 with New Features: Settings Dashboard, HackerNoon Decoded, Updated Search UI, and More

HackerNoon Decoded 2024: Celebrating Our Programming Community!

HackerNoon Decoded 2024: Celebrating Our Cybersecurity Community!

HackerNoon Decoded 2024: Wir feiern unsere Produktmanagement-Community!

Starting 2025 with New Features: Settings Dashboard, HackerNoon Decoded, Updated Search UI, and More

HackerNoon Decoded 2024: Celebrating Our Programming Community!

HackerNoon Decoded 2024: Celebrating Our Cybersecurity Community!

HackerNoon Decoded 2024: Wir feiern unsere Produktmanagement-Community!

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps