paint-brush
Multilevel-Profiling situations- und dialogbasierter Deep Networks: Hintergrund und verwandte Arbeitenvon@kinetograph

Multilevel-Profiling situations- und dialogbasierter Deep Networks: Hintergrund und verwandte Arbeiten

Zu lang; Lesen

In diesem Artikel schlagen Forscher ein multimodales Framework zur Klassifizierung von Filmgenres vor, das Situations-, Dialog- und Metadatenfunktionen nutzt.
featured image - Multilevel-Profiling situations- und dialogbasierter Deep Networks: Hintergrund und verwandte Arbeiten
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autoren:

(1) Dinesh Kumar Vishwakarma, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien;

(2) Mayank Jindal, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien

(3) Ayush Mittal, Biometric Research Laboratory, Department of Information Technology, Delhi Technological University, Delhi, Indien

(4) Aditya Sharma, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien.

Linktabelle

2. Hintergrund und verwandte Arbeiten

In diesem Abschnitt werden die bisherigen Methoden zur Klassifizierung von Filmgenres und die Motivationen hinter unserer Studie erörtert. Videoinhalte werden hauptsächlich in (1) Videobilder (Bilder) und (2) Audio (Sprache {Dialoge} + Nicht-Sprache {Gesang}) unterteilt. Zur Analyse von Videoinhalten wurden in der Vergangenheit verschiedene Studien durchgeführt, die sich hauptsächlich auf die kognitive [3]–[7] oder affektive [8] Ebene konzentrierten. Für eine effektivere Studie müssen beide Ebenen berücksichtigt werden, um bei der Genreklassifizierung bessere Ergebnisse zu erzielen.


In früheren Studien wurden viele kognitive Ansätze vorgeschlagen, die auf einfachen Merkmalen wie Sehstörungen, durchschnittlicher Einstellungslänge, allmählicher Veränderung der Lichtintensität in Videobildern und Spitzen in der Audiowellenform [3] basieren, um Szenenkomponenten zu erfassen [4]. Andere Merkmale, die für die kognitive Klassifizierung verwendet werden, sind RGB-Farben in Bildern [6], Filmaufnahmen [7], Einstellungslänge [9], Art des Hintergrunds in Szenen (dunkel/nicht dunkel) [6] usw. Ebenso werden einige Ansätze vorgeschlagen, die nur für die affektive Analyse gedacht sind [8].


Ein Film kann mehrere Genres haben, die den Zuschauern viele Informationen vermitteln, und so auch dazu dienen, einem Zuschauer einen Film zu empfehlen. Jain et al. [5] verwendeten 4 Videomerkmale (Aufnahmelänge, Bewegung, Farbdominanz, Lichtart) und 5 Audiomerkmale, um Filmclips mit nur 200 Trainingsbeispielen zu klassifizieren. Sie verwendeten komplette Filmclips, um Genres vorherzusagen. Die Studie verwendet jedoch nur 200 Trainingsbeispiele zum Trainieren ihres Modells. Dementsprechend könnte die von ihnen gemeldete Genauigkeit auf Überanpassung zurückzuführen sein. Außerdem konzentrierte sich die Studie nur auf die Klassifizierung einzelner Labels. Huang et al. [4] schlugen den Algorithmus Self Adaptive Harmony Search mit 7 gestapelten SVMs vor, die sowohl Audio- als auch visuelle Merkmale (insgesamt etwa 277 Merkmale) auf einem 223-stelligen Datensatz verwendeten. Ertugrul et al. [10] verwendeten einfache Merkmale, einschließlich der Handlung des Films, indem sie die Handlung in Sätze aufteilten und die Sätze in Genres klassifizierten und das endgültige Genre als das mit der höchsten Häufigkeit nahmen. Pais et al. [11] schlug vor, Bild-Text-Merkmale zu verschmelzen, indem man sich auf einige wichtige Wörter aus der Gesamtzusammenfassung stützte, und führte eine Klassifizierung des Filmgenres auf Grundlage dieser Merkmale durch. Das Modell wurde an einem Satz von 107 Filmtrailern getestet. Shahin et al. [12] verwendeten Filmhandlungen und Zitate und schlugen hierarchische Aufmerksamkeitsnetzwerke zur Klassifizierung der Genres vor. Ebenso schlugen Kumar et al. [13] vor, Filmhandlungen zur Klassifizierung des Genres unter Verwendung von Hash-Vektorisierung zu verwenden, indem sie sich auf die Reduzierung der Gesamtzeitkomplexität konzentrierten. Die oben genannten Studien stützen sich auf Merkmale auf niedriger Ebene und erfassen keine Merkmale auf höherer Ebene aus Filmtrailern, sodass sie für ein gutes Erkennungssystem nicht als verlässlich gelten können.


Neuere Studien haben gezeigt, dass viele Forscher tiefe Netzwerke zur Klassifizierung von Filmgenres einsetzen. Shambharkar et al. [14] schlugen eine 3D-CNN-basierte Architektur mit einem einzigen Label vor, um räumliche und zeitliche Merkmale zu erfassen. Obwohl räumliche und zeitliche Merkmale dabei erfasst werden, ist das Modell aufgrund der Klassifizierung mit einem einzigen Label nicht robust. Einige Forscher arbeiteten an Filmplakaten, um Filmgenres zu klassifizieren. Chu et al. [15] formulierten ein tiefes neuronales Netzwerk, um die Objekterkennung und visuelle Erscheinungen zu erleichtern. Obwohl in dieser Arbeit viele Informationen aus Plakaten erfasst wurden, reicht das Plakat selbst nicht aus, um einen Film vollständig zu beschreiben. Simoes et al. [16] schlugen ein CNN-Motion vor, das Szenenhistogramme des unüberwachten Clustering-Algorithmus, gewichtete Genrevorhersagen für jeden Trailer sowie einige einfache Videofunktionen enthielt. Dies lieferte eine große Gruppe von Funktionen aus einem Video, es fehlten jedoch einige affektive und kognitive Funktionen zur Klassifizierung des Genres.


Aus der bisherigen Literatur geht hervor, dass aus den Videotrailern wichtige Informationen sowohl für kognitive als auch für affektive Studien extrahiert werden sollten. Unsere Motivation hinter der Arbeit besteht daher darin, einen Ansatz zu entwickeln, der auf beiden Ebenen der Videoinhaltsanalyse basiert, wie in [1]. Wir glauben, dass die vorgeschlagene Architektur und das Modell neuartig und robust sind und in Zukunft für verschiedene Forschungsperspektiven verwendet werden können.