Autoren:
(1) Dinesh Kumar Vishwakarma, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien;
(2) Mayank Jindal, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien
(3) Ayush Mittal, Biometric Research Laboratory, Department of Information Technology, Delhi Technological University, Delhi, Indien
(4) Aditya Sharma, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien.
Die automatische Klassifizierung von Filmgenres hat sich zu einem aktiven und wichtigen Forschungs- und Untersuchungsbereich entwickelt. Kurzfilmtrailer liefern nützliche Einblicke in den Film, da der Videoinhalt aus kognitiven und affektiven Merkmalen besteht. Frühere Ansätze konzentrierten sich entweder auf die Analyse kognitiver oder affektiver Inhalte. In diesem Artikel schlagen wir ein neuartiges multimodales Framework für die Klassifizierung von Filmgenres vor, das auf Situationen, Dialogen und Metadaten basiert und sowohl kognitive als auch affektive Merkmale berücksichtigt. Ein auf der Fusion von Vormerkmalen basierendes Framework, das Folgendes berücksichtigt: situationsbasierte Merkmale aus einem regulären Schnappschuss eines Trailers, der Substantive und Verben enthält und die nützliche affektive Zuordnung zu den entsprechenden Genres ermöglicht, dialogbasierte (sprachbasierte) Merkmale aus Audiodaten und Metadaten, die zusammen die relevanten Informationen für die kognitive und affektive Videoanalyse liefern. Wir entwickeln auch den englischen Filmtrailer-Datensatz (EMTD), der 2000 Hollywood-Filmtrailer aus fünf beliebten Genres enthält: Action, Romantik, Komödie, Horror und Science-Fiction, und führen eine Kreuzvalidierung des Standard-LMTD-9-Datensatzes durch, um das vorgeschlagene Framework zu validieren. Die Ergebnisse zeigen, dass die vorgeschlagene Methode zur Klassifizierung von Filmgenres hervorragende Ergebnisse liefert, wie die F1-Werte, die Präzision, der Rückruf und der Bereich unterhalb der Präzisions-Rückruf-Kurven zeigen.
Schlüsselwörter: Klassifizierung von Filmgenres, Convolutional Neural Network, Datensatz englischer Filmtrailer, multimodale Datenanalyse.
Filme sind eine großartige Quelle der Unterhaltung für das Publikum und beeinflussen die Gesellschaft auf vielfältige Weise. Die manuelle Identifizierung des Genres eines Films kann je nach Geschmack des Einzelnen variieren. Daher ist die automatische Vorhersage des Filmgenres ein aktives Forschungs- und Erkundungsgebiet. Filmtrailer werden zu einer nützlichen Quelle für die Vorhersage der Genres des Films. Sie bieten in sehr kurzer Zeit nützliche Einblicke in den Film. Filmtrailer bestehen aus zwei Arten von Inhalten: kognitiven Inhalten und affektiven Inhalten.
Der kognitive Inhalt beschreibt die Zusammensetzung der Ereignisse, Objekte und Personen in einem bestimmten Videobild des Filmtrailers, während der affektive Inhalt die Art der psychologischen Merkmale wie Gefühle oder Emotionen in einem Filmtrailer beschreibt [1]. Beispiele für kognitive Inhalte sind ein Spielplatz, ein Gebäude, ein Mann, ein Hund usw. Beispiele für affektive Inhalte sind Gefühle/Emotionen wie Glück, Trauer, Wut usw. Sowohl der kognitive als auch der affektive Inhalt bieten wichtige Merkmale für die Vorhersage der Genres des Films.
In diesem Artikel schlagen wir ein neuartiges, multimodales, situations-, dialog- und metadatenbasiertes Klassifizierungsframework für Filmgenres vor, das darauf abzielt, Filmgenres anhand von Video-, Audio- und Metadateninhalten (Handlung/Beschreibung) von Filmtrailern vorherzusagen. Unser neuartiges Framework konzentriert sich darauf, sowohl die kognitiven als auch die affektiven Merkmale aus dem Filmtrailer zu extrahieren. Um dies zu erreichen, wird aus dem Videobild ein Satz (generiert aus Situationen) extrahiert, der aus relevanten Nomen und Verben besteht. Nomen liefern die relevanten Informationen über den kognitiven Inhalt der Trailer, und Verben bieten eine nützliche affektive Zuordnung zu den entsprechenden Genres. Beispielsweise bieten Verben wie Lachen, Kichern, Kitzeln usw. eine affektive Zuordnung zum Genre „Komödie“. Verben wie Angreifen, Schlagen, Stoßen usw. bieten eine affektive Zuordnung zum Genre „Action“. Neben Situationen tragen Dialoge und metadatenbasierte Merkmale zusätzlich zum kognitiven und affektiven Inhalt bei, da sie Ereignisbeschreibungen (kognitiver Inhalt) und psychologische Merkmale (affektiver Inhalt) enthalten.
Genau wie beim Standardprozess des maschinellen Lernens wird die Arbeit in mehreren Phasen durchgeführt. Die 1. Phase ist die Phase der Datensatzgenerierung, in der wir den EMTD generieren, der 2000 Hollywood-Filmtrailer aus 5 beliebten Genres enthält: Action, Romantik, Komödie, Horror und Science Fiction. Die 2. Phase umfasst die Vorverarbeitung von Videotrailern, bei der alle wiederholten Frames entfernt und in der Größe angepasst werden. Die Sätze mit wichtigen Nomen und Verben werden aus den nützlichen Frames extrahiert. Wir bereiten auch die Audiotranskripte von Filmtrailern vor, um Dialoge aus Trailern zu erhalten. In der 3. Phase entwerfen und trainieren wir die vorgeschlagene Architektur, die die wichtigen Merkmale aus den Trailern extrahiert und lernt. Schließlich wird in der 4. Phase die Leistung unserer vorgeschlagenen Architektur anhand der Metrik „Bereich unter der PrecisionRecall-Kurve“ (AU (PRC)) bewertet. Im Folgenden sind die wesentlichen Beiträge unserer Arbeit aufgeführt:
Wir schlagen einen neuen EMTD (English Movie Trailer Dataset) vor, der englischsprachige Hollywood-Filmtrailer aus fünf beliebten und unterschiedlichen Genres enthält: Action, Romantik, Komödie, Horror und Science Fiction.
Diese Arbeit schlägt einen neuartigen Ansatz zur Vorhersage von Filmgenres unter Verwendung kognitiver und affektiver Merkmale vor. Soweit uns bekannt ist, hat sich keine der bisherigen Veröffentlichungen auf eine Kombination aus Dialog-, Situations- und Metadaten-basierten Merkmalen konzentriert, die aus den Filmtrailern extrahiert wurden. Daher führen wir eine situationsbasierte Analyse unter Verwendung von Substantiven und Verben, eine dialogbasierte Analyse unter Verwendung von Spracherkennung und eine metadatenbasierte Analyse mit Metadaten durch, die in den Trailern verfügbar sind.
Die vorgeschlagene Architektur wird außerdem durch datensatzübergreifende Tests mit dem Standarddatensatz LMTD-9 [2] evaluiert. Die Ergebnisse zeigen, dass die vorgeschlagene Architektur eine hervorragende Leistung erbringt und die überlegene Leistung des Frameworks demonstriert.
Der verbleibende Teil des Dokuments ist wie folgt gegliedert: In Abschnitt 2 wird die bisherige Literatur zur Klassifizierung von Filmgenres überprüft und die Motivation hinter der vorgeschlagenen Arbeit hervorgehoben. In Abschnitt 3 diskutieren wir das vorgeschlagene EMTD. In Abschnitt 4 liefern wir eine detaillierte Beschreibung der vorgeschlagenen Architektur. In Abschnitt 5 bewerten wir die Leistung des vorgeschlagenen Frameworks und validieren es anhand von zwei verschiedenen Datensätzen. Das Dokument wird in Abschnitt 6 abgeschlossen.
Dieses Dokument ist auf arxiv unter der Lizenz CC BY-NC-SA 4.0 DEED verfügbar .