paint-brush
Multilevel-Profiling situations- und dialogbasierter Deep Networks: Vorgeschlagene Methodikvon@kinetograph
125 Lesungen

Multilevel-Profiling situations- und dialogbasierter Deep Networks: Vorgeschlagene Methodik

Zu lang; Lesen

In diesem Artikel schlagen Forscher ein multimodales Framework zur Klassifizierung von Filmgenres vor, das Situations-, Dialog- und Metadatenfunktionen nutzt.
featured image - Multilevel-Profiling situations- und dialogbasierter Deep Networks: Vorgeschlagene Methodik
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autoren:

(1) Dinesh Kumar Vishwakarma, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien;

(2) Mayank Jindal, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien

(3) Ayush Mittal, Biometric Research Laboratory, Department of Information Technology, Delhi Technological University, Delhi, Indien

(4) Aditya Sharma, Biometric Research Laboratory, Abteilung für Informationstechnologie, Delhi Technological University, Delhi, Indien.

Linktabelle

4. Vorgeschlagene Methodik

4.1. Beschreibungen

Die Handlung/Beschreibungen eines Films sind ein wichtiges Merkmal zur Beschreibung eines Films. In den meisten Fällen ist die Handlung eines veröffentlichten Films entweder zu kurz oder wird in manchen Fällen gar nicht erwähnt. Aus diesem Grund verwenden wir die Beschreibungen in Verbindung mit den aus den Filmtrailern extrahierten Dialogen, um schließlich das Filmgenre vorherzusagen, wie in Abschnitt 4.2 ausführlich erläutert. Die Beschreibungen werden von der IMDB-Website als Metadaten abgerufen, wie bereits in Abschnitt 3 erwähnt.


Abb. 1: Pipeline des Frameworks

4.2. Dialog

In diesem Abschnitt schlagen wir eine Architektur vor, um eine Liste von Dialogen aus dem Audio des Trailers (Beschreibung/Handlung mit Dialogen verknüpft) zu verarbeiten und so Filmgenres vorherzusagen. Wichtige Schritte für diesen Stream sind: (1) Sprache (Dialog) aus dem Filmtrailer extrahieren und (2) ein Modell entwerfen, um Genres auf der Grundlage von Sprache und Metadaten vorherzusagen.

4.2.1. Vorverarbeitung der Daten

Die Audiodateien im (.wav)-Format werden aus den (.mp4)-Videotrailern extrahiert. Anschließend wird die Audiodatei in kleine Audioclips aufgeteilt und in Dialoge umgewandelt, wie in [17] vorgeschlagen. Der gesamte Text wird gesammelt, um ein Eingabekorpus zu bilden. Beschreibung/Handlung (falls in den Metadaten verfügbar) werden ebenfalls in dieses Korpus integriert. Unsere Studie zielt nur auf die englischsprachigen Trailer ab. Genau wie Filmhandlungen kann die aus den Trailern extrahierte Sprache als Ergänzung zu unserem Textkorpus dienen, was zu einem besseren Verständnis der Beziehung zwischen dem Textkontext und dem Genre des Films beitragen kann. Nach der Generierung des Korpus, das aus einem einzelnen Datensatz für jeden Trailer besteht, wurden in unserer Trainings-/Testphase die folgenden Vorverarbeitungsschritte durchgeführt: Umwandlung des gesamten Textes in Kleinbuchstaben, Entfernung von Ziffern, Satzzeichen, Stoppwörtern und Weblinks. Der oben erhaltene Text wird als Eingabe für das Modell/vorab trainierte Modell zum Trainieren/Testen verwendet.


Tabelle 2: Abkürzungen und ihre Bedeutung

4.2.2. Merkmalsextraktion (Dialog)


4.2.3. ECnet (Einbettung – Faltungsnetzwerk)

Um eine kognitiv basierte Genreerkennungsarchitektur aufzubauen, müssen die entscheidenden Merkmale des Trailers in Form eines Textkorpus von einem Modell gelernt werden. Dies kann durch die Verwendung einer Kombination aus Embedding- und CNN-Schichten (Convolution Neural Network) erreicht werden. Die Schichten des Multi-Label-Klassifizierungsnetzwerks sind in Tabelle 3 dargestellt. Embedding ist eine der beliebtesten Techniken, die bei NLP-Problemen verwendet werden, um Wörter in eine mathematische Darstellung in Form numerischer Vektoren umzuwandeln.


Abb. 2: ECnet-Architektur


Bevor tatsächlich Eingaben an die Architektur gesendet werden, muss das Vokabular entworfen und die Größe eines Korpus für jeden Datenpunkt festgelegt werden. Es wird ein Vokabular mit einer Größe von 10.395 Wörtern entworfen und die maximale Länge der Wörter in jedem Korpus wird auf die Länge des längsten Satzes in unserem Trainingskorpus festgelegt, was in unserem Fall 330 sind. Wenn die Anzahl der Wörter in einem Korpus kleiner als die maximale Länge ist, wird das Korpus mit Nullen aufgefüllt. Für einen 2-3-minütigen Filmtrailer erweisen sich 330 Wörter als ausreichend, da in einigen Teilen des Trailers möglicherweise keine Sprache vorhanden ist (nur Gesang kann vorhanden sein).


Jetzt haben wir für jedes Corpus in den Eingabedaten eine Eingabe der Form (330,) (330 ist die Anzahl der Wörter in jedem Datenpunkt), die in die erste Schicht unserer Architektur wie in Abb. 2 eingespeist wird, d. h. in die Einbettungsschicht. Die Einbettungsschicht gibt eine Ausgabe der Dimension (330, 64,) aus, da die Einbettungslänge für jedes Wort in unserer vorgeschlagenen Architektur mit 64 angenommen wird.


Tabelle 3: Parameter der ECnet-Architektur


Nach der Einbettungsschicht wird eine 1-D-Faltungsschicht mit der Ausgabe der Einbettungsschicht gespeist. Auch hier ergibt die Faltungsschicht eine Ausgabeform von (330, 64,). Um dieselbe Ausgabe zu erhalten, wenden wir die Auffüllung gleichmäßig auf die Eingabe der Faltungsschicht an. Als Nächstes wird eine Max-Pooling-Schicht verwendet, um die Dimension der Daten von (330, 64,) auf (165, 64,) zu reduzieren. Auf die Architektur folgt eine Abflachungsschicht, um die zweidimensionalen Daten in eindimensionale Daten umzuwandeln und die Ausgabe weiter an eine dichte Schicht zu senden.


Wie in Tabelle 3 dargestellt, erzeugt die Flatten-Schicht eine Ausgabe der Form (10560,), die einer dichten Schicht als Eingabe zugeführt wird und eine Ausgabeform von (32,) erzeugt. Schließlich wird die letzte dichte Schicht auf die Architektur angewendet und liefert die Ausgabeform (5,), die unsere fünf Genres bezeichnet. In der letzten dichten Schicht unserer Architektur verwenden wir „Sigmoid“ als Aktivierungsfunktion, die für unser Multilabel-Klassifizierungsproblem am besten geeignet ist.

4.3. Lage

Dieser Abschnitt umfasst die von uns vorgeschlagene Arbeit zu visuellen Merkmalen von Filmtrailern. Die wichtigsten Schritte für diesen Stream sind: (1) Videobilder aus dem Trailer holen, (2) Situationen aus den Bildern extrahieren und (3) Architektur erstellen, um die Trailer schließlich in Genres zu klassifizieren.


Es wird ein neuartiges situationsbasiertes Videoanalysemodell vorgeschlagen, indem Situationen und Ereignisse anhand jedes aus dem Video extrahierten Frames für visuelle Merkmale extrahiert werden. So wird ein Korpus erstellt, um das Modell zu trainieren/testen, indem diese Elemente gesammelt werden.


Nach bestem Wissen und Gewissen schlagen wir einen neuartigen Rahmen vor, indem wir die Situations-, Ereignis- und Dialoganalyse zur Genreklassifizierung zusammenführen. Weitere Einzelheiten zum Rahmen werden in den folgenden Abschnitten beschrieben.

4.3.1. Frame-Extraktion aus Video


Nach verschiedenen Experimenten mit einer Teilmenge von Filmtrailern wurde festgestellt, dass es vorteilhaft ist, alle 10𝑡ℎ Frames einzugeben, um Redundanz in Frames zu vermeiden (aufeinanderfolgende Frames eines Videos scheinen ähnlich zu sein). Daher können nach dem Verwerfen der redundanten Frames die endgültigen betrachteten Video-Frames als Gleichung (9) ausgedrückt werden:



In den folgenden Abschnitten berücksichtigen wir diese Rahmen für jeden Anhänger.

4.3.2. Merkmalsextraktion (Situation)


Abb. 3: Situationen für die obigen Bilder: (a) Die Soldaten marschieren im Freien. (b) Eine verstörte Frau mit blutverschmiertem Gesicht steht neben einem Baum. (c) In einem Raum feiern Leute Geburtstag. (d) Ein Mann sprintet auf einer Rennstrecke.



Und die Wahrscheinlichkeit, dass die Situation S zu einem Bild I gehört, kann wie in Gl. (11) bezeichnet werden.




𝛼 bezeichnet den Parameter für unser neuronales Netzwerk. Jetzt können wir die semantischen Rollen in einem Bild in einer bestimmten Reihenfolge definieren. Somit lässt sich die Gleichung (12) weiter auf Gleichung (13) reduzieren.



Gl. (13) kann weiter als Gl. (14) vereinfacht werden.



Für ein bestimmtes Bild/Einzelbild wird die Situation mit der in Gl. (14) definierten Maximalwertwahrscheinlichkeit für dieses Bild berücksichtigt.



Nun wird die Aufgabe in eine Textklassifizierungsaufgabe umgewandelt, für die wir die Modellarchitektur vorschlagen, die in den folgenden Abschnitten erläutert wird. Bevor mit dem nächsten Schritt fortgefahren wird, wird eine Textvorverarbeitung durchgeführt: Der gesamte Text wird in Kleinbuchstaben umgewandelt, Ziffern, Satzzeichen und Stoppwörter werden entfernt, wie in Abschnitt 4.2.1 beschrieben. Dieselben Schritte werden im Testverfahren ausgeführt, um das Genre des Filmtrailers vorherzusagen.

4.3.3. TFAnet (Term Frequency Künstliches Neuronales Netzwerk)

Nach dem Extrahieren visueller Merkmale ist eine robuste Architektur erforderlich, um die endgültigen Genres für die Trailer zu klassifizieren. Dieses Modell unterscheidet sich von dem Modell, das wir im Dialogstream vorgeschlagen haben. Hier wird TFAnet (Term Frequency Artificial Neural Network) vorgeschlagen, das aus einem tiefen Netzwerk dichter und Dropout-Schichten besteht, wie in Abb. 4 dargestellt.


Bevor wir zur vorgeschlagenen Architektur kommen, besprechen wir die Textdarstellung mit TF-IDF in [19]. Für diese Architektur wird vorgeschlagen, die Wortanzahl im Korpus jedes Datenpunkts zu verwenden. Daher verwenden wir die Wortanzahl aus dem Korpus als Merkmale zur Klassifizierung der Filmtrailer-Genres. Um eine große Anzahl von Wörtern als Merkmale in unseren Wortschatz aufzunehmen, werden in unserem EMTD Trailer aus einem großen Bereich von Veröffentlichungsdaten verwendet, um beim Trainieren des Modells ein riesiges Korpus zur Verfügung zu haben. Eine Kombination aus Unigrammen, Bigramen und Trigrammen wird aus unserem Korpus als Merkmale verwendet, und der TF-IDF-Algorithmus (Term Frequency-Inverse Document Frequency) stellt unseren Text in numerischer Form dar. Die Gesamtzahl der verwendeten N-Gramm-Merkmale beträgt etwa 34.684. Jetzt werden unsere textbasierten Merkmale in eine mathematische Form umgewandelt, sodass als Nächstes (künstliches neuronales Netzwerk) trainiert wird, die Genres des Trailers zu klassifizieren.


Tabelle 4: Parameter von TFAnet


Die Architektur von TFAnet (Term Frequency Artificial Neural Network) ist in Tabelle 4 dargestellt. Die Eingabeform ist, wie oben erläutert, (34684,). Diese Eingabe wird einer dichten Schicht zugeführt, die eine Ausgabe der Form (64,) liefert. Dann wird eine Dropout-Schicht angewendet, um Überanpassung mit einer Rate von 0,4 zu reduzieren. Wieder wird eine dichte Schicht angewendet, und wir erhalten eine Ausgabe der Form (32,), gefolgt von einer Dropout-Schicht mit einer Rate von 0,2. Schließlich wird eine dichte Schicht angewendet, die eine Ausgabe der Form (5,) liefert, um schließlich fünf Genres mit Sigmoid als Aktivierungsfunktion vorherzusagen.


Abb. 4: TFAnet-Architektur


Der Algorithmus der Trainingsphase des MSD-Modells wird als Algorithmus 1 geschrieben.


Der Ablauf der Testphase lässt sich mit Algorithmus 2 nachvollziehen.