paint-brush
Filmtrailer-Generierung durch Aufgabenzerlegung: Problemformulierungvon@kinetograph

Filmtrailer-Generierung durch Aufgabenzerlegung: Problemformulierung

Zu lang; Lesen

In diesem Artikel modellieren Forscher Filme als Diagramme, um Trailer zu generieren, narrative Strukturen zu identifizieren und Stimmungen vorherzusagen, und übertreffen dabei überwachte Methoden.
featured image - Filmtrailer-Generierung durch Aufgabenzerlegung: Problemformulierung
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autoren:

(1) Pinelopi Papalampidi, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;

(2) Frank Keller, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;

(3) Mirella Lapata, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh.

Linktabelle

3. Problemformulierung

Die Trailergenerierung erfordert die Auswahl von L Einstellungen aus einem abendfüllenden Film mit M Einstellungen (LM). Filme erzählen komplexe Geschichten mit verschiedenen Nebenhandlungen oder Ereignissen, die sich nicht-linear entfalten, während redundante Ereignisse, sogenannte „Lückenfüller“, die Hauptgeschichte bereichern. Wir können daher nicht davon ausgehen, dass aufeinanderfolgende Einstellungen notwendigerweise semantisch miteinander verbunden sind. Zur besseren Erforschung der Beziehungen zwischen Ereignissen stellen wir Filme als Graphen dar [42]. Bezeichnet G = (V, E) einen Graphen, in dem die Knoten V Einstellungen und die Kanten E ihre semantische Ähnlichkeit darstellen. Wir berücksichtigen weiterhin die ursprüngliche zeitliche Reihenfolge der Einstellungen in G, indem wir nur gerichtete Kanten von vorherigen zu zukünftigen Einstellungen zulassen. G wird durch eine obere dreieckige Transitionsmatrix T beschrieben, die die Wahrscheinlichkeit des Übergangs von Einstellung i zu jeder zukünftigen Einstellung j aufzeichnet.


Innerhalb von G nehmen wir an, dass einige Einstellungen Schlüsselereignisse des Films beschreiben (dicke Kreise in Abbildung 2), während alle Einstellungen eine Stimmung (positiv oder negativ) haben, deren Intensität durch eine Punktzahl angegeben wird (Grün-/Rottöne in Abbildung 2). Wir schlagen einen Algorithmus vor, um G zu durchlaufen und Sequenzen von Trailereinstellungen auszuwählen. Im Folgenden beschreiben wir zunächst diesen Algorithmus (Abschnitt 3.1) und diskutieren dann, wie der Graph G gelernt und Schlüsselereignisse über TP-Identifizierung [41] erkannt werden (Abschnitt 3.2). Abschließend erklären wir auch, wie einstellungsbasierte Stimmungsbewertungen vorhergesagt werden (Abschnitt 3.5).

3.1. Durchquerung von Filmgraphen




Wir wählen insgesamt L Aufnahmen aus (abhängig von der Länge des Zieltrailers) und rufen eine Proposal-Trailer-Sequenz ab, wie in Abbildung 2 (fette Linie) dargestellt. Bei jedem Schritt verfolgen wir den erstellten Stimmungsfluss und die bisher identifizierten TPs (Zeilen 10 und 13–14 in Algorithmus 1). Ein TP-Ereignis wurde für die Präsentation im Trailer ausgewählt, wenn eine Aufnahme oder ihre unmittelbaren Nachbarn zum Pfad hinzugefügt wurden.

3.2. TP-Identifizierung





Das videobasierte Modell setzt den Zugriff auf TP-Labels auf Einstellungsebene voraus. Der einzige uns bekannte Datensatz zur TP-Identifizierung ist jedoch TRIPOD [41], der szenenbasierte Labels auf Grundlage von Drehbüchern enthält. Um feinere Labels zu erhalten, projizieren wir szenenbasierte Annotationen auf Einstellungen nach einer einfachen Eins-zu-viele-Abbildung (siehe Abschnitt 4 für Einzelheiten). Da unser Trainingssignal unvermeidlich verrauscht ist, vermuten wir, dass der Zugriff auf Drehbücher das videobasierte Modell dazu ermutigen würde, Einstellungen auszuwählen, die für jeden TP repräsentativer sind. Mit anderen Worten: Drehbücher stellen privilegiertes Wissen und ein implizites Überwachungssignal dar und verringern gleichzeitig die Notwendigkeit zusätzlicher Vorverarbeitung während der Inferenz. Darüber hinaus bieten Drehbücher eine Fülle zusätzlicher Informationen, z. B. über Charaktere und ihre Rollen in einer Szene oder ihre Handlungen und Emotionen (vermittelt durch Zeilen, die beschreiben, was die Kamera sieht). Diese Informationen könnten sonst im Video schwer genau zu lokalisieren sein. Darüber hinaus sind unbeschriftete Textkorpora von Drehbüchern relativ einfach zu erhalten und können zum Vortraining unseres Netzwerks verwendet werden.


Abbildung 2. GRAPHTRAILER: Ein Film ist ein Graph, dessen Knoten Aufnahmen sind und dessen Kanten die Beziehungen zwischen ihnen bezeichnen. Jede Aufnahme ist durch einen Stimmungswert (grüne/rote Schattierungen für positive/negative Werte) und Beschriftungen gekennzeichnet, die wichtige Ereignisse beschreiben (dicke Kreise). Unser Algorithmus führt Spaziergänge im Graphen durch (fette Linie), um Sequenzen von Angebotstrailern zu generieren.

3.3. Wissensdestillation

Wir beschreiben nun unser gemeinsames Trainingsprogramm für die beiden Netzwerke, die unterschiedliche Ansichten des Films in Form von Datenströmen (multimodal vs. nur Text) und deren Segmentierung in semantische Einheiten (Aufnahmen vs. Szenen) zusammenfassen.



Abbildung 3. Zwei Netzwerke verarbeiten verschiedene Ansichten des Films mit unterschiedlichem Grad an Granularität. Das videobasierte Netzwerk verwendet als Eingabe multimodale, feinkörnige Szenendarstellungen, die auf dem Videostream des Films basieren. Das drehbuchbasierte Netzwerk verarbeitet grobkörnige Textszenendarstellungen, die auf dem Drehbuch des Films basieren. Die Netzwerke werden gemeinsam auf TP-Identifizierung trainiert, wobei Verluste die Konsistenz von Vorhersage und Darstellung zwischen ihnen erzwingen.


Verlust der Darstellungskonsistenz Wir schlagen vor, einen zweiten Regularisierungsverlust zwischen den beiden Netzwerken zu verwenden, um auch die Konsistenz zwischen den beiden graphbasierten Darstellungen (d. h. über Videoaufnahmen und Drehbuchszenen) zu erzwingen. Dieser Verlust hat zwei Zwecke: die TP-Vorhersagen für die beiden Netzwerke zu verbessern, wie in früheren Arbeiten zum kontrastiven Darstellungslernen [38, 39, 48] gezeigt, und auch dabei zu helfen, genauere Verbindungen zwischen Aufnahmen zu lernen (denken Sie daran, dass der aufnahmebasierte Graph als Eingabe für unseren Trailergenerierungsalgorithmus dient; Abschnitt 3.1). Im Vergleich zu Drehbuchszenen, die in sich geschlossene Ereignisse in einem Film beschreiben, sind Videoaufnahmen nur wenige Sekunden lang und sind für ihre Bedeutung vom umgebenden Kontext abhängig. Wir gehen von der Hypothese aus, dass wir durch die Erzwingung der Graphnachbarschaft für eine Aufnahme, um eine Semantik ähnlich der entsprechenden Drehbuchszene beizubehalten, die Auswahl geeigneter Nachbarn im aufnahmebasierten Graphen fördern werden.



3.4. Selbstüberwachtes Vortraining

Das Vortraining zielt darauf ab, bessere Szenendarstellungen aus Drehbüchern zu erlernen, die zugänglicher sind als Filmvideos (z. B. weniger Urheberrechtsprobleme und weniger Rechenaufwand), in der Hoffnung, dass dieses Wissen über unsere Konsistenzverluste auf das videobasierte Netzwerk übertragen wird.


3.5. Stimmungsvorhersage

Schließlich berücksichtigt unser Modell, wie die Stimmung von einer Einstellung zur nächsten fließt. Wir prognostizieren Stimmungswerte pro Einstellung mit derselben gemeinsamen Architektur (Abschnitt 3.3) und demselben Trainingsregime, das wir für die TP-Identifizierung verwenden. Das videobasierte Netzwerk wird anhand von Einstellungen mit Stimmungsbezeichnungen (d. h. positiv, negativ, neutral) trainiert, während das drehbuchbasierte Netzwerk anhand von Szenen mit Stimmungsbezeichnungen trainiert wird (Abschnitt 4 erklärt, wie die Bezeichnungen erhalten werden). Nach dem Training prognostizieren wir eine Wahrscheinlichkeitsverteilung über Stimmungsbezeichnungen pro Einstellung, um den Stimmungsfluss zu erfassen und zwischen Einstellungen mit hoher und niedriger Intensität zu unterscheiden (Einzelheiten finden Sie im Anhang).