Autoren:
(1) Pinelopi Papalampidi, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;
(2) Frank Keller, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;
(3) Mirella Lapata, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh.
Die Trailergenerierung erfordert die Auswahl von L Einstellungen aus einem abendfüllenden Film mit M Einstellungen (LM). Filme erzählen komplexe Geschichten mit verschiedenen Nebenhandlungen oder Ereignissen, die sich nicht-linear entfalten, während redundante Ereignisse, sogenannte „Lückenfüller“, die Hauptgeschichte bereichern. Wir können daher nicht davon ausgehen, dass aufeinanderfolgende Einstellungen notwendigerweise semantisch miteinander verbunden sind. Zur besseren Erforschung der Beziehungen zwischen Ereignissen stellen wir Filme als Graphen dar [42]. Bezeichnet G = (V, E) einen Graphen, in dem die Knoten V Einstellungen und die Kanten E ihre semantische Ähnlichkeit darstellen. Wir berücksichtigen weiterhin die ursprüngliche zeitliche Reihenfolge der Einstellungen in G, indem wir nur gerichtete Kanten von vorherigen zu zukünftigen Einstellungen zulassen. G wird durch eine obere dreieckige Transitionsmatrix T beschrieben, die die Wahrscheinlichkeit des Übergangs von Einstellung i zu jeder zukünftigen Einstellung j aufzeichnet.
Innerhalb von G nehmen wir an, dass einige Einstellungen Schlüsselereignisse des Films beschreiben (dicke Kreise in Abbildung 2), während alle Einstellungen eine Stimmung (positiv oder negativ) haben, deren Intensität durch eine Punktzahl angegeben wird (Grün-/Rottöne in Abbildung 2). Wir schlagen einen Algorithmus vor, um G zu durchlaufen und Sequenzen von Trailereinstellungen auszuwählen. Im Folgenden beschreiben wir zunächst diesen Algorithmus (Abschnitt 3.1) und diskutieren dann, wie der Graph G gelernt und Schlüsselereignisse über TP-Identifizierung [41] erkannt werden (Abschnitt 3.2). Abschließend erklären wir auch, wie einstellungsbasierte Stimmungsbewertungen vorhergesagt werden (Abschnitt 3.5).
Wir wählen insgesamt L Aufnahmen aus (abhängig von der Länge des Zieltrailers) und rufen eine Proposal-Trailer-Sequenz ab, wie in Abbildung 2 (fette Linie) dargestellt. Bei jedem Schritt verfolgen wir den erstellten Stimmungsfluss und die bisher identifizierten TPs (Zeilen 10 und 13–14 in Algorithmus 1). Ein TP-Ereignis wurde für die Präsentation im Trailer ausgewählt, wenn eine Aufnahme oder ihre unmittelbaren Nachbarn zum Pfad hinzugefügt wurden.
Das videobasierte Modell setzt den Zugriff auf TP-Labels auf Einstellungsebene voraus. Der einzige uns bekannte Datensatz zur TP-Identifizierung ist jedoch TRIPOD [41], der szenenbasierte Labels auf Grundlage von Drehbüchern enthält. Um feinere Labels zu erhalten, projizieren wir szenenbasierte Annotationen auf Einstellungen nach einer einfachen Eins-zu-viele-Abbildung (siehe Abschnitt 4 für Einzelheiten). Da unser Trainingssignal unvermeidlich verrauscht ist, vermuten wir, dass der Zugriff auf Drehbücher das videobasierte Modell dazu ermutigen würde, Einstellungen auszuwählen, die für jeden TP repräsentativer sind. Mit anderen Worten: Drehbücher stellen privilegiertes Wissen und ein implizites Überwachungssignal dar und verringern gleichzeitig die Notwendigkeit zusätzlicher Vorverarbeitung während der Inferenz. Darüber hinaus bieten Drehbücher eine Fülle zusätzlicher Informationen, z. B. über Charaktere und ihre Rollen in einer Szene oder ihre Handlungen und Emotionen (vermittelt durch Zeilen, die beschreiben, was die Kamera sieht). Diese Informationen könnten sonst im Video schwer genau zu lokalisieren sein. Darüber hinaus sind unbeschriftete Textkorpora von Drehbüchern relativ einfach zu erhalten und können zum Vortraining unseres Netzwerks verwendet werden.
Wir beschreiben nun unser gemeinsames Trainingsprogramm für die beiden Netzwerke, die unterschiedliche Ansichten des Films in Form von Datenströmen (multimodal vs. nur Text) und deren Segmentierung in semantische Einheiten (Aufnahmen vs. Szenen) zusammenfassen.
Verlust der Darstellungskonsistenz Wir schlagen vor, einen zweiten Regularisierungsverlust zwischen den beiden Netzwerken zu verwenden, um auch die Konsistenz zwischen den beiden graphbasierten Darstellungen (d. h. über Videoaufnahmen und Drehbuchszenen) zu erzwingen. Dieser Verlust hat zwei Zwecke: die TP-Vorhersagen für die beiden Netzwerke zu verbessern, wie in früheren Arbeiten zum kontrastiven Darstellungslernen [38, 39, 48] gezeigt, und auch dabei zu helfen, genauere Verbindungen zwischen Aufnahmen zu lernen (denken Sie daran, dass der aufnahmebasierte Graph als Eingabe für unseren Trailergenerierungsalgorithmus dient; Abschnitt 3.1). Im Vergleich zu Drehbuchszenen, die in sich geschlossene Ereignisse in einem Film beschreiben, sind Videoaufnahmen nur wenige Sekunden lang und sind für ihre Bedeutung vom umgebenden Kontext abhängig. Wir gehen von der Hypothese aus, dass wir durch die Erzwingung der Graphnachbarschaft für eine Aufnahme, um eine Semantik ähnlich der entsprechenden Drehbuchszene beizubehalten, die Auswahl geeigneter Nachbarn im aufnahmebasierten Graphen fördern werden.
Das Vortraining zielt darauf ab, bessere Szenendarstellungen aus Drehbüchern zu erlernen, die zugänglicher sind als Filmvideos (z. B. weniger Urheberrechtsprobleme und weniger Rechenaufwand), in der Hoffnung, dass dieses Wissen über unsere Konsistenzverluste auf das videobasierte Netzwerk übertragen wird.
Schließlich berücksichtigt unser Modell, wie die Stimmung von einer Einstellung zur nächsten fließt. Wir prognostizieren Stimmungswerte pro Einstellung mit derselben gemeinsamen Architektur (Abschnitt 3.3) und demselben Trainingsregime, das wir für die TP-Identifizierung verwenden. Das videobasierte Netzwerk wird anhand von Einstellungen mit Stimmungsbezeichnungen (d. h. positiv, negativ, neutral) trainiert, während das drehbuchbasierte Netzwerk anhand von Szenen mit Stimmungsbezeichnungen trainiert wird (Abschnitt 4 erklärt, wie die Bezeichnungen erhalten werden). Nach dem Training prognostizieren wir eine Wahrscheinlichkeitsverteilung über Stimmungsbezeichnungen pro Einstellung, um den Stimmungsfluss zu erfassen und zwischen Einstellungen mit hoher und niedriger Intensität zu unterscheiden (Einzelheiten finden Sie im Anhang).
Dieses Dokument ist auf arxiv unter der Lizenz CC BY-SA 4.0 DEED verfügbar .