paint-brush
Filmtrailer-Generierung durch Task Decomposition: Abstract und Introvon@kinetograph

Filmtrailer-Generierung durch Task Decomposition: Abstract und Intro

Zu lang; Lesen

In diesem Artikel modellieren Forscher Filme als Diagramme, um Trailer zu generieren, narrative Strukturen zu identifizieren und Stimmungen vorherzusagen und übertreffen damit überwachte Methoden.
featured image - Filmtrailer-Generierung durch Task Decomposition: Abstract und Intro
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autoren:

(1) Pinelopi Papalampidi, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;

(2) Frank Keller, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;

(3) Mirella Lapata, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh.

Linktabelle

Abstrakt

Filmtrailer erfüllen mehrere Funktionen: Sie führen die Zuschauer in die Geschichte ein, vermitteln die Stimmung und den künstlerischen Stil des Films und animieren das Publikum, sich den Film anzusehen. Diese vielfältigen Funktionen machen die automatische Trailer-Generierung zu einem anspruchsvollen Unterfangen. Wir zerlegen sie in zwei Teilaufgaben: Identifizierung der narrativen Struktur und Vorhersage der Stimmung. Wir modellieren Filme als Graphen, wobei Knoten Aufnahmen darstellen und Kanten semantische Beziehungen zwischen ihnen bezeichnen. Wir lernen diese Beziehungen mithilfe eines gemeinsamen kontrastiven Trainings, das privilegierte Textinformationen (z. B. Charaktere, Handlungen, Situationen) aus Drehbüchern nutzt. Ein unbeaufsichtigter Algorithmus durchläuft dann den Graphen und generiert Trailer, die menschliche Bewerter denen vorziehen, die durch wettbewerbsorientierte, überwachte Ansätze generiert wurden.

1. Einleitung

Trailer sind kurze Videos, die zur Werbung für Filme verwendet werden und oft entscheidend für den kommerziellen Erfolg sind. Während ihre Hauptfunktion darin besteht, den Film einem breiten Publikum zu präsentieren, sind Trailer auch eine Form überzeugender Kunst und Werbeerzählung, die bei den Zuschauern den Wunsch wecken soll, den Film zu sehen. Obwohl die Herstellung von Trailern als künstlerisches Unterfangen gilt, hat die Filmindustrie Strategien entwickelt, die die Trailerkonstruktion leiten. Einer Denkrichtung zufolge müssen Trailer eine narrative Struktur aufweisen, die aus drei Akten besteht[1]. Der erste Akt stellt die Charaktere und den Aufbau der Geschichte vor, der zweite Akt führt den Hauptkonflikt ein und der dritte Akt erhöht die Spannung und liefert Teaser für das Ende. Eine andere Denkrichtung beschäftigt sich mehr mit der Stimmung des Trailers, die durch die Höhen und Tiefen der Geschichte definiert wird[2]. Nach diesem Ansatz sollten Trailer zunächst eine mittlere Intensität haben, um die Zuschauer zu fesseln, gefolgt von niedriger Intensität, um wichtige Informationen über die Geschichte zu liefern, und dann eine schrittweise Steigerung der Intensität, bis am Ende des Trailers ein Höhepunkt erreicht wird.


Abbildung 1. Wendepunkte und ihre Definitionen.


Um Trailer automatisch zu erstellen, müssen wir einfache Aufgaben wie Personenidentifikation, Handlungserkennung und Stimmungsvorhersage ausführen, aber auch anspruchsvollere, wie das Verstehen von Zusammenhängen zwischen Ereignissen und ihrer Kausalität sowie das Ziehen von Rückschlüssen über die Charaktere und ihre Handlungen. Angesichts der Komplexität der Aufgabe würde das direkte Erlernen all dieser Kenntnisse aus Film-Trailer-Paaren viele tausend Beispiele erfordern, deren Verarbeitung und Annotation eine Herausforderung wäre. Es ist daher nicht überraschend, dass sich frühere Ansätze zur automatischen Trailergenerierung [24,46,53] ausschließlich auf audiovisuelle Merkmale konzentrierten.


Inspiriert vom kreativen Prozess menschlicher Redakteure verfolgen wir einen Bottom-up-Ansatz zur Trailer-Generierung, den wir in zwei orthogonale, einfachere und klar definierte Teilaufgaben zerlegen. Die erste ist die Identifizierung der Erzählstruktur, d. h. das Abrufen der wichtigsten Ereignisse des Films. Eine häufig angewandte Theorie im Drehbuchschreiben [13,22,51] geht davon aus, dass es in der Handlung eines Films fünf Arten von Schlüsselereignissen gibt, die als Wendepunkte (TPs; siehe ihre Definitionen in Abbildung 1) bezeichnet werden. Die zweite Teilaufgabe ist die Vorhersage der Stimmung, die wir als Annäherung an den Intensitätsfluss zwischen den Aufnahmen und die hervorgerufenen Emotionen betrachten.


Wir erstellen Trailer für Vorschläge nach einem unüberwachten, graphenbasierten Ansatz. Wir modellieren Filme als Graphen, deren Knoten Aufnahmen sind und deren Kanten wichtige semantische Verbindungen zwischen Aufnahmen kennzeichnen (siehe Abbildung 2). Darüber hinaus tragen Knoten Beschriftungen, die angeben, ob es sich um Schlüsselereignisse (d. h. TPs) handelt, und Bewertungen, die die Intensität der Stimmung (positiv oder negativ) signalisieren. Unser Algorithmus durchläuft diesen Filmgraphen, um Trailersequenzen zu erstellen. Diese könnten als Vorschläge verwendet werden, die von einem menschlichen Redakteur überprüft und geändert werden können.


Sowohl die Aufgaben der TP-Identifizierung als auch der Stimmungsvorhersage profitieren von einem tieferen Verständnis des Filminhalts. Tatsächlich könnten wir handelsübliche Module zur Identifizierung von Figuren und Orten, zur Erkennung von Aktionen und zur Lokalisierung semantischer Einheiten einsetzen. Solche Ansätze erhöhen jedoch die Vorverarbeitungszeit und den Speicherbedarf während des Trainings und der Inferenz erheblich und leiden unter Fehlerfortpflanzung. Stattdessen schlagen wir ein kontrastives Lernverfahren vor, bei dem wir Drehbücher als privilegierte Informationen nutzen, d. h. Informationen, die nur zum Zeitpunkt des Trainings verfügbar sind. Drehbücher zeigen, wie der Film in Szenen unterteilt ist, wer die Figuren sind, wann und mit wem sie sprechen, wo sie sind und was sie tun (d. h. „Szenenüberschriften“ erklären, wo die Handlung stattfindet, während „Aktionslinien“ beschreiben, was die Kamera sieht). Konkret bauen wir zwei einzelne Netzwerke auf, ein Textnetzwerk basierend auf Drehbüchern und ein multimodales basierend auf Videos, und trainieren sie gemeinsam mithilfe zusätzlicher kontrastiver Verluste. Das Textnetzwerk kann zusätzlich über selbstüberwachtes Lernen anhand großer Sammlungen von Drehbüchern vortrainiert werden, ohne die entsprechenden Filme sammeln und verarbeiten zu müssen. Experimentelle Ergebnisse zeigen, dass dieser kontrastive Trainingsansatz von Vorteil ist und zu Trailern führt, die von Menschen hinsichtlich ihres Inhalts und ihrer Attraktivität positiv beurteilt werden.



[1] https://www.studiobinder.com/blog/wie-macht-man-einen-filmtrailer


[2] https://www.derek-lieu.com/blog/2017/9/10/the-matrix-is-a-trailereditors-dream