paint-brush
Filmtrailer-Generierung mittels Task Decomposition: Implementierungsdetailsvon@kinetograph

Filmtrailer-Generierung mittels Task Decomposition: Implementierungsdetails

Zu lang; Lesen

In diesem Artikel modellieren Forscher Filme als Diagramme, um Trailer zu generieren, narrative Strukturen zu identifizieren und Stimmungen vorherzusagen, und übertreffen dabei überwachte Methoden.
featured image - Filmtrailer-Generierung mittels Task Decomposition: Implementierungsdetails
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autoren:

(1) Pinelopi Papalampidi, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;

(2) Frank Keller, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;

(3) Mirella Lapata, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh.

Linktabelle

B. Einzelheiten zur Umsetzung

Bewertungsmetriken Frühere Arbeiten [41] bewerten die Leistung von TP-Identifizierungsmodellen anhand von drei Metriken: Vollständige Übereinstimmung (TA), d.h. der Prozentsatz der TP-Szenen, die korrekt identifiziert wurden, teilweise Übereinstimmung (PA), d.h. der Prozentsatz der TP-Ereignisse, für die mindestens eine Goldstandard-Szene identifiziert wurde, und Distanz (D), d.h. der Mindestabstand in der Anzahl der Szenen zwischen dem vorhergesagten und dem Goldstandard-Szenensatz für einen gegebenen TP, normalisiert durch die Drehbuchlänge. Wir berichten die Ergebnisse mit der Metrik der teilweisen Übereinstimmung. Wir können nicht mehr die vollständige Übereinstimmung verwenden, da wir anhand von Silberstandard- (anstatt Gold-)Beschriftungen für Einstellungen (anstatt Szenen) bewerten und daher alle Einstellungen innerhalb einer Szene als gleich wichtig erachten. Wir verwenden auch nicht die Distanzmetrik, da sie sehr ähnliche Ergebnisse liefert und nicht dabei hilft, zwischen Modellvarianten zu unterscheiden.


Hyperparameter In Anlehnung an frühere Arbeiten [42] projizieren wir alle Featuretypen (also Text-, Bild- und Audio-Features) auf die gleiche niedrigere Dimension von 128. Wir stellen fest, dass größere Dimensionen die Anzahl der Parameter erheblich erhöhen und möglicherweise aufgrund der geringen Datensatzgröße zu schlechteren Ergebnissen führen.


Wir kontextualisieren Szenen (in Bezug auf das Drehbuch) und Aufnahmen (in Bezug auf das Video) mithilfe von Transformer-Encodern. Wir haben mit 2, 3, 4, 5 und 6 Ebenen im Encoder experimentiert und mit 3 Ebenen die besten Ergebnisse erzielt. Für die Feedforward-Dimension (FF) haben wir sowohl mit einer Standardgröße von 2.048 als auch mit einer kleineren Größe von 1.024 experimentiert und festgestellt, dass erstere besser funktioniert. Wir verwenden einen anderen Transformer-Encoder, um die Darstellung einer Szene aus einer Folge von Eingabesatzdarstellungen zu berechnen. Dieser Encoder hat 4 Ebenen und 1.024 FF-Dimensionen. Beide Encoder verwenden 8 Attention Heads und 0,3 Dropout.


Während der Graphenverdünnung (d. h. Auswahl der Top-k-Nachbarn) berücksichtigen wir aufgrund ihrer unterschiedlichen Granularität und Größe unterschiedliche Nachbarschaftsoptionen für die szenen- und schussbasierten Netzwerke. Gemäß [42] berücksichtigen wir [1–6] Nachbarn für das Szenennetzwerk und erhöhen die Nachbarschaftsgröße auf [6–12] für das Schussnetzwerk.



Abbildung 4. Verteilung der Trailer-Aufnahmen entsprechend der verschiedenen Abschnitte eines Films (Entwicklungsset), wie von TPs bestimmt. Trailer-Aufnahmen stammen aus allen Teilen des Films, sogar vom Ende, obwohl die Mehrheit vom Anfang und aus der Mitte stammt.


Tabelle 7. Prozentsatz (%) der Trailer, die mindestens eine Aufnahme enthalten, die als ein bestimmter TP-Typ am Entwicklungsset gekennzeichnet ist. Die ersten beiden TPs (die eine Einführung in die Geschichte darstellen) kommen häufiger in Trailern vor, insbesondere im Vergleich zu den letzten beiden, die oft große Spoiler enthalten.


Tabelle 8. Durchschnittliche absolute Stimmungsintensität pro Trailerabschnitt, wenn wir die Trailer in drei gleichmäßige Teile aufteilen (Entwicklungssatz).