paint-brush
Filmtrailer-Generierung mittels Task Decomposition: Versuchsaufbauvon@kinetograph

Filmtrailer-Generierung mittels Task Decomposition: Versuchsaufbau

Zu lang; Lesen

In diesem Artikel modellieren Forscher Filme als Diagramme, um Trailer zu generieren, narrative Strukturen zu identifizieren und Stimmungen vorherzusagen, und übertreffen dabei überwachte Methoden.
featured image - Filmtrailer-Generierung mittels Task Decomposition: Versuchsaufbau
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autoren:

(1) Pinelopi Papalampidi, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;

(2) Frank Keller, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;

(3) Mirella Lapata, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh.

Linktabelle

4. Versuchsaufbau

Datensätze Unser Modell wurde mit TRIPODL trainiert, einer erweiterten Version des TRIPOD-Datensatzes [41, 42], der 122 Drehbücher mit TP-Anmerkungen (auf Szenenebene) nach Silberstandard[3] und die dazugehörigen Videos[4] enthält. Für jeden Film haben wir außerdem so viele Trailer wie möglich von YouTube gesammelt, darunter offizielle und (seriöse) von Fans stammende Trailer sowie moderne Trailer für ältere Filme. Um die von unserem Algorithmus erstellten Trailer zu bewerten, haben wir außerdem ein neues zurückgehaltenes Set von 41 Filmen gesammelt. Diese Filme wurden aus dem Moviescope-Datensatz[5] [11] ausgewählt, der offizielle Filmtrailer enthält. Das zurückgehaltene Set enthält keine zusätzlichen Informationen wie Drehbücher oder TP-Anmerkungen. Die Statistiken von TRIPODL sind in Tabelle 1 dargestellt.


Verarbeitung von Film und Trailer Der in den vorherigen Abschnitten vorgestellte Modellierungsansatz geht davon aus, dass wir die Entsprechung zwischen Drehbuchszenen und Filmaufnahmen kennen. Wir erhalten diese Zuordnung, indem wir den Dialog in Drehbüchern automatisch mit Untertiteln abgleichen, indem wir Dynamic Time Warping (DTW; [36, 42]) verwenden. Wir segmentieren das Video zunächst basierend auf dieser Zuordnung in Szenen und segmentieren dann jede Szene mit PySceneDetect [6] in Aufnahmen. Aufnahmen mit insgesamt weniger als 100 Bildern sind sowohl für die Verarbeitung als auch für die Anzeige als Teil des Trailers zu kurz und werden daher verworfen.


Darüber hinaus extrahieren wir für jede Aufnahme visuelle und akustische Merkmale. Dabei berücksichtigen wir drei verschiedene Arten visueller Merkmale:


(1) Wir entnehmen ein Schlüsselbild pro Aufnahme und extrahieren Merkmale mit ResNeXt-101 [56], das für die Objekterkennung auf ImageNet [14] vortrainiert wurde. (2) Wir entnehmen Bilder mit einer Frequenz von 1 von 10 Bildern (bei längeren Aufnahmen erhöhen wir dieses Zeitintervall, da wir Speicherprobleme haben) und extrahieren Bewegungsmerkmale mit dem auf Kinetics [10] vortrainierten Two-Stream-I3D-Netzwerk. (3) Wir verwenden Faster-RCNN [18], implementiert in Detectron2 [54], um Personeninstanzen in jedem Schlüsselbild zu erkennen und behalten die vier obersten Begrenzungsrahmen pro Aufnahme mit der höchsten Konfidenz neben den jeweiligen regionalen Darstellungen. Zunächst projizieren wir alle individuellen Darstellungen auf dieselbe niedrigere Dimension und führen eine L2-Normalisierung durch. Als nächstes betrachten wir die visuelle Aufnahmedarstellung als Summe der individuellen Vektoren. Für die Audiomodalität verwenden wir YAMNet, das auf dem Korpus AudioSet-YouTube [16] vortrainiert wurde, um Audiosegmente in 521 Audioklassen (z. B. Werkzeuge, Musik, Explosion) zu klassifizieren; Für jedes in der Szene enthaltene Audiosegment extrahieren wir Merkmale aus der vorletzten Ebene. Abschließend extrahieren wir textuelle Merkmale [42] aus Untertiteln und Drehbuchszenen mit Hilfe des Universal Sentence Encoder (USE; [12]).


Zur Auswertung müssen wir wissen, welche Aufnahmen des Films Trailer-würdig sind und welche nicht. Dazu segmentieren wir den entsprechenden Trailer in Aufnahmen und berechnen für jede Aufnahme ihre visuelle Ähnlichkeit mit allen Aufnahmen des Films. Aufnahmen mit den höchsten Ähnlichkeitswerten erhalten positive Labels (d. h. sie sollten im Trailer sein). Da Trailer jedoch auch Aufnahmen enthalten, die nicht im Film sind (z. B. schwarze Bildschirme mit Text oder einfach Material, das es nicht in den endgültigen Film geschafft hat), legen wir auch einen Schwellenwert fest, unterhalb dessen wir Trailer-Aufnahmen nicht Filmaufnahmen zuordnen. Auf diese Weise erstellen wir binäre Labels nach dem Silberstandard für Filmaufnahmen.


Sentiment-Labels Da TRIPOD keine Sentiment-Annotationen enthält, erhalten wir stattdessen Silberstandard-Labels über COSMIC [17], ein auf gesundem Menschenverstand basierendes Framework mit modernster Leistung für die Klassifizierung von Sentiment und Emotionen in natürlichsprachigen Gesprächen. Konkret trainieren wir COSMIC auf MELD [43], das Dialoge aus Episoden der Fernsehserie Friends enthält und für unseren Bereich besser geeignet ist als andere Sentiment-Klassifizierungsdatensätze (z. B. [9, 29]). Nach dem Training verwenden wir COSMIC, um Sentiment-Vorhersagen auf Satzebene für die TRIPOD-Drehbücher zu erstellen. Das Sentiment einer Szene entspricht dem Mehrheitssentiment ihrer Sätze. Wir projizieren szenenbasierte Sentiment-Labels auf Aufnahmen unter Verwendung derselben One-To-Many-Abbildung, die für TPs verwendet wird.



[3] https://github.com/ppapalampidi/TRIPOD


[4] https://datashare.ed.ac.uk/handle/10283/3819


[5] http://www.cs.virginia.edu/ pc9za/research/moviescope.html


[6] https://github.com/Breakthrough/PySceneDetect