paint-brush
Filmtrailer-Generierung durch Aufgabenzerlegung: Verwandte Arbeitenvon@kinetograph

Filmtrailer-Generierung durch Aufgabenzerlegung: Verwandte Arbeiten

Zu lang; Lesen

In diesem Artikel modellieren Forscher Filme als Diagramme, um Trailer zu generieren, narrative Strukturen zu identifizieren und Stimmungen vorherzusagen, und übertreffen dabei überwachte Methoden.
featured image - Filmtrailer-Generierung durch Aufgabenzerlegung: Verwandte Arbeiten
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autoren:

(1) Pinelopi Papalampidi, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;

(2) Frank Keller, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;

(3) Mirella Lapata, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh.

Linktabelle

2. Verwandte Arbeiten

Frühere Ansätze zum Filmverständnis konzentrierten sich hauptsächlich auf isolierte Videoclips und Aufgaben wie die Zuordnung von Filmszenen zu Buchkapiteln [49], das Beantworten von Fragen [50], das Erstellen von Videountertiteln für Filmaufnahmen [44] und das Abrufen von Text zu Video [5]. Neuere Arbeiten [40–42] versuchen, die narrative Struktur auf hoher Ebene zu identifizieren und ganze Fernsehepisoden und Filme zusammenzufassen, wobei sie sich ausschließlich auf die Textmodalität (d. h. Drehbücher) konzentrieren.


Bestehende Ansätze zur Trailer-Generierung nutzen oberflächliche audiovisuelle Merkmale wie Hintergrundmusik oder visuelle Übergänge zwischen aufeinanderfolgenden Aufnahmen [24, 46]. Andere Arbeiten erstellen „attraktive“ Trailer mit einem graphenbasierten Modell zur Einstellungsauswahl [57] oder verwenden einen Menschen in der Schleife in Verbindung mit einem Modell, das über audiovisuelle Sentimentanalyse an Horrorfilmen trainiert wurde [47]. Der Trailer Moment Detection Dataset [53] besteht aus abendfüllenden Filmen gepaart mit offiziellen Trailern und Anmerkungen zu Schlüsselmomenten, ist aber nicht öffentlich verfügbar und enthält keine Drehbücher.


Die Wissensdestillation [3, 23] wurde ursprünglich vorgeschlagen, um Informationen aus einem größeren Lehrermodell auf ein kleineres Schülermodell zu destillieren. Die verallgemeinerte Destillation [30] bietet einen Rahmen für die Verwendung privilegierter Informationen, d. h. Informationen, die nur zum Zeitpunkt des Trainings verfügbar sind. Am relevantesten für unsere Arbeit ist die Verwendung verschiedener Modalitäten oder Ansichten desselben Inhalts [33, 34], z. B. transkribierte Erzählungen, um visuelle Darstellungen in Lehrvideos zu lernen. Wir nutzen Drehbücher als Quelle privilegierter Informationen und destillieren Wissen über Ereignisse, Charaktere und Szenen in einem Film, das wir anschließend nutzen, um trailerwürdige Aufnahmen im Video zu identifizieren.