Autoren:
(1) Pinelopi Papalampidi, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;
(2) Frank Keller, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh;
(3) Mirella Lapata, Institut für Sprache, Kognition und Berechnung, Fakultät für Informatik, Universität Edinburgh.
Bewertungsmetriken Frühere Arbeiten [41] bewerten die Leistung von TP-Identifizierungsmodellen anhand von drei Metriken: Vollständige Übereinstimmung (TA), d.h. der Prozentsatz der TP-Szenen, die korrekt identifiziert wurden, teilweise Übereinstimmung (PA), d.h. der Prozentsatz der TP-Ereignisse, für die mindestens eine Goldstandard-Szene identifiziert wurde, und Distanz (D), d.h. der Mindestabstand in der Anzahl der Szenen zwischen dem vorhergesagten und dem Goldstandard-Szenensatz für einen gegebenen TP, normalisiert durch die Drehbuchlänge. Wir berichten die Ergebnisse mit der Metrik der teilweisen Übereinstimmung. Wir können nicht mehr die vollständige Übereinstimmung verwenden, da wir anhand von Silberstandard- (anstatt Gold-)Beschriftungen für Einstellungen (anstatt Szenen) bewerten und daher alle Einstellungen innerhalb einer Szene als gleich wichtig erachten. Wir verwenden auch nicht die Distanzmetrik, da sie sehr ähnliche Ergebnisse liefert und nicht dabei hilft, zwischen Modellvarianten zu unterscheiden.
Hyperparameter In Anlehnung an frühere Arbeiten [42] projizieren wir alle Featuretypen (also Text-, Bild- und Audio-Features) auf die gleiche niedrigere Dimension von 128. Wir stellen fest, dass größere Dimensionen die Anzahl der Parameter erheblich erhöhen und möglicherweise aufgrund der geringen Datensatzgröße zu schlechteren Ergebnissen führen.
Wir kontextualisieren Szenen (in Bezug auf das Drehbuch) und Aufnahmen (in Bezug auf das Video) mithilfe von Transformer-Encodern. Wir haben mit 2, 3, 4, 5 und 6 Ebenen im Encoder experimentiert und mit 3 Ebenen die besten Ergebnisse erzielt. Für die Feedforward-Dimension (FF) haben wir sowohl mit einer Standardgröße von 2.048 als auch mit einer kleineren Größe von 1.024 experimentiert und festgestellt, dass erstere besser funktioniert. Wir verwenden einen anderen Transformer-Encoder, um die Darstellung einer Szene aus einer Folge von Eingabesatzdarstellungen zu berechnen. Dieser Encoder hat 4 Ebenen und 1.024 FF-Dimensionen. Beide Encoder verwenden 8 Attention Heads und 0,3 Dropout.
Während der Graphenverdünnung (d. h. Auswahl der Top-k-Nachbarn) berücksichtigen wir aufgrund ihrer unterschiedlichen Granularität und Größe unterschiedliche Nachbarschaftsoptionen für die szenen- und schussbasierten Netzwerke. Gemäß [42] berücksichtigen wir [1–6] Nachbarn für das Szenennetzwerk und erhöhen die Nachbarschaftsgröße auf [6–12] für das Schussnetzwerk.
Dieses Dokument ist auf arxiv unter der Lizenz CC BY-SA 4.0 DEED verfügbar .