Autoren:
(1) Prerak Gandhi, Department of Computer Science and Engineering, Indian Institute of Technology Bombay, Mumbai, [email protected], und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen;
(2) Vishal Pramanik, Department of Computer Science and Engineering, Indian Institute of Technology Bombay, Mumbai, vishalpramanik,[email protected], und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen;
(3) Pushpak Bhattacharyya, Abteilung für Informatik und Ingenieurwesen, Indian Institute of Technology Bombay, Mumbai.
Für die Erstellung der Filmhandlung haben wir die Handlungsstränge aus Wikipedia entnommen. Die Eingabeaufforderungen für diese Aufgabe wurden von IMDb übernommen. In IMDb kann es zwei Arten von Eingabeaufforderungen geben. Die erste ist eine kurze Beschreibung (15–40 Wörter) des Films, während die zweite eine lange Handlung ist, die zwischen 30 und 200 Wörtern variiert und viel mehr Details über die verschiedenen Charaktere und Ereignisse des Films enthält. Wir haben auch die Genres jedes Films von IMDb gesammelt. Anschließend unterteilen wir die Handlungsstränge in eine 4-Akt-Struktur. Für die Szenenerstellung nehmen wir die Drehbücher von IMSDb und kommentieren sie mit den Schlüsselelementen einer Szene.
Wir haben einen Datensatz mit 1000 Plots erstellt, der sowohl Bollywood- als auch Hollywood-Plots enthält und mithilfe des Wikipedia-Moduls in Python aus Wikipedia extrahiert wurde. Die gesammelten Plots sind im Durchschnitt etwa 700 Wörter lang.
Wir kommentieren die Plots, indem wir sie manuell in 4 Teile unterteilen und dabei die 4-Akt-Struktur verwenden, die in Anhang A.5 beschrieben ist. Am Ende jedes Akts platzieren wir ein einzelnes Tag: 〈eins〉 (Akt 1), 〈zwei-a〉 (Akt 2 Teil A), 〈zwei-b〉 (Akt 2 Teil B) und 〈drei〉 (Akt 3) als Trennzeichen. Ein Beispiel für die Kommentierung von Plots finden Sie im Anhang (Abbildung 6).
Um die vom Modell generierten Plots etwas kontrollierbarer zu machen, haben wir die Genres der Filme im Datensatz zusammen mit der Handlung eingeführt. Wir verknüpfen die Genres am Anfang der Handlung. Abbildung 2 zeigt die Verteilung der Genres im Datensatz.
Filmskripte sind sehr lang. Ein 2-Stunden-Film entspricht etwa 30.000 Wörtern. Sprachmodelle, die zur kreativen Textgenerierung verwendet werden, wie GPT-2 und GPT-3, haben Token-Limits von 1024 bzw. 2048, was es unmöglich macht, ein ganzes Skript in einem Durchgang zu verarbeiten. Daher haben wir die Skripte in Szenen unterteilt und ihre Kurzbeschreibungen manuell erstellt. Dadurch können die Szenen unabhängig trainiert werden, anstatt sich auf vorherige Szenen zu verlassen.
Filmskripte bestehen aus mehreren Elementen, die in Anhang A.4 beschrieben werden. Die unterschiedlichen Elemente machen es für die Modelle schwieriger, die einzelnen Elemente voneinander zu unterscheiden. Um dieses Hindernis zu überwinden, kennzeichnen wir das gesamte Skript mit vier Hauptelementen: Sluglines, Handlungszeilen, Dialoge und Charakternamen.
Wir behalten die vier Hauptelemente bei, die in jedem Drehbuch vorhanden sind – Sluglines, Handlungszeilen, Charakternamen und Dialoge – und entfernen alle anderen Arten von Informationen wie Seitenzahlen, Übergänge oder Szenendaten. Die Kennzeichnung der vier Hauptelemente erfolgt mithilfe von Anfangs- und Endtags, die um die Elemente herum angeordnet sind, wie unten gezeigt:
• Sluglines: 〈bsl〉...〈esl〉
• Aktionslinien: 〈bal〉...〈eal〉
• Charaktername: 〈bcn〉...〈ecn〉
• Dialog: 〈bd〉...〈ed〉
Ein Beispiel für eine kommentierte Szene ist in Abb. 3 zu sehen.
Dieses Dokument ist auf arxiv unter der CC 4.0 DEED-Lizenz verfügbar .