Autoren:
(1) Prerak Gandhi, Department of Computer Science and Engineering, Indian Institute of Technology Bombay, Mumbai, [email protected], und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen;
(2) Vishal Pramanik, Department of Computer Science and Engineering, Indian Institute of Technology Bombay, Mumbai, vishalpramanik,[email protected], und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen;
(3) Pushpak Bhattacharyya, Abteilung für Informatik und Ingenieurwesen, Indian Institute of Technology Bombay, Mumbai.
Wir haben alle Drehbücher aus den Datenbanken IMDB und IMSDb entnommen. Die Website verfügt über einen Haftungsausschluss bezüglich der Verwendung der Drehbücher für Forschungszwecke, der unter diesem Link https://imsdb.com/ disclaimer.html zu finden ist. Wir haben die Drehbücher fair und ohne Urheberrechtsverletzung verwendet.
Wir brauchten in zwei Fällen die Hilfe externer Annotatoren: (i) Manuelles Kommentieren der Drehbücher und (ii) Erstellen von Szenen und deren Beschreibungen auf Grundlage der Drehbücher. Für die erste Aufgabe nahmen wir die Hilfe von 10 Annotatoren in Anspruch. Sie waren alle Asiaten und zwischen 21 und 28 Jahre alt. Sie erhielten ausführliche Richtlinien mit Beispielen zum Kommentieren. Außerdem gab es regelmäßige Sitzungen, um ihr Verständnis zu bestätigen und ihre Zweifel und Fehler zu lösen. Für die zweite Aufgabe nahmen wir die Hilfe von zwei Annotatoren in Anspruch. Beide sind asiatische Frauen im Alter zwischen 21 und 23 Jahren. Beide erhielten ausführliche Richtlinien für die Aufgabe des Szenenschreibens. Einige Datenpunkte wurden zufällig ausgewählt und überprüft, um konzeptionelle Fehler zu finden und zu korrigieren. Die Annotatoren hatten Bachelor- und Masterabschlüsse in MINT und Kunst.
Die Bewertungsmaßstäbe werden nachfolgend beschrieben:
• Perplexität (PPL): Perplexität ist eine der am häufigsten verwendeten Metriken zur Bewertung von Sprachmodellen. Sie wird exponentiell zur Entropie berechnet. Je kleiner der PPL-Wert, desto flüssiger ist der generierte Text.
• BLEU: B i L ingual E valuation Understudy ist eine gängige Metrik in vielen NLP-Aufgaben, insbesondere im Bereich der maschinellen Übersetzung. Sie misst die Überschneidung zwischen der generierten Ausgabe und den Goldstandarddaten. Obwohl diese Metrik die Kreativität des Modells nicht berücksichtigt, können wir mithilfe von BLEU den Unterschied zwischen dem Kandidatentext und dem Referenztext ableiten. Je höher der BLEU-Wert, desto besser.
• ROUGE: Die R ecall- Oriented U nderstudy for G isting E- Bewertung wird normalerweise zur Bewertung automatischer Zusammenfassungen verwendet. In unserem Fall misst sie die längste überlappende Sequenz zwischen den generierten und ursprünglichen Diagrammen. Je höher der ROUGE-Wert, desto besser.
• N-Gramme: Wir messen die Redundanz und Vielfalt der Filmhandlungen, indem wir die N-Gramm-Werte für Wiederholung und Unterscheidung berechnen.
Ein Filmskript oder Drehbuch hat ein anderes Format als eine Geschichte. Ein Skript ist eine Gruppe von Szenen. Jede dieser Szenen besteht aus einigen Hauptkomponenten, die im Folgenden erläutert werden:
Szenenüberschriften/Sluglines – Diese Komponente beschreibt das Wann und Wo der Szene. Man kann es sich als die erste Aufnahme vorstellen, die eine Kamera von einer neuen Szene macht. Beispielsweise gibt INT. – RESTAURANT – NACHT an, dass die Szene nachts in einem Restaurant beginnt. Sluglines werden normalerweise in Großbuchstaben geschrieben und sind linksbündig.
Charakternamen - sie werden jedes Mal erwähnt, wenn ein Charakter einen Dialog äußert. Der Name jedes Charakters wird in Großbuchstaben und zentriert erwähnt.
Dialoge – Dialoge sind die Zeilen, die die Charaktere sagen. Sie erscheinen in einem Skript direkt nach dem Charakternamen und sind mittig ausgerichtet.
Handlungszeilen – Handlungszeilen beschreiben fast alles über eine Szene. Sie können als Erzählung jedes Skripts beschrieben werden. Handlungszeilen können entweder nach Dialogen oder Sluglines stehen und sind linksbündig.
Übergänge – ein Übergang markiert den Wechsel von einer Szene zur nächsten. Sie zeigen auch, wie eine Szene endet. Beispielsweise sind DISSOLVE, FADE und CUT verschiedene Schlüsselwörter, die verwendet werden, um einen Übergang anzuzeigen. Sie sind normalerweise groß geschrieben und rechtsbündig ausgerichtet.
Abbildung 8 zeigt ein Beispiel der Drehbuchelemente.
Im Laufe der Zeit wurden verschiedene Vorlagen entwickelt, die beim Erstellen von Geschichten helfen. Eine der bekanntesten Vorlagen ist die 3-Akt-Struktur (Field, 1979). Diese Struktur unterteilt eine Geschichte in Aufbau, Konfrontation und Auflösung. In dieser Arbeit haben wir die 4-Akt-Struktur verwendet, die wir nun ausführlich beschreiben.
Akt 1 – Dies ist der Eröffnungs-/Einführungsakt. Er beschreibt den Charakter des Protagonisten und führt kurz in das Thema des Films ein. Der Akt endet mit dem Beginn einer neuen Reise für den Protagonisten.
Akt 2A – Aufgrund der enormen Länge von Akt 2 kann dieser in zwei Akte unterteilt werden. Dieser Akt enthält normalerweise den Beginn einer Liebesgeschichte. Er unterhält auch das Publikum, während der Protagonist versucht, sich an seine neue Reise anzupassen. Der Akt endet als Mittelpunkt des Films, einer der kritischen Momente des Films, mit einer entweder sehr positiven oder negativen Szene.
Akt 2B – Dieser Akt beinhaltet normalerweise den Untergang des Protagonisten. Der Bösewicht oder Antagonist gewinnt an Bedeutung und der Protagonist verliert etwas oder jemanden, der von Bedeutung ist. Der Akt endet damit, dass der Protagonist seine neue Mission erkennt, nachdem er den Tiefpunkt erreicht hat.
Akt 3 – Der Protagonist hat erkannt, dass er sich ändern muss, und macht sich daran, den Antagonisten in einem spannenden Finale zu besiegen. Der Film endet damit, dass er eine willkommene Veränderung beim Protagonisten zeigt, die am Anfang fehlte.
GPT-3 wurde letztes Jahr von OpenAI als öffentlich verfügbar eingestuft (Brown et al., 2020). Sein bestes Modell hat 175 Milliarden Parameter, was viel mehr ist als die 2,9 Milliarden Parameter von GPT2. Wir haben mit GPT-3 mehrere Plotgenerierungsmodelle sowie ein Szenengenerierungsmodell feinabgestimmt. Die verschiedenen Kombinationen von Plotgenerierungsmodellen sind kurze oder lange Eingabeaufforderungen und mit oder ohne Genres. Das GPT-3-Modell und die Hyperparameter bleiben für alle oben genannten Kombinationen gleich. Wir haben das GPT-3-Curie-Modell für vier Epochen feinabgestimmt. Zur Textgenerierung bietet GPT-3 verschiedene Hyperparameter zum Abstimmen, um unseren gewünschten Ergebnissen näher zu kommen. Zum Testen haben wir andere Hyperparameter wie folgt festgelegt: Temperatur auf 0,7, Top-p auf 1, Frequenzstrafe auf 0,1, Präsenzstrafe auf 0,1 und maximale Anzahl an Token auf 900.
Dieses Dokument ist auf arxiv unter der CC 4.0 DEED-Lizenz verfügbar .