Autoren:
(1) Prerak Gandhi, Department of Computer Science and Engineering, Indian Institute of Technology Bombay, Mumbai, [email protected], und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen;
(2) Vishal Pramanik, Department of Computer Science and Engineering, Indian Institute of Technology Bombay, Mumbai, vishalpramanik,[email protected], und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen;
(3) Pushpak Bhattacharyya, Abteilung für Informatik und Ingenieurwesen, Indian Institute of Technology Bombay, Mumbai.
Wir optimieren GPT3 mit unseren Datensätzen (siehe Anhang A.6 ).
Wir haben 5 Modelle erstellt, indem wir GPT-3 mit unserem Datensatz zu Filmhandlungen auf folgende Weise feinabgestimmt haben: (i) Original (ohne Annotationen) ( O ): Eingabe – kurze Handlungsstränge, Ausgabe – Handlungsstränge ohne jegliche Annotationen, (ii) Annotation und kurze Eingabe (AS) : Eingabe – kurze Handlungsstränge, Ausgabe – Handlungsstränge mit Annotationen in einer 4-Akt-Struktur, (iii) Annotation und lange Eingabe ( AL ): Eingabe – lange, ausführlichere Handlungsstränge, Ausgabe – Handlungsstränge mit Annotationen in einer 4-Akt-Struktur, (iv) Annotation und kurze Eingabe mit eingeschlossenen Genres ( ASG ): Eingabe – kurze Handlungsstränge und Genre, Ausgabe – Handlungsstränge mit Annotationen in einer 4-Akt-Struktur, (v) Annotation und lange Eingabe mit eingeschlossenen Genres ( ALG ): Eingabe – lange und ausführlichere Handlungsstränge zusammen mit dem Genre, Ausgabe – Handlungsstränge mit Annotationen in einer 4-Akt-Struktur.
Zur automatischen Bewertung verwenden wir BLEU (Papineni et al., 2002), Perplexity (Jelinek et al., 1977) und ROUGE (Lin, 2004). Wir verwenden auch eine menschliche Bewertung in Form einer fünfstufigen Likert-Skala (Likert, 1932). Das Bewertungssystem umfasst 1-> Stimme überhaupt nicht zu, 2-> Stimme nicht zu, 3-> Neutral, 4-> Stimme zu, 5-> Stimme voll und ganz zu. Von Menschen geschriebene Geschichten werden mit einer Bewertung von 5 für jedes der folgenden 5 Merkmale angenommen: (1) Flüssigkeit : grammatikalische Richtigkeit; (2) Kohärenz : logische Anordnung der Sätze und Absätze; (3) Relevanz : Ob die wichtigsten Punkte der Eingabeaufforderung in der Ausgabe hervorgehoben wurden; (4) Sympathie : Das Maß dafür, wie unterhaltsam die Geschichte ist; (5) Kreativität : Ob die Ausgabe neue Ereignisse, Charakterprofile oder Beziehungen einführt.
Zur Plotgenerierung generieren wir 50 Plots aus 50 Testaufforderungen. Wir teilen die Geschichten in fünf Gruppen zu je 10 Personen auf und weisen jeder Gruppe drei Bewerter zu.
Zur Szenengenerierung generieren wir aus zehn Testaufforderungen zehn Szenen. Wir beauftragen fünf Bewerter mit der Bewertung dieser zehn Geschichten.
Dieses Dokument ist auf arxiv unter der CC 4.0 DEED-Lizenz verfügbar .