paint-brush
„Kurosawa“: Assistent eines Drehbuchautors: Ergebnisse und Analysevon@teleplay

„Kurosawa“: Assistent eines Drehbuchautors: Ergebnisse und Analyse

von Teleplay Technology 4m2024/05/23
Read on Terminal Reader

Zu lang; Lesen

In diesem Artikel stellen Forscher KUROSAWA vor, eine KI-Drehbuch-Workbench zur Plot- und Skripterstellung, die sich mit der Automatisierung in Unterhaltungsmedien befasst.
featured image - „Kurosawa“: Assistent eines Drehbuchautors: Ergebnisse und Analyse
Teleplay Technology  HackerNoon profile picture
0-item

Autoren:

(1) Prerak Gandhi, Department of Computer Science and Engineering, Indian Institute of Technology Bombay, Mumbai, [email protected], und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen;

(2) Vishal Pramanik, Department of Computer Science and Engineering, Indian Institute of Technology Bombay, Mumbai, vishalpramanik,[email protected], und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen;

(3) Pushpak Bhattacharyya, Abteilung für Informatik und Ingenieurwesen, Indian Institute of Technology Bombay, Mumbai.

Linktabelle

6. Ergebnisse und Analyse

Wir präsentieren unsere Beobachtungen und Bewertungen. Aufgrund der Art unserer Aufgabe hat die menschliche Bewertung Vorrang vor der automatischen Bewertung (es geht schließlich um die automatische Drehbucherstellung!). Die qualitative Analyse unserer generierten Plots und Szenen basiert auf dem Feedback von 5 professionellen Drehbuchautoren unseres Industriepartners, der bekannten Medienplattform.

6.1. Plotgenerierung

6.1.1. Automatische Auswertung

Tabelle 1 zeigt die Auto-Evaluierungsergebnisse für die verschiedenen GPT-3-Plotgenerierungsmodelle.


Abbildung 4: Der obige Absatz ist ein Teilbeispiel einer Filmhandlung, die vom Modell generiert und mit der Eingabe als kurzer Handlungsstrang und der Ausgabe als mit der 4-Akt-Struktur kommentierter Plot verfeinert wurde.

6.1.2. Menschliche Bewertung

Wir haben eine menschliche Evaluierung des annotierten Hollywood-Kurzeingabemodells durchgeführt. Die Evaluierung wurde von fünf Gruppen zu je drei Personen durchgeführt, wobei jede Gruppe


Tabelle 1: Bewertungen aus gängigen Bewertungsmaßstäben für 5 Hollywood-Plotgenerierungsmodelle, feinabgestimmt auf GPT-3 als O, AS, ASG, AL, ALG (5,1)


10 einzigartige Plots wurden zugewiesen. Die Bewertungen für die 5 Merkmale sind in Abbildung 5 dargestellt. Die Durchschnittswerte für Flüssigkeit, Kreativität, Sympathie, Kohärenz und Relevanz betragen 3,98, 3,29, 2,97, 2,65 bzw. 2,55 . Eine Flüssigkeit von fast 4 ist ein Indikator für die Leistungsfähigkeit von GPT-3 als Sprachmodell. Kreativität und Sympathie sind mit einem Wert von etwa 3,0 respektabel. Die niedrigen BLEU-Werte stützen den durchschnittlichen Kreativitätswert (Tabelle 1). Abbildung 5 zeigt, dass bei Kohärenz und Relevanz noch viel Raum für Verbesserungen besteht.


Der MAUVE-Wert (Pillutla et al., 2021) misst die Lücke zwischen neuronalem Text und menschlichem Text. Wir haben die MAUVE-Werte für 20 und 50 Diagramme separat berechnet. Der gewichtete Durchschnitt der MAUVE-Werte für die beiden Experimente beträgt 0,48 , was recht gut ist.

6.1.3. Qualitative Beobachtungen

Professionelle Drehbuchautoren unseres Industriepartners haben folgende Beobachtungen gemacht:


Nicht kommentierte Hollywood-Plots


• Der Aufbau ist kreativ und interessant, aber das Ende wird unzusammenhängend.


• Einige Charaktere, die am Anfang eingeführt werden, werden nie wieder erwähnt.


• Die Ausgabe stellt nicht die Kernpunkte oder das in der Eingabe erwähnte Thema dar.


Kommentierte Hollywood-Plots


• Die Handlungen sind viel kohärenter und die Enden logisch.


• Es sind immer noch Halluzinationen vorhanden (ein gemeinsames Merkmal aller Modelle).


• Durch die längeren Beiträge wurden die wesentlichen Punkte in den Diagrammen stärker betont.


Kommentierte Hollywood-Handlungen mit Genres


• Zusätzlich zu den oben genannten Punkten orientieren sich die generierten Handlungen nun stärker am Genre oder den Genres des Films, den der Autor erstellen möchte.


• Durch das Hinzufügen eines Genres haben Sie eine gewisse Kontrolle über die Art der vom Modell generierten Handlung.


Kommentierte Bollywood-Handlungen


• Die Ergebnisse zeigen Inkohärenz in den letzten beiden Absätzen und eine Wiederholung derselben Charaktere in der gesamten Handlung.


• Der Handlungsfluss ist nicht schnell genug, d. h. die Handlung kommt nicht viel voran.


• Viele der Ausgaben haben ein Thema aus den 1990er Jahren, in dem die Charaktere getrennt werden und sich später wiederfinden. Dies liegt an einem verzerrten Datensatz mit weniger modernen Plots.

6.2. Szenengenerierung

Wir haben GPT-3 mit unserem Datensatz für die Szenengenerierung optimiert. Wir haben zehn Szenen mit den in 5.1 genannten Modellen generiert. Abbildung 7 im Anhang zeigt ein Beispiel einer vollständig generierten Szene.

6.2.1. Menschliche Bewertungen

Wir haben 10 Szenen, die mit dem obigen Modell generiert wurden, einer menschlichen Bewertung unterzogen. 5 Personen bewerteten die Szenen mithilfe der Likert-Skala. Die Bewertungen für die fünf Merkmale sind in Abbildung 5 zu sehen. Die Durchschnittswerte für Flüssigkeit, Kreativität, Sympathie, Kohärenz und Relevanz betragen 4,48, 3,9, 3,48, 3,46 bzw. 3,86 . Alle Werte liegen über der neutralen Marke und bedeuten, dass die generierten Szenen nahe an von Menschen geschriebenen Szenen liegen.


Abbildung 5: Boxplot-Diagramme zur menschlichen Bewertung der Plot- und Szenengenerierungsmodelle.

6.2.2. Qualitative Beobachtungen

In diesem Abschnitt analysieren wir die Qualität der vom GPT-3-Modell generierten Szenen. Diese Analyse wurde von professionellen Drehbuchautoren des zuvor erwähnten Medienunternehmens durchgeführt.


• Das Modell erzeugt eine gut strukturierte Szene.


• Es können neue Charaktere erstellt und Dialoge erdacht werden, auch wenn diese unwichtig sind.


• Die wichtigsten Punkte aus der Eingabe finden Sie in der Ausgabe.


• Einige Zeilen wiederholen sich.


• Die Ausgabe ist nicht völlig kohärent.