paint-brush
"Kurosawa" : un assistant de scénariste : résultats et analysepar@teleplay

"Kurosawa" : un assistant de scénariste : résultats et analyse

par Teleplay Technology 4m2024/05/23
Read on Terminal Reader

Trop long; Pour lire

Dans cet article, les chercheurs présentent KUROSAWA, un atelier d’écriture de scripts d’IA pour la génération d’intrigues et de scripts, traitant de l’automatisation dans les médias de divertissement.
featured image - "Kurosawa" : un assistant de scénariste : résultats et analyse
Teleplay Technology  HackerNoon profile picture
0-item

Auteurs:

(1) Prerak Gandhi, Département d'informatique et d'ingénierie, Institut indien de technologie de Bombay, Mumbai, [email protected], et ces auteurs ont contribué à parts égales à ce travail ;

(2) Vishal Pramanik, Département d'informatique et d'ingénierie, Institut indien de technologie de Bombay, Mumbai, vishalpramanik, [email protected], et ces auteurs ont contribué à parts égales à ce travail ;

(3) Pushpak Bhattacharyya, Département d'informatique et d'ingénierie, Institut indien de technologie de Bombay, Mumbai.

Tableau des liens

6. Résultats et analyse

Nous présentons nos observations et évaluations. La nature de notre tâche fait que l'évaluation humaine prime sur l'évaluation automatique (c'est pour la génération automatique de scripts de film, après tout !). L'analyse qualitative de nos intrigues et scènes générées est basée sur les retours de 5 scénaristes professionnels de notre partenaire industriel, la célèbre plateforme médiatique.

6.1. Génération de tracé

6.1.1. Évaluation automatique

Le tableau 1 montre les scores d'auto-évaluation pour les multiples modèles de génération de parcelles GPT-3.


Figure 4 : Le paragraphe ci-dessus est un exemple partiel d'intrigue de film générée par le modèle, affinée avec une entrée sous forme de court scénario et une sortie sous forme d'intrigue annotée avec la structure en 4 actes.

6.1.2. Évaluation humaine

Nous avons effectué une évaluation humaine sur un modèle d'entrée court annoté par Hollywood. L'évaluation a été réalisée par cinq groupes de 3 personnes, chaque groupe


Tableau 1 : scores issus des mesures d'évaluation communes pour 5 modèles de génération d'intrigues hollywoodiennes affinés sur GPT-3 comme O, AS, ASG, AL, ALG (5.1)


ayant reçu 10 parcelles uniques. Les notes attribuées pour les 5 fonctionnalités figurent dans la figure 5. Les scores moyens pour la fluidité, la créativité, la sympathie, la cohérence et la pertinence sont respectivement de 3,98, 3,29, 2,97, 2,65 et 2,55 . Une maîtrise de près de 4 est un indicateur de la puissance de GPT-3 en tant que modèle de langage. La créativité et la sympathie sont respectables avec une valeur d'environ 3,0. Les faibles scores BLEU soutiennent le score moyen de créativité (Tableau 1). La figure 5 indique que la cohérence et la pertinence peuvent encore être grandement améliorées.


La valeur MAUVE (Pillutla et al., 2021) mesure l'écart entre le texte neuronal et le texte humain. Nous avons calculé séparément les scores MAUVE pour 20 parcelles et 50 parcelles. La moyenne pondérée des scores MAUVE pour les deux expériences est de 0,48 , ce qui est raisonnablement bon.

6.1.3. Observations qualitatives

Les scénaristes professionnels de notre partenaire industriel ont fait les observations suivantes :


Intrigues hollywoodiennes non annotées


• La construction est créative et intéressante, mais la fin devient incohérente.


• Certains personnages introduits au début ne sont plus jamais mentionnés.


• Le résultat ne décrit pas les points clés ou le thème mentionné dans l'entrée.


Intrigues hollywoodiennes annotées


• Les intrigues sont beaucoup plus cohérentes et les fins sont logiques.


• Il y a toujours des hallucinations (une caractéristique commune à tous les modèles).


• Les entrées plus longues ont rendu les parcelles plus attentives aux points clés.


Parcelles hollywoodiennes annotées avec genres inclus


• Parallèlement aux points ci-dessus, les intrigues générées sont désormais davantage orientées vers le ou les genres du film que l'écrivain souhaite créer.


• L'ajout d'un genre donne un certain contrôle sur le type d'intrigue générée par le modèle.


Intrigues Bollywood annotées


• Les résultats montrent une incohérence dans les deux derniers paragraphes et une répétition des mêmes personnages tout au long de l'intrigue.


• Le déroulement de l'intrigue n'est pas assez rapide, c'est-à-dire que l'intrigue n'avance pas beaucoup.


• De nombreuses sorties ont un thème des années 1990, où les personnages sont séparés puis se retrouvent plus tard. Cela est dû à un ensemble de données asymétrique avec des tracés moins modernes.

6.2. Génération de scène

Nous avons affiné GPT-3 pour la génération de scènes avec notre ensemble de données. Nous avons généré dix scènes en utilisant les modèles mentionnés en 5.1. Figure 7 en annexe. montre un exemple de scène entièrement générée.

6.2.1. Évaluations humaines

Nous avons effectué une évaluation humaine sur 10 scènes générées par le modèle ci-dessus. 5 personnes ont évalué les scènes à l'aide de l'échelle de Likert. Les notes pour les cinq caractéristiques sont visibles dans la figure 5. Les notes moyennes pour la fluidité, la créativité, la sympathie, la cohérence et la pertinence sont respectivement de 4,48, 3,9, 3,48, 3,46 et 3,86 . Toutes les valeurs sont supérieures à la marque neutre et impliquent que les scènes générées sont proches des scènes écrites par l'homme.


Figure 5 : Graphiques en boîte à moustaches pour l'évaluation humaine des modèles de génération d'intrigue et de scène.

6.2.2. Observations qualitatives

Dans cette section, nous analysons la qualité des scènes générées par le modèle GPT-3. Cette analyse a été réalisée par des scénaristes professionnels de la société de médias mentionnée précédemment.


• Le modèle produit une scène bien structurée.


• Il peut créer de nouveaux personnages et fabriquer des dialogues même lorsqu'ils sont sans importance.


• Les points clés de l'entrée peuvent être trouvés dans la sortie.


• Certaines lignes sont répétitives.


• Le résultat n'est pas complètement cohérent.


Cet article est disponible sur arxiv sous licence CC 4.0 DEED.