paint-brush
“黑泽明”:编剧助理:实验与评估经过@teleplay

“黑泽明”:编剧助理:实验与评估

经过 Teleplay Technology 2m2024/05/23
Read on Terminal Reader

太長; 讀書

在本文中,研究人员介绍了 KUROSAWA,这是一个用于情节和脚本生成的 AI 脚本编写工作台,解决了娱乐媒体中的自动化问题。
featured image - “黑泽明”:编剧助理:实验与评估
Teleplay Technology  HackerNoon profile picture
0-item

作者:

(1) Prerak Gandhi,印度理工学院孟买分校计算机科学与工程系,[email protected],上述作者对本文的贡献相同;

(2)Vishal Pramanik,印度理工学院孟买分校计算机科学与工程系,vishalpramanik,[email protected],上述作者对本文的贡献相同;

(3) Pushpak Bhattacharyya,印度理工学院孟买分校计算机科学与工程系

链接表

5.实验与评估

我们使用我们的数据集对 GPT3 进行微调(参见附录 A.6 )。

5.1. 绘图生成

我们通过使用我们的电影情节数据集对 GPT-3 进行微调创建了 5 个模型,方式如下:(i)原始(无注释)( O ):输入 - 短篇故事情节,输出 - 没有任何注释的情节,(ii)注释和短输入(AS) :输入 - 短篇故事情节,输出 - 用 4 幕结构注释的情节,(iii)注释和长输入AL ):输入较长、更具描述性的故事情节,输出 - 用 4 幕结构注释的情节,(iv)包含类型的注释和短输入ASG ):输入短篇故事情节和类型,输出 - 用 4 幕结构注释的情节,(v)包含类型的注释和长输入ALG ):输入 - 长而更具描述性的故事情节以及类型,输出 - 用 4 幕结构注释的情节。


对于自动评估,我们使用BLEU (Papineni 等,2002)、 Perplexity (Jelinek 等,1977)、 ROUGE (Lin,2004)。我们还使用五点李克特量表(Likert,1932)形式的人工评估。评级系统有 1-> 非常不同意,2-> 不同意,3-> 中立,4-> 同意,5-> 非常同意。人类撰写的故事在以下 5 个特征中的每一个特征上都被认为具有 5 的评级:(1)流畅性:语法正确性;(2)连贯性:句子和段落的逻辑顺序;(3)相关性:提示中的重点是否已在输出中突出显示;(4)可爱度:衡量故事的趣味程度;(5)创造力:输出是否引入了任何新事件、人物简介或关系。


对于情节生成,我们从 50 个测试提示中生成了 50 个情节。我们将故事分成 5 组,每组 10 个,并为每组分配 3 名评估员。


对于场景生成,我们从 10 个测试提示中生成 10 个场景。我们指派了五位评估员对这十个故事进行评分。