paint-brush
“黑泽明”:编剧助理:结果与分析经过@teleplay

“黑泽明”:编剧助理:结果与分析

经过 Teleplay Technology 4m2024/05/23
Read on Terminal Reader

太長; 讀書

在本文中,研究人员介绍了 KUROSAWA,这是一个用于情节和脚本生成的 AI 脚本编写工作台,解决了娱乐媒体中的自动化问题。
featured image - “黑泽明”:编剧助理:结果与分析
Teleplay Technology  HackerNoon profile picture
0-item

作者:

(1) Prerak Gandhi,印度理工学院孟买分校计算机科学与工程系,[email protected],上述作者对本文的贡献相同;

(2)Vishal Pramanik,印度理工学院孟买分校计算机科学与工程系,vishalpramanik,[email protected],上述作者对本文的贡献相同;

(3) Pushpak Bhattacharyya,印度理工学院孟买分校计算机科学与工程系

链接表

6.结果与分析

我们提出我们的观察和评估。我们的任务性质使得人工评估优先于自动评估(毕竟,这是用于自动电影剧本生成!)。我们对生成的情节和场景的定性分析基于我们行业合作伙伴(知名媒体平台)的 5 位专业编剧的反馈。

6.1. 绘图生成

6.1.1. 自动评估

表 1 显示了多个 GPT-3 绘图生成模型的自动评估分数。


图 4:上面这段文字是经过模型微调后生成的电影情节的部分示例,输入为短篇故事情节,输出为带有 4 幕结构注释的情节。

6.1.2. 人工评分

我们对好莱坞注释短输入模型进行了人工评估。评估由五组 3 人组成,每组


表 1:在 GPT-3 上微调的 5 个好莱坞情节生成模型的常见评估指标得分为 O、AS、ASG、AL、ALG(5.1)


被分配了 10 个独特的情节。这 5 个特征的评分如图 5 所示。流畅度、创造力、可爱度、连贯性和相关性的平均得分分别为3.98、3.29、2.97、2.652.55 。流畅度接近 4 是 GPT-3 作为语言模型的强大指标。创造力和可爱度在 3.0 左右的值是可观的。较低的 BLEU 分数支持平均创造力得分(表 1)。图 5 表明连贯性和相关性仍有很大改进空间。


MAUVE(Pillutla 等人,2021 年)值衡量神经文本与人类文本之间的差距。我们分别计算了 20 个图和 50 个图的 MAUVE 分数。两个实验的 MAUVE 分数的加权平均值为0.48 ,这相当不错。

6.1.3. 定性观察

我们的行业合作伙伴的专业编剧给出了以下观察结果:


未加注解的好莱坞情节


• 故事的构思富有创意且有趣,但结局却变得不连贯。


• 一些在开头介绍过的人物再也没有被提及。


• 输出没有描绘输入中提到的关键点或主题。


好莱坞剧情注释


• 情节更加连贯,结局更合乎逻辑。


• 仍然存在幻觉(所有模型的共同特征)。


• 更长的输入使得情节更加关注关键点。


带注释的好莱坞情节,包括类型


• 除了以上几点之外,现在生成的故事情节更加倾向于编剧想要创作的电影类型。


• 添加类型可以对模型生成的情节类型进行一些控制。


带注释的宝莱坞情节


• 输出结果的最后两段不连贯,并且在整个情节中重复出现相同的字符。


• 情节流动不够快,即情节没有进一步发展。


• 许多作品都围绕着 1990 年代的主题,其中的人物分开,然后又重新相遇。这是由于数据集偏斜,现代情节较少。

6.2. 场景生成

我们利用我们的数据集对 GPT-3 进行了场景生成微调。我们使用 5.1 中提到的模型生成了十个场景。附录中的图 7 显示了完整生成的场景的示例。

6.2.1. 人工评分

我们对上述模型生成的 10 个场景进行了人工评估。5 个人使用李克特量表对场景进行了评估。五个特征的评分可以在图 5 中看到。流畅性、创造力、可爱度、连贯性和相关性的平均得分分别为4.48、3.9、3.48、3.463.86 。所有值都高于中性标记,意味着生成的场景接近人类编写的场景。


图 5:用于对情节和场景生成模型进行人类评估的箱线图。

6.2.2. 定性观察

在本节中,我们将分析 GPT-3 模型生成的场景的质量。这项分析由前面提到的媒体公司的专业编剧完成。


• 该模型产生了结构良好的场景。


• 它可以创造新的人物并编造对话,即使它们并不重要。


• 输入中的关键点可以在输出中找到。


• 有些行是重复的。


• 输出不完全连贯。