作者:
(1) Prerak Gandhi,印度理工学院孟买分校计算机科学与工程系,[email protected],上述作者对本文的贡献相同;
(2)Vishal Pramanik,印度理工学院孟买分校计算机科学与工程系,vishalpramanik,[email protected],上述作者对本文的贡献相同;
(3) Pushpak Bhattacharyya,印度理工学院孟买分校计算机科学与工程系
我们提出我们的观察和评估。我们的任务性质使得人工评估优先于自动评估(毕竟,这是用于自动电影剧本生成!)。我们对生成的情节和场景的定性分析基于我们行业合作伙伴(知名媒体平台)的 5 位专业编剧的反馈。
表 1 显示了多个 GPT-3 绘图生成模型的自动评估分数。
我们对好莱坞注释短输入模型进行了人工评估。评估由五组 3 人组成,每组
被分配了 10 个独特的情节。这 5 个特征的评分如图 5 所示。流畅度、创造力、可爱度、连贯性和相关性的平均得分分别为3.98、3.29、2.97、2.65和2.55 。流畅度接近 4 是 GPT-3 作为语言模型的强大指标。创造力和可爱度在 3.0 左右的值是可观的。较低的 BLEU 分数支持平均创造力得分(表 1)。图 5 表明连贯性和相关性仍有很大改进空间。
MAUVE(Pillutla 等人,2021 年)值衡量神经文本与人类文本之间的差距。我们分别计算了 20 个图和 50 个图的 MAUVE 分数。两个实验的 MAUVE 分数的加权平均值为0.48 ,这相当不错。
我们的行业合作伙伴的专业编剧给出了以下观察结果:
未加注解的好莱坞情节
• 故事的构思富有创意且有趣,但结局却变得不连贯。
• 一些在开头介绍过的人物再也没有被提及。
• 输出没有描绘输入中提到的关键点或主题。
好莱坞剧情注释
• 情节更加连贯,结局更合乎逻辑。
• 仍然存在幻觉(所有模型的共同特征)。
• 更长的输入使得情节更加关注关键点。
带注释的好莱坞情节,包括类型
• 除了以上几点之外,现在生成的故事情节更加倾向于编剧想要创作的电影类型。
• 添加类型可以对模型生成的情节类型进行一些控制。
带注释的宝莱坞情节
• 输出结果的最后两段不连贯,并且在整个情节中重复出现相同的字符。
• 情节流动不够快,即情节没有进一步发展。
• 许多作品都围绕着 1990 年代的主题,其中的人物分开,然后又重新相遇。这是由于数据集偏斜,现代情节较少。
我们利用我们的数据集对 GPT-3 进行了场景生成微调。我们使用 5.1 中提到的模型生成了十个场景。附录中的图 7 显示了完整生成的场景的示例。
我们对上述模型生成的 10 个场景进行了人工评估。5 个人使用李克特量表对场景进行了评估。五个特征的评分可以在图 5 中看到。流畅性、创造力、可爱度、连贯性和相关性的平均得分分别为4.48、3.9、3.48、3.46和3.86 。所有值都高于中性标记,意味着生成的场景接近人类编写的场景。
在本节中,我们将分析 GPT-3 模型生成的场景的质量。这项分析由前面提到的媒体公司的专业编剧完成。
• 该模型产生了结构良好的场景。
• 它可以创造新的人物并编造对话,即使它们并不重要。
• 输入中的关键点可以在输出中找到。
• 有些行是重复的。
• 输出不完全连贯。