作者: (1) Prerak Gandhi,印度理工学院孟买分校计算机科学与工程系,prerakgandhi@cse.iitb.ac.in,上述作者对本文的贡献相同; (2)Vishal Pramanik,印度理工学院孟买分校计算机科学与工程系,vishalpramanik,pb@cse.iitb.ac.in,上述作者对本文的贡献相同; (3) Pushpak Bhattacharyya,印度理工学院孟买分校计算机科学与工程系 链接表 摘要和简介 动机 相关工作 数据集 实验与评估 结果与分析 结论和未来工作 限制和参考 A. 附录 6.结果与分析 我们提出我们的观察和评估。我们的任务性质使得人工评估优先于自动评估(毕竟,这是用于自动电影剧本生成!)。我们对生成的情节和场景的定性分析基于我们行业合作伙伴(知名媒体平台)的 5 位专业编剧的反馈。 6.1. 绘图生成 6.1.1. 自动评估 表 1 显示了多个 GPT-3 绘图生成模型的自动评估分数。 6.1.2. 人工评分 我们对好莱坞注释短输入模型进行了人工评估。评估由五组 3 人组成,每组 被分配了 10 个独特的情节。这 5 个特征的评分如图 5 所示。流畅度、创造力、可爱度、连贯性和相关性的平均得分分别为 和 。流畅度接近 4 是 GPT-3 作为语言模型的强大指标。创造力和可爱度在 3.0 左右的值是可观的。较低的 BLEU 分数支持平均创造力得分(表 1)。图 5 表明连贯性和相关性仍有很大改进空间。 3.98、3.29、2.97、2.65 2.55 MAUVE(Pillutla 等人,2021 年)值衡量神经文本与人类文本之间的差距。我们分别计算了 20 个图和 50 个图的 MAUVE 分数。两个实验的 MAUVE 分数的加权平均值为 ,这相当不错。 0.48 6.1.3. 定性观察 我们的行业合作伙伴的专业编剧给出了以下观察结果: 未加注解的好莱坞情节 • 故事的构思富有创意且有趣,但结局却变得不连贯。 • 一些在开头介绍过的人物再也没有被提及。 • 输出没有描绘输入中提到的关键点或主题。 好莱坞剧情注释 • 情节更加连贯,结局更合乎逻辑。 • 仍然存在幻觉(所有模型的共同特征)。 • 更长的输入使得情节更加关注关键点。 带注释的好莱坞情节,包括类型 • 除了以上几点之外,现在生成的故事情节更加倾向于编剧想要创作的电影类型。 • 添加类型可以对模型生成的情节类型进行一些控制。 带注释的宝莱坞情节 • 输出结果的最后两段不连贯,并且在整个情节中重复出现相同的字符。 • 情节流动不够快,即情节没有进一步发展。 • 许多作品都围绕着 1990 年代的主题,其中的人物分开,然后又重新相遇。这是由于数据集偏斜,现代情节较少。 6.2. 场景生成 我们利用我们的数据集对 GPT-3 进行了场景生成微调。我们使用 5.1 中提到的模型生成了十个场景。附录中的图 7 显示了完整生成的场景的示例。 6.2.1. 人工评分 我们对上述模型生成的 10 个场景进行了人工评估。5 个人使用李克特量表对场景进行了评估。五个特征的评分可以在图 5 中看到。流畅性、创造力、可爱度、连贯性和相关性的平均得分分别为 和 。所有值都高于中性标记,意味着生成的场景接近人类编写的场景。 4.48、3.9、3.48、3.46 3.86 6.2.2. 定性观察 在本节中,我们将分析 GPT-3 模型生成的场景的质量。这项分析由前面提到的媒体公司的专业编剧完成。 • 该模型产生了结构良好的场景。 • 它可以创造新的人物并编造对话,即使它们并不重要。 • 输入中的关键点可以在输出中找到。 • 有些行是重复的。 • 输出不完全连贯。 该论文可 。 在 arxiv 上根据 CC 4.0 DEED 许可证获取