作者:
(1) Prerak Gandhi,印度理工学院孟买分校计算机科学与工程系,[email protected],上述作者对本文的贡献相同;
(2)Vishal Pramanik,印度理工学院孟买分校计算机科学与工程系,vishalpramanik,[email protected],上述作者对本文的贡献相同;
(3) Pushpak Bhattacharyya,印度理工学院孟买分校计算机科学与工程系
我们从 IMDB 和 IMSDb 数据库中获取了所有脚本。该网站对使用其脚本进行研究有免责声明,可在此链接 https://imsdb.com/ disclaimer.html 中找到。我们公平地使用了脚本,没有侵犯版权。
在两种情况下,我们需要外部注释者的帮助:(i)手动注释脚本和(ii)根据脚本创建场景及其描述。对于第一项任务,我们寻求了 10 位注释者的帮助。他们的年龄在 21-28 岁之间,都是亚洲人。他们获得了带有注释示例的详细指南。还定期举行会议以确认他们的理解并解决他们的疑问和错误。对于第二项任务,我们寻求了两位注释者的帮助。她们都是年龄在 21-23 岁之间的亚洲女性。她们都获得了场景写作任务的详细指南。随机挑选了一些数据点并进行检查以找出并纠正概念错误。注释者拥有 STEM 和艺术学士和硕士学位。
评估指标如下:
• 困惑度 (PPL):困惑度是评估语言模型的最常见指标之一。困惑度以熵的指数计算。PPL 值越小,生成的文本的流畅度越高。
• BLEU:双语评估是许多NLP任务中常用的指标,尤其是在机器翻译领域。它衡量生成的输出与黄金标准数据之间的重叠度。虽然这个指标没有考虑模型的创造力,但我们可以使用 BLEU 推断出候选文本和参考文本之间的差异。BLEU 值越高,效果越好。
• ROUGE:面向回忆的Gisting E评估通常用于评估自动摘要。在我们的案例中,它测量生成的图和原始图之间最长的重叠序列。ROUGE 度量越高,效果越好。
• N-gram:我们通过计算重复和区别 n-gram 分数来衡量电影情节的冗余度和多样性。
电影剧本或电影剧本的格式与故事不同。剧本是一组场景。每个场景都包含几个主要部分,下面将进行讨论:
场景标题/Sluglines-此组件描述场景发生的时间和地点。可以将其视为摄像机拍摄的新场景的第一张照片。例如,INT. - RESTAURANT - NIGHT 表示场景开始于夜晚的餐厅内。Sluglines 通常以大写字母书写并左对齐。
角色名称- 每次角色要进行对话时都会提到这些名称。每个角色的名称都以大写字母显示,并居中对齐。
对话- 对话是角色说的台词。它们出现在剧本中角色名字之后,并居中对齐。
动作台词- 动作台词几乎描述了场景的所有内容。它们可以描述为每个脚本的叙述。动作台词可以出现在对话或 slugline 之后,并且左对齐。
过渡- 过渡标记从一个场景到下一个场景的转变。它们还描述场景如何结束。例如,DISSOLVE、FADE 和 CUT 是用于指示过渡的不同关键字。它们通常为大写且右对齐。
图 8 显示了剧本元素的一个示例。
随着时间的推移,人们开发了各种有助于创作故事的模板。最著名的模板之一是三幕结构(Field,1979)。这种结构将故事分为设置、对抗和结局。在这项工作中,我们使用了四幕结构,现在我们将详细描述它。
第一幕- 这是开场/介绍幕。它描述了主角的性格并简要介绍了电影的主题。这一幕以主角开始新的旅程而结束。
第二幕A - 由于第二幕跨度很大,因此可以分为两幕。这一幕通常包含一段爱情故事的开始。当主角试图适应他们的新旅程时,它也让观众感到愉悦。这一幕在电影的中间结束,这是电影的关键时刻之一,要么出现非常积极或消极的场景。
第 2B 幕- 此幕通常包含主角的垮台。反派或反派开始获得优势,主角则失去某些重要的东西或某个人。此幕以主角在跌入谷底后意识到自己的新使命而结束。
第三幕— 主角意识到自己需要做出改变,并着手在激动人心的结局中击败反派。影片最后展示了主角在开头所缺乏的令人欣喜的改变。
GPT-3 于去年被 OpenAI 视为公开可用(Brown 等人,2020 年)。其最佳模型有 1750 亿个参数,远远超过 GPT2 的 29 亿个参数。我们使用 GPT-3 对多个情节生成模型以及场景生成模型进行了微调。情节生成模型的多种组合是短提示或长提示,有或没有类型。对于上述所有组合,GPT-3 模型和超参数保持不变。我们对 GPT-3 Curie 模型进行了四个时期的微调。对于生成文本,GPT-3 提供了各种超参数来调整以更接近我们期望的结果。对于测试,我们将其他超参数设置如下:温度为 0.7,top-p 为 1,频率惩罚为 0.1,存在惩罚为 0.1,最大标记数为 900。