paint-brush
“黑泽明”:编剧的助手:数据集经过@teleplay
114 讀數

“黑泽明”:编剧的助手:数据集

经过 Teleplay Technology 3m2024/05/23
Read on Terminal Reader

太長; 讀書

在本文中,研究人员介绍了 KUROSAWA,这是一个用于情节和脚本生成的 AI 脚本编写工作台,解决了娱乐媒体中的自动化问题。
featured image - “黑泽明”:编剧的助手:数据集
Teleplay Technology  HackerNoon profile picture
0-item


作者:

(1) Prerak Gandhi,印度理工学院孟买分校计算机科学与工程系,[email protected],上述作者对本文的贡献相同;

(2)Vishal Pramanik,印度理工学院孟买分校计算机科学与工程系,vishalpramanik,[email protected],上述作者对本文的贡献相同;

(3) Pushpak Bhattacharyya,印度理工学院孟买分校计算机科学与工程系

链接表

4.数据集

对于电影情节生成,我们从 Wikipedia 中获取情节。此任务的提示来自 IMDb。在 IMDb 中,此提示有两种类型。第一种是电影的简短描述(15-40 个字),而第二种是长篇故事情节,长度从 30-200 个字不等,包含有关电影中不同角色和事件的更多细节。我们还从 IMDb 收集了每部电影的类型。然后,我们使用 4 幕结构划分情节。对于场景生成,我们从 IMSDb 获取脚本,并使用场景的关键元素对其进行注释。

4.1. 绘图生成数据集

我们创建了一个包含 1000 个情节的数据集,这些情节包括宝莱坞和好莱坞情节,这些情节是使用 Python 中的 wikipedia 模块从维基百科中提取的。收集到的情节平均长度约为 700 个字。

4.1.1. 注释指南

我们使用附录 A.5 中描述的 4 幕结构手动将情节分为 4 个部分,从而对情节进行注释。我们在每个情节的末尾放置一个标签:〈one〉(第 1 幕)、〈two-a〉(第 2 幕 A 部分)、〈two-b〉(第 2 幕 B 部分)和〈three〉(第 3 幕)作为分隔符。附录中给出了情节注释的示例(图 6)。


图 2:情节数据集中的类型分布

4.1.2. 电影类型

为了使模型生成的情节更具可控性,我们在数据集中引入了电影的类型以及故事情节。我们在故事情节的开头将类型串联起来。图 2 显示了数据集中类型的分布。

4.2. 场景生成数据集

电影剧本很长。一部 2 小时的电影大约有 30,000 个单词。用于创意文本生成的语言模型(如 GPT-2 和 GPT-3)的 token 限制分别为 1024 和 2048,因此不可能一次性处理整个剧本。因此,我们将剧本分为多个场景,并手动创建它们的简短描述。这样就可以独立训练场景,而不必依赖任何先前的场景。


电影剧本由附录 A.4 中描述的多个元素组成。不同的元素增加了模型在学习区分每个元素时面临的难度。为了克服这一障碍,我们在整个剧本中标记了四个主要元素——台词、动作台词、对话和角色名称。

4.2.1. 注释指南

我们保留每个剧本中的四个主要元素——标题行、动作行、角色名称和对话——并删除任何其他类型的信息,例如页码、过渡或场景日期。四个主要元素的标记是使用环绕元素的开始和结束标签完成的,如下所示:


• 标题行:〈bsl〉...〈esl〉


• 动作线:〈bal〉...〈eal〉


• 角色名称:〈bcn〉...〈ecn〉


• 对话:〈bd〉...〈ed〉


图 3:该图描绘了电影场景的一部分,其中标注了四个主要元素。


图 3 显示了带注释的场景的示例。