作者: (1) Prerak Gandhi,印度理工学院孟买分校计算机科学与工程系,prerakgandhi@cse.iitb.ac.in,上述作者对本文的贡献相同; (2)Vishal Pramanik,印度理工学院孟买分校计算机科学与工程系,vishalpramanik,pb@cse.iitb.ac.in,上述作者对本文的贡献相同; (3) Pushpak Bhattacharyya,印度理工学院孟买分校计算机科学与工程系 链接表 摘要和简介 动机 相关工作 数据集 实验与评估 结果与分析 结论和未来工作 限制和参考 A. 附录 5.实验与评估 我们使用我们的数据集对 GPT3 进行微调(参见 )。 附录 A.6 5.1. 绘图生成 我们通过使用我们的电影情节数据集对 GPT-3 进行微调创建了 5 个模型,方式如下:(i) (无注释)( ):输入 - 短篇故事情节,输出 - 没有任何注释的情节,(ii) :输入 - 短篇故事情节,输出 - 用 4 幕结构注释的情节,(iii) ( ):输入较长、更具描述性的故事情节,输出 - 用 4 幕结构注释的情节,(iv) ( ):输入短篇故事情节和类型,输出 - 用 4 幕结构注释的情节,(v) ( ):输入 - 长而更具描述性的故事情节以及类型,输出 - 用 4 幕结构注释的情节。 原始 O 注释和短输入 (AS) 注释和长输入 AL 包含类型的注释和短输入 ASG 包含类型的注释和长输入 ALG 对于自动评估,我们使用 (Papineni 等,2002)、 (Jelinek 等,1977)、 (Lin,2004)。我们还使用五点李克特量表(Likert,1932)形式的人工评估。评级系统有 1-> 非常不同意,2-> 不同意,3-> 中立,4-> 同意,5-> 非常同意。人类撰写的故事在以下 5 个特征中的每一个特征上都被认为具有 5 的评级:(1) :语法正确性;(2) :句子和段落的逻辑顺序;(3) :提示中的重点是否已在输出中突出显示;(4) :衡量故事的趣味程度;(5) :输出是否引入了任何新事件、人物简介或关系。 BLEU Perplexity ROUGE 流畅性 连贯性 相关性 可爱度 创造力 对于情节生成,我们从 50 个测试提示中生成了 50 个情节。我们将故事分成 5 组,每组 10 个,并为每组分配 3 名评估员。 对于场景生成,我们从 10 个测试提示中生成 10 个场景。我们指派了五位评估员对这十个故事进行评分。 该论文可 。 在 arxiv 上根据 CC 4.0 DEED 许可证获取