作者:
(1) Prerak Gandhi,印度理工学院孟买分校计算机科学与工程系,[email protected],上述作者对本文的贡献相同;
(2)Vishal Pramanik,印度理工学院孟买分校计算机科学与工程系,vishalpramanik,[email protected],上述作者对本文的贡献相同;
(3) Pushpak Bhattacharyya,印度理工学院孟买分校计算机科学与工程系
我们使用我们的数据集对 GPT3 进行微调(参见附录 A.6 )。
我们通过使用我们的电影情节数据集对 GPT-3 进行微调创建了 5 个模型,方式如下:(i)原始(无注释)( O ):输入 - 短篇故事情节,输出 - 没有任何注释的情节,(ii)注释和短输入(AS) :输入 - 短篇故事情节,输出 - 用 4 幕结构注释的情节,(iii)注释和长输入( AL ):输入较长、更具描述性的故事情节,输出 - 用 4 幕结构注释的情节,(iv)包含类型的注释和短输入( ASG ):输入短篇故事情节和类型,输出 - 用 4 幕结构注释的情节,(v)包含类型的注释和长输入( ALG ):输入 - 长而更具描述性的故事情节以及类型,输出 - 用 4 幕结构注释的情节。
对于自动评估,我们使用BLEU (Papineni 等,2002)、 Perplexity (Jelinek 等,1977)、 ROUGE (Lin,2004)。我们还使用五点李克特量表(Likert,1932)形式的人工评估。评级系统有 1-> 非常不同意,2-> 不同意,3-> 中立,4-> 同意,5-> 非常同意。人类撰写的故事在以下 5 个特征中的每一个特征上都被认为具有 5 的评级:(1)流畅性:语法正确性;(2)连贯性:句子和段落的逻辑顺序;(3)相关性:提示中的重点是否已在输出中突出显示;(4)可爱度:衡量故事的趣味程度;(5)创造力:输出是否引入了任何新事件、人物简介或关系。
对于情节生成,我们从 50 个测试提示中生成了 50 个情节。我们将故事分成 5 组,每组 10 个,并为每组分配 3 名评估员。
对于场景生成,我们从 10 个测试提示中生成 10 个场景。我们指派了五位评估员对这十个故事进行评分。