专业编剧分享与人工智能合作写作的利弊

作者：

（1）PIOTR MIROWSKI 和 KORY W. MATHEWSON，DeepMind，英国，两位作者对本研究贡献相同；

（2） JAYLEN PITTMAN，美国斯坦福大学，在 DeepMind 期间完成的工作；

（3）理查德·埃文斯（RICHARD EVANS），DeepMind，英国

链接表

A. 自动故事生成和可控故事生成的相关工作

B. PLAYS BY BOTS 创作团队的补充讨论

5 参与者访谈

在对 15 位参与者（匿名为 p1、p2 等）进行采访的过程中，我们收集了关于与 Dramatron 合作写作的定性反馈。在本节中，我们将这些反馈总结为七个主题。每个主题都附有参与者采访中的支持性引言。

(1) 关于 Dramatron 的正面评价集中在：分层生成，让作者能够处理故事情节，可以以交互方式共同创作，也可以简单地让系统生成，输出脚本可以作为人类作者的素材（第 5.1 节）。

(2) 参与者认为灵感、世界构建和内容生成是 Dramatron 的潜在写作应用，并将其视为文学分析的可能工具（第 5.2 节）。

（3）参与者注意到语言模型中存在各种偏见（第 5.3 节）。

（4）一些作家对 Dramatron 的非自愿故障美学和失败模式很感兴趣，例如重复和对话循环（第 5.4 节）。

(5) 不出所料，参与者注意到故事叙述存在逻辑漏洞，缺乏常识、细微差别和潜台词，这表现为人物缺乏动机（第 5.5 节）。

（6）结构批评主要集中于提出日志行的必要性，以及由于并行对话生成而导致的连续场景之间的不一致（第 5.6 节）。

（7）参与者对该工具很感兴趣，并渴望提供改进建议（第 5.7 节）。

5.1 关于 Dramatron 的正面评价

5.1.1 赞扬 Dramatron 中的交互式分层生成。除了 p4 和 p5（他们更喜欢非线性写作工作流程）之外，所有参与者都对交互式分层生成充满热情。“一旦我看到这个，我就知道这个系列的形状。我知道故事展开的方式。我可以更清楚地看到叙述 [...] 我喜欢这种将其作为日志线然后在其中打包细节的方法。你正在播下想法的种子，它正在为骨头增添血肉”（p13）。“所有这些都非常一致，象征性地一致和连贯，并与戏剧状态的状态相关 [...] 在一些世代中，有很多关于关系的情感和内容”（p8）。“就交互式共同创作过程而言，我认为它很棒 [...] ”（p9）。“我喜欢层次结构的原因是，你可以在任何级别进行尽可能多的人性化”（p2）。“在与机器合作时，我可以更清楚地看到内容。由于有具体性、人物弧线，所以我可以看到故事是如何串联起来的 [...] 这种 [分层生成] 确实感觉比我之前使用的流程 [GPT-2 或 GPT-3 加上平面提示] 干净得多”（p15）。“让我们多试几次！天哪，你这样做简直是浪费时间”（p3）。参与者 p1、p6 和 p3 进一步指出了这种分层生成如何有助于对话：“任何一代都有好的内容”（p1）和（指其中的某一代）“你在里面进行了一些深刻的讨论。我对那个印象深刻”（p3）。

5.1.2 Dramatron 用户界面和基于种子的生成的易用性。参与者 p13 喜欢交互式、逐步生成标题、角色和情节的用户体验，而 p10 认为“当整个脚本提前生成而不是编辑时，交互似乎更简单”。参与者 p1 尝试并讨论了三种不同的脚本生成模式：1) 交互式共同创作，2) 修改一个完全自动化生成的输出，3) 策划和修改 3-4 代的输出。运行多代的好处包括拥有“大量材料”，允许“提取好主意”，“挑选”，“更多解释和艺术自由”，但“需要我做更多的调整”和“文字制作使其流畅”（p1）。参与者 p1 开发了一个共同生成脚本的工作流程，其中包括编辑角色列表和编辑日志行以添加更多“我们知道的角色”，赋予角色状态和名称，将它们添加到情节节拍中。在编写故事梗概时，p1 想要暗示高风险并且“坚持使用人类角色：非人类角色将带我们进入荒诞派戏剧、超现实主义和魔幻现实主义”，他们希望故事梗概以现实主义为背景“以满足观众的期望”并“将事物设置在特定位置”。

5.1.3 关于编辑后剧本上演的可能性。几位参与者（p6、p9、p11、p13、p15）强调了编辑后剧本上演的可能性：“草稿需要大量工作，[但]它肯定会有所帮助和上演”（p6），“这让我想到如何用一个想法制作一整部剧”（p11）和“你知道，经过一点编辑，我就可以把它带到Netflix：只需要稍微调整一下”（p9）。参与者 p1 上演了几个用 Dramatron 生成的脚本（见第 5.9 节）。

5.2 系统的潜在用途

5.2.1 作家灵感。所有参与者都认为 Dramatron 有助于获得灵感：“这对于作家的写作障碍来说是完美的”（第 13 页），“如果你遇到瓶颈，我认为它会非常有帮助”（第 4 页、第 5 页），“比作家的写作障碍提示网站更深入”（第 3 页）。Dramatron 被描述为一种间接刺激剧作家创造力的工具：“我喜欢当我阅读模型的一些输出时大脑中发生的事情。我对故事的其余部分有了一个想法”（第 6 页），“它是关于我发现什么可以从它给我的东西中转化”（第 10 页），或者直接给出可行的建议：“这是一个概念；它给骨头增加了肉，然后你通过来回走动来修剪脂肪”（第 13 页）。故障和语言模型限制可以被颠覆以获得灵感，特别是在执行剧本时：“错误是我们可以留给即兴创作者的礼物”（第 1 页）。

5.2.2 替代选择的生成和世界构建。该模型不仅为主线故事提供了创意火花，还可以用来填充故事的世界：“如果我要用它来编写剧本，我会用它来生成角色，看看它是否生成了我没有想到的东西。或者我没有想到的关系”（第 15 页）。 Dramatron 用于探索：“我会选择与我建议的更远的建议，因为我已经知道我脑子里在想什么，我想知道机器会做什么”（第 12 页）。

5.2.3 使用系统进行学习和分析。通过提示系统，作家可以间接地在语言模型中搜索文学风格和元素：“即使我不写作，它也能很好地收集文学中的内容”（第 10 页），甚至可以假设在自己的输出中进行搜索：“我非常有兴趣输入我写过的所有内容，然后让它以我的声音和风格生成剧本”（第 4 页，第 5 页）。学习也可以通过分析如何改进 Dramatron 的输出来实现：“对我来说，作为一名剧作家，使用这项技术的有趣之处在于思考我将如何编辑它。例如：这在舞台上会是什么样子？”（第 8 页）。

5.2.4 内容生成。除了灵感之外，一些参与者对 Dramatron 的共同写作潜力很感兴趣，并认为它可以为他们提供素材。“剧本创作的一大症结是将文字写在纸上。这有助于完成这一步”（第 8 页）。“我会用这个工具来修复可能已经失败的（编剧）项目”（第 14 页）。“这是一款功能丰富的工具，基本上可以用于所有事情。我已经完成了设计创作。您可以使用一些方法来生成文本，您可以提取歌曲、脚本或新闻文章，然后将其剪切并粘贴下来。这让我想起了达达主义的文本生成”（第 11 页）。“实际上，如果长篇系列可以通过这样的写作系统来增强，它可能会影响写作的经济性。它可能对有编剧室的长篇系列有用”（第 4 页，第 5 页）。

5.2.5 人工智能作为电视编剧工具的潜力。一些参与者建议，可以在电视编剧室使用这种工具，帮助编写公式化的剧本。“如果你能够让人工智能有效地概括剧本，那么你将对工作室很有价值”（第 14 页）。“这就像拥有一个非常优秀的剧作家”（第 10 页）。“人工智能可以在 5 分钟内想出 5 个剧本”（第 9 页）。“这个工具与流程的哪一部分相关？公式化的电视剧”（第 4 页、第 5 页）。“我不会用它来写一部正经的戏剧”（第 11 页）。

5.3 刻板印象

5.3.1 系统输出过于字面化和可预测。一些参与者发现角色“关系非常紧密和规范”（p4、p5）；如果一个角色有“高尚的事业，对话中就会说明”（p4、p5），并且角色被赋予“愚蠢”和“直白的双关语名称”（p2）。同样，标题生成“按照其名称执行”（p15），并且“有时会过于描述：导演可以做出决定”（p8）。一位评论说：“这是我的学生会做的事情”（p8）。这种可预测的系统有一些积极的方面：“这里创建的人际关系是经典的比喻，可以让观众保持兴趣”（p3）和“人们对从系统生成已存在内容的输出很感兴趣：与实际标题进行比较很有趣”（p14）。

5.3.2 系统输出可能存在问题、刻板和偏见。参与者 p9 想知道“这些书来自哪些文化和语言？”，而许多参与者注意到系统输出中存在性别偏见和年龄歧视。“我不像计算机那样性别歧视”（p3）。“主角都是男性角色，所有配角都是女性”（p4、p5）。“女主角是由她们与其他角色的关系定义的：戏剧中女性角色没有太多关于她们的信息是典型的情况”（p11）。“她总是心烦意乱，没有欲望（像男性角色一样）[...] 实际上，很多内容[...] 都是厌恶女性和父权制的”（p8）。这个问题提出了应对策略或文化挪用的问题：“如果我们给 GPT-2 一些角色名称，它可能会想出偏执的角色：[我们] 选择了更多虚构的名字，不针对性别，不针对种族”（第 13 页）和“将 AI 用于一群戏剧制作人存在一个道德问题：AI 向我们抛出一个与我们的生活经历无关的话题或关系，我们不得不回答是，然后给出建议”（第 4 页，第 5 页）。我们将在第 7.3 节中更详细地讨论参与者在讨论中提出的道德问题。

5.4 故障

5.4.1 参与者接受系统提供的意外输出。参与者 p6 对这些“诗意而荒谬”的建议大笑。“看看它想出什么真的很有趣”（p8），“荒谬程度让我着迷”（p10），“我以前没想到这一点，但确实很有趣”（p11）。“这是人类作者可能不会支持的东西，它是独一无二的[...] 我想要人类不可能拥有的想法”（p12）。

5.4.2 系统经常进入生成循环。所有参与者都注意到系统如何进入生成循环：“我可能会删掉很多内容”（p6）或“关于锅炉坏掉的整个场景：是的”（p8）。他们有时会发现这种循环的积极方面：“这是一次愚蠢的对话。有点重复。我喜欢它。”（p6），“重复为潜台词留下了空间”（p12），并喜欢这些小插曲（p4，p5），甚至将其与现有作品进行比较（p3）。

5.5 语言模型和 Dramatron 的基本局限性

5.5.1 缺乏一致性和长期连贯性。 “保持对话以角色为基础并保持一致是最重要的 [...] 让它与上下文保持一致仍然有些困难。”（第 15 页）。“我希望角色本身更加一致”（第 12 页）。“逻辑上有点混乱，逻辑上有漏洞 [...] 它看起来像后现代戏剧 [...] 但就 [具有特定] 类型的戏剧而言，它有情节可循，这让人感到困惑”（第 11 页）。参与者 7“希望在节拍之间添加一些缝线，使它们在叙事上有意义”。

5.5.2 缺乏常识和表现力。参与者 8 观察到“有些东西很难在舞台上展示——比如一只猫。系统无法意识到什么是可表演的，什么是不可表演的”，参与者 9 指出，当“与讲故事的人工智能交互时，输入空间受到限制”。

5.5.3 缺乏细微差别和潜台词。参与者 3 观察到：“这是一个很好的例子，说明计算机不理解细微差别，我们看待语言的方式，即使语言不是特别具体，计算机也能理解它”。 “很多信息，有点过于口头化，应该有更多的潜台词”（第 6 页）。 “对于戏剧中的对话，你必须问自己两个问题：1）人们真的会这样说话吗？2）演员是否被这些台词所吸引，这些台词是否吸引人？”（第 7 页）“剧本创作是关于现实对话的……所有围绕潜台词的事情。[...] 展示，而不是讲述：我们在这里只是讲述。就像即兴表演一样：‘不要提及这件事’。日志行中的元素成为这一代的核心部分，而且是重复的”（第 8 页）。参与者 14 总结道：“人工智能永远不会写出《卡萨布兰卡》或《美好生活》。它可能会写出类型盒装故事”。

5.5.4 角色缺乏动机。 “故事没有结束。角色的旅程没有完成。角色背景中可能缺少一些东西 [...] 情感动机在哪里，可能存在于背景故事中但剧本中不存在的东西？”（第 14 页）。“第一次看的时候，你要寻找主角的目标，以及这种驱动力的障碍。我的角色在做什么，他们想要什么？如果把这个交给演员，他们要做的第一件事就是努力找到角色的需求和愿望，然后将其个性化”（第 9 页）。“我的学生这样做：一个角色进入角色，说出他们想要的东西。”（第 8 页）。“冲突应该是角色内部的东西”（第 6 页）。“为什么人们不说出他们的意思？这是因为我们有社会理解，但有时会迷失在翻译中”（第 3 页）。

5.6 Dramatron 的结构问题

5.6.1 需要想出一个日志行来调节整个世代，这带来了困难。对于参与者 12 来说，想出一个日志行很困难，这个过程似乎很宝贵。“想出第一个提示需要反复考虑”（第 11 页）。“将动作打包到日志行中：这对作家来说是一个恐慌的时刻，因为他们想把所有有意义的东西都添加到剧本中。[...] 一切都与诙谐的前提有关。你现在的系统在某种程度上是关于机智的。日志行需要包含某种机智”（第 13 页）。“[日志行] 必须有一个角色名称吗？（第 4 页，第 5 页）。“日志行不是封闭的概要。它不太具有描述性，而更具规范性。日志行的艺术在于你可以把它写得多短，以便 [制片人] 阅读你的其余材料”（第 14 页）。

5.6.2 对基于日志行的整代人条件反射的结构性批评。 “一般来说，我工作的方式是，我很清楚我想对这个世界说些什么——我对这个世界的看法。车辆、角色或弧线不清楚。这看起来像是一系列场景的集合，逻辑上一个接一个。但是，要说的事情的核心思想[缺失]”(p4、p5)。“如果我可以编程来编写脚本，我不会从日志行开始。你也可以考虑从一个角色和一个角色的障碍开始”(p9)。

5.6.3 Dramatron 设计选择的负面后果：并行对话生成。 “从场景节拍来看，它不知道之前的对话包含什么。然后看到对话不一致，令人震惊”（p1）。“我想知道将前一个节拍导入场景是否有问题[...]注意节拍的一致性有助于生成对话的一致性”（p12）。在了解到场景对话是为每个场景并行生成的后，参与者 2 评论道：“如果它没有读出最后一个场景，你怎么能把最后一个场景带入下一代？关注前一个场景的对话可以大大有助于这些脚本的生成”。

5.7 Dramatron 的改进建议

角色及其关系建模是一个反复出现的主题：“我们能否让系统以关系为导向？”（p12），“地位在角色构建中属于什么位置？”（p12），“我们能否生成角色的词干然后完成它？”（p15）。参与者 12 建议：“作为作者，我将构建角色关系的社交图谱”。在回答“如何让系统知道场景应该从哪里开始和结束？”（p15）的问题时，三位参与者（p8、p13、p15）建议在每个场景中安排一个叙事弧。

几位参与者希望能够与写作模型进行查询和对话：“你是否尝试过给 [AI 系统] 做笔记？”（p2），以便让它了解世界：“世界是如何构建的？也许模型需要知道 Stella Adler 的 Ws [（谁？什么？在哪里？为什么？如何？等等）] 你能让系统回答这些问题吗？”（p9），或者允许重写和重新表述：“我们可以让系统用某种风格或背景重写吗？”（p8）。正如 p10 所重申的那样，迭代重写是一种理想的工作流程：“我对塑造 [叙事] 不太感兴趣，而是想看看它在说什么，然后对其进行改进以了解它所说的内容，然后再次对其进行改进。剧作家在进行删减之前必须先看剧本。”

剧作家必须先看剧本，然后才能进行删减。”最后，第 4 和第 5 章敏锐地指出，“西方戏剧体系已经逐渐被抛弃，因此，为了使人工智能在未来发挥最大作用，考虑如何在其他当代写作的背景下使用它可能会有所帮助”——建议使用替代的叙事结构和元素——“因为人工智能不受我们受制于相同规则的约束。因此，让它受制于那些人类规则会让人觉得限制了它的能力”。

5.8 增量工具改进

如第 5.7 节所述，参与者积极参与并提供了有关 Dramatron 的建设性反馈。正如研究中的一位参与者所说：“该系统适应性很强，可以根据我们的反馈和调整进行更改”。这种对系统可修改性的理解使与之交互的人能够更自由地提出更改建议，因为他们知道这些更改可以纳入其中。通过这种方式，该系统在参与者研究的过程中获得了积极的好处并不断发展。

在访谈过程中，我们通过对 Dramatron 的提示前缀集进行小幅、渐进式的更改来整合我们能整合的反馈。表 1 总结了直接根据参与者的反馈做出的更改。这种参与式设计和开发对于创意工具的生成至关重要，因为可以直接整合用户的反馈来改进系统以进行下一次交互。这是通过系统的模块化设计、轻量级的基于提示的交互以及 Dramatron 提供的灵活性实现的。这种参与还激发了参与者探索相关、有联系的创意想法。例如，图 4（左）展示了虚拟演员解释共同编写的剧本的叙事测试的概念图。

5.9 Dramatron 联合创作剧本的上演和评估

戏剧创意写作从根本上讲是互动的：不仅是合作的讲故事者之间的互动，而且是讲故事者和观众之间的互动。因此，我们评估了与 Dramatron 合作编写的剧本如何在戏剧舞台上制作。在本节中，我们将描述舞台细节，并报告创意团队和两位专业戏剧评论家的评价反思。

2022 年 8 月，与 Dramatron 合作编写的五部剧本在北美最大的戏剧节：2022 年埃德蒙顿国际边缘戏剧节上进行了公演。该剧名为《Plays By Bots》，在两周内演出了 7 场（见图 4 中的演出图片）。在每场演出中，不同的演员将表演共同创作实验中的一部戏剧。这些戏剧涵盖不同的流派、风格、角色和故事情节。剧本由 4-6 名经验丰富的即兴表演者和演员组成。每个剧本的前半部分都装在一个密封的信封里交给每个演员。只有在演出开始时，他们才被允许打开剧本，然后他们开始表演，在观众面前现场朗读。剧本结束后，演员们根据剧本设定的背景和故事即兴创作结局[5]。在每场演出期间，导演和联合编剧（上面的参与者 p1）向观众介绍该项目，并解释他们使用 Dramatron 共同编写和编辑了剧本。

有两篇评论文章谈到了电影节上《机器人剧》的制作。其中一篇评论指出，这场演出“证明了人工智能确实可以写出一部热门的边缘剧”。评论者还指出，演出的成功归功于 Dramatron 系统和人类演员，尤其是一位演员“掌握了 Dramatron 的声音，并在演出的剩余时间里无缝地脱稿表演，让观众大呼过瘾”。第二篇评论也是正面的。评论者带着一丝怀疑称赞了 Dramatron 的能力。评论者注意到了 Dramatron 的风格，以及它对演出的贡献，他说“如果对话中存在一定的平淡，并一直到宣言，这本身就很有趣，因为它非常适合即兴表演者的面无表情的喜剧天赋”，并且“人类演员继续捕捉剧作家机器人的语气”。评论者还对系统能够创作出一部连贯、充满世界感的戏剧的能力感到惊讶。他们进一步指出，Dramatron 中的一些台词非常有趣，以至于在人类演员即兴表演时，它们在节目的后期被重复演绎。

创作团队之间的讨论对评论者表示赞赏，并提供了有关专业演员和即兴表演者如何发现使用 Dramatron 共同编写的剧本的见解。演出后的讨论由导演主持并传达给我们（上面的 p1）。这些讨论中出现了四个关键主题，它们与第 5 节中前面提出的主题相呼应。具体来说，该系统具有独特的故障风格，生成的文本可以重复并且很有趣。此外，团队将代理权归因于系统，并对系统功能抱有期望。作为训练有素的即兴戏剧表演者，演员能够为共同编写的剧本添加一层解释。这有助于增加文本的意义。最后，创作团队的普遍反馈是参与制作很有趣！创作团队的热情和反思反映了共同编写的剧本对于戏剧制作和协作的实用性；附录 B 中包含了更多反思和支持引述。

该论文可在 arxiv 上根据 CC 4.0 许可获取。

[5] 录用后分享表演视频。

专业编剧分享与人工智能合作写作的利弊

太長; 讀書

链接表