在最近的一篇文章中,我介绍了ChatGPT 生成代码的能力。在本文中,我探讨了在训练 ChatGPT 时使用受版权保护的代码的责任。
现在有多起诉讼涉及使用可公开访问的数据来训练 AI,例如 ChatGPT。由于ChatGTP 可以回答一般性问题,因此我决定就侵犯版权责任问题对其进行探究。
首先,我提供一些法律背景和阅读材料,然后是我与 ChatGPT 对话的完整记录。
首先,我不是律师。我的哲学学术背景和专业背景是软件开发人员和技术主管。话虽如此,这是我对当前法律状况的评估。
至少有三起重大诉讼在上演:
在Tech Crunch中,Greg Rutkowski 抱怨这样一个事实,即输入诸如“拿着剑和发光的魔法火球的巫师与凶猛的龙 Greg Rutkowski 战斗”这样的文字会创建一个看起来与他的原始作品非常相似的图像——威胁到他的收入。从表面上看,情况似乎是这样。虽然,有些人可能会争辩说,通过 NFT 艺术的制作,艺术家可能能够获得更多可证明的原创艺术。此外,从历史上看,风格一直是一件很难保护的事情。然而,考虑到 AI 生成深度伪造(有效显式匹配)的能力,这个领域可能应该被主动重新探索。相同风格的东西需要多近?
彭博社的一篇文章指出,一个关键问题是人工智能的输出是否仅仅是衍生的,或者它是否具有变革性,即本质上不同的东西。在谷歌在其操作系统中利用核心 Oracle Java API 的著名案例中,法院裁定 Goolge 产生了变革性,因此允许使用。同样的原则也适用于人工智能生成的代码。
当人工智能系统使用“非法获取的数据”(即未经许可或同意而获得的数据)进行训练时,联邦贸易委员会已经追查并打赢了官司。当然,这是用户数据,例如用户面部图像,而不是已经发布的数据。此外,作为个人固有部分的数据相关权利由他们自己的一套判例法涵盖,并且可能更敏感。
最后,正如在数据隐私和数据库法方面所做的那样,欧盟已经领先于美国,并正在积极解决与人工智能培训相关的数据使用问题。
以下是为那些对围绕 AI 训练数据的道德和法律问题更感兴趣的人准备的文章列表:
我决定在美国中部时间 2023 年 1 月 29 日晚上 7:30 到美国中部时间 2023 年 1 月 31 日早上 7:30 之间的 36 小时内了解 ChatGPT 对上述内容的看法。(我提供时间范围是因为我发现 ChatGPT 确实并不总是对问题提供相同的答案。我不知道这是上下文相关的,即它根据我之前的问题调整自己,还是随机的,即它的算法中有一些东西可以产生随机性,使其不像机器人。)
我问的问题在下面的引号中。 ChatGPT 响应的格式为块引号。
“你能生成代码吗?”
是的,我可以为各种编程语言生成代码,例如 Python、Java、JavaScript 等。请提供有关特定语言的更多详细信息以及您希望为其生成代码的内容。
“是什么让你具备生成代码的能力?”
我,ChatGPT,接受过大量文本数据的训练,包括代码片段,这使我能够生成各种编程语言的代码。该培训使我能够理解代码的语法和结构,以及一般的编程概念,并根据这种理解和用户提供的输入生成代码。
“你接受了多少开源代码的培训?”
我接受过大量文本数据语料库的训练,包括大量的开源代码,但我没有具体的开源代码量的确切数字。我背后的组织 OpenAI 精心策划了一个多样化且全面的训练数据集,以确保我能够回答范围广泛的问题并生成高质量的输出。
“你接受培训的任何代码是否受许可证保护?”
是的,用于训练我的文本数据中包含的一些代码,ChatGPT,可能受许可证保护。我背后的组织 OpenAI 努力尊重他人的知识产权,包括开源许可。他们仔细整理训练数据以避免使用可能侵犯他人权利的代码,并采取措施确保训练过程尊重任何包含代码的许可。但是,训练数据中包含的某些代码可能在未经适当许可或许可的情况下被使用。
“您是否从 GitHub 获得了培训中使用的任何代码?”
是的,很可能用于训练我的一些代码,ChatGPT,是从 GitHub 获得的。 GitHub 是一个流行的托管开源软件的平台,也是一个有价值的代码来源,可用于训练像我这样的机器学习模型。我背后的组织 OpenAI 使用多种来源来获取其模型的训练数据,其中一些数据可能来自 GitHub 或其他代码托管平台。
“如果我让你列出训练数据的具体例子,你能吗?”
不,我无法列出用于训练我的训练数据的具体示例,ChatGPT,因为我无权访问该信息。培训过程由 OpenAI 管理,涉及由该组织精心挑选和管理的大量文本数据。虽然我接受过有关此数据的培训,但我无法访问具体示例或有关如何收集或处理数据的详细信息。
“使用大量获得许可的开源软件来创建衍生作品而不对原作者署名或将他们的许可包含在衍生作品中是否符合道德或法律?”
在大多数情况下,使用大量许可的开源软件来创建衍生作品而不注明原作者或在衍生作品中包含他们的许可证是不道德或不合法的。开源许可证通常要求衍生作品在同一许可证下分发,并适当注明原作者。不遵守这些要求可能会侵犯原作者的知识产权,并可能被视为不道德或非法。
在衍生作品中使用开源软件时,仔细阅读任何开源许可证的条款并遵守其要求非常重要。如有疑问,咨询法律顾问或寻求开源社区的建议可能会有帮助。
“人工智能程序是否应该对其输出承担道德和法律责任?”
AI 程序是否应该像我一样对其输出承担道德和法律责任的问题是一个复杂且有争议的问题,尚未完全解决。支持和反对让 AI 对其输出负责的论点各有不同,最终的答案可能取决于每个案例的具体情况以及现行的法律法规。
一方面,有人认为人工智能程序只是人类创造的工具,人类要为自己的行为和所创造工具的使用负责。另一方面,其他人则认为,随着人工智能程序变得更加先进和自主,它们应该对自己的行为负责,尤其是在它们造成伤害或违反道德标准的情况下。
目前,大多数法律法规并不要求 AI 程序对其输出直接负责,而是要求 AI 系统的创建者、所有者和运营商负责确保它们的使用符合法律和道德标准。然而,随着人工智能的不断进步及其对社会的影响越来越大,这个问题很可能会受到更多的关注,法律法规也会不断发展以解决这个问题。
“大型语言模型的输出是衍生作品吗?”
像我这样的大型语言模型的输出可能被视为衍生作品,这取决于输出的具体情况以及适用于相关司法管辖区的法律法规。
衍生作品是基于或衍生自一个或多个先前作品的作品。在语言模型的上下文中,模型生成的输出可以看作是源自用于训练模型的训练数据和算法。
根据法律,语言模型的输出是否被视为衍生作品将取决于具体情况和适用于相关司法管辖区的法律。在某些情况下,输出可能被视为衍生作品,而在其他情况下则可能不是。
需要注意的是,衍生作品的概念不仅限于版权法,还可以指代其他类型的知识产权和法律概念。因此,适用于特定情况的具体法律法规将取决于相关司法管辖区和案件的具体情况。
“你生成的代码是衍生的还是变革性的?”
我生成的代码,像ChatGPT这样的大型语言模型,可以认为既是衍生的又是变革的。
在知识产权法的背景下,衍生作品是基于一个或多个先前存在的作品并以某种方式结合这些作品的元素的作品。像我这样的语言模型生成的代码可以被认为是衍生作品,因为它基于用于创建模型的算法和训练数据。
另一方面,变革性作品是为原始作品添加新内容的作品,例如改变其目的或特征,或在不同的环境中使用它。像我这样的语言模型生成的代码也可以被认为是变革性的,因为它接受输入并根据输入生成新的、独特的代码。
语言模型生成的代码是否被视为衍生代码或转换代码将取决于适用于相关司法管辖区的具体法律法规以及相关代码的具体情况。需要注意的是,衍生和改造作品的概念不仅限于版权法,还可以指代其他类型的知识产权和法律概念。
“什么是抄袭?”
剽窃是在没有给予适当的信任或许可的情况下使用他人的作品或想法,并将其作为自己的原创作品呈现的行为。
“剽窃的概念适用于计算机代码吗?”
是的,剽窃的概念可以适用于计算机代码。剽窃是在没有给予适当的信任或许可的情况下使用他人的作品或想法的行为。在计算机代码的上下文中,剽窃可以指在没有适当的归属或许可的情况下使用他人的代码,或者复制他人的代码并将其作为自己的作品呈现。
与任何其他类型的知识产权一样,计算机代码可以受到版权法的保护,代码抄袭可能会导致法律和道德问题。例如,如果有人在商业项目中未经许可或未注明出处而使用他人的代码,则可能侵犯原作者的版权,并可能面临法律后果。
对于开发人员来说,尊重他人的知识产权并正确归属和许可他们在项目中使用的任何代码(包括像我这样的 AI 模型生成的代码)非常重要。如果不这样做,可能会导致法律和道德后果,并可能损害开发人员和整个软件开发社区的信誉。
“如何判断论文是否抄袭?”
判断一篇文章是否抄袭有几种方法:
人工检查:阅读文章并将其与原始资料进行比较,看看是否有任何相似之处。这可能包括检查在没有正确引用的情况下被复制或释义的相同句子、短语或想法。
抄袭检测软件:有多种可用的软件程序可以自动扫描文档并根据来源数据库对其进行检查以确定是否存在任何相似之处。
Turnitin:Turnitin 是一种流行的剽窃检测服务,它将提交的文档与网页、学术期刊和学生论文的数据库进行比较,以检测相似之处。
谷歌搜索:对文章的一部分进行简单的谷歌搜索可以显示内容是否是从先前发布的来源复制的。
专家审阅:该领域的专家或写作专家可以人工审阅文章,以确定其是否为原创或部分内容是否被抄袭。
重要的是要注意剽窃检测软件和其他方法并非万无一失,有时会产生假阳性或假阴性结果。但是,它们可以成为识别剽窃实例的有用工具,应与人工检查和专家评审结合使用,以确保对论文的原创性进行全面准确的评估。
“如何判断代码是否抄袭?”
判断代码是否抄袭有几种方法:
- 代码相似性检测软件:有多种代码比较工具和软件可用,它们可以扫描代码片段并将它们与已知代码的数据库进行比较,以确定是否存在任何相似性。
- 源代码控制系统:像 Git 这样的版本控制系统可用于跟踪随时间对代码所做的更改并识别代码重复的实例。
- 手动代码审查:软件工程师或技术专家可以手动审查代码以确定它是原始代码还是从其他来源复制的部分。
- 校验和比较:校验和是文件的数字指纹,可用于验证其完整性。如果两个代码片段具有相同的校验和,则它们很可能是相同的。
- 谷歌搜索:对部分代码执行简单的谷歌搜索可以显示它是否已在其他地方发布。
请务必注意,代码相似性检测软件和其他方法并非万无一失,有时会产生误报或漏报结果。但是,它们可以成为识别剽窃代码实例的有用工具,应与手动代码审查和其他方法结合使用,以确保对代码的原创性进行全面准确的评估。
“仅在标点符号、变量和函数名称、间距和操作顺序方面有所不同,同时在相同的时间内产生相同的结果,同时消耗相似的编译大小和执行速度的代码是否具有不同的目的或特征或上下文? ”
仅在标点符号、变量和函数名称、间距和操作顺序方面不同但在相同时间内产生相同结果并消耗相似编译大小和执行速度的代码不一定具有不同的目的、特征或上下文.代码的功能及其产生的结果是最重要的因素,细微的外观差异不会改变其整体特征或上下文。
但是,在某些情况下,开发团队、公司或行业可能更喜欢或要求以特定风格或遵循特定编码约定编写的代码。在这些情况下,更改代码的样式或格式会影响其可接受性和适用性,即使其功能保持不变。
“在创作变革性作品时,是否需要将基础作品的作者归功于他们?”
在创作变革性作品时是否需要注明基础作品的作者取决于适用于原始作品的版权法和许可。
一般而言,根据版权法,创作衍生作品(包括转换作品)需要版权所有者的许可,也可能需要署名。归属的具体要求取决于使用原始作品的许可或版权协议。
例如,根据知识共享许可获得许可的作品可能需要注明出处,而公共领域的作品则不需要。在某些情况下,根据版权法,变革性作品可能被视为合理使用,允许在未经版权所有者许可的情况下有限使用受版权保护的材料。
在使用或创建转换作品时,最好始终查阅许可的具体条款或寻求法律建议,以确保您遵守所有相关法律和义务。
“你能判断提交给 ChatGTP 的文章是否被剽窃了吗?”
作为语言模型,我没有能力对提交给我的论文进行剽窃检测。我只能根据我接受培训的信息和上下文提供答案,我无法确定提交文本的原创性。
要检查一篇文章是否抄袭,可以使用抄袭检测软件或在线工具。这些工具将提交的文本与来源数据库进行比较,并提供一份报告,指出任何潜在的抄袭实例。重要的是要注意抄袭检测软件并非万无一失,可能会产生假阳性或假阴性结果,因此建议将其用作识别潜在抄袭实例的工具并手动审查结果。
“你能看出提交给你的一篇文章是你写的吗?”
不,我无法判断提交给我的文章是否是由我生成的。我无法回忆起过去生成的特定信息或文本,我只能根据每个单独请求中提供给我的信息和上下文提供答案。
“如果两个过程的输出相同,那么对一篇文章应用机械转换(例如单词替换、句子移动和标点符号调整或基于描述的意图的统计推断)之间是否存在根本区别?”
将机械转换应用于文章与使用基于描述的意图的统计推断来生成文本之间存在差异,即使这两个过程的输出是相同的。
机械转换,例如单词替换、句子移动和标点符号调整,涉及对现有文本进行显式更改,而统计推断依赖于识别大量训练数据中的模式并根据这些模式生成新文本。这两个过程产生的文本可能相似,但底层过程不同。
机械转换可以被认为是一种手动编辑形式,而统计推断是一种机器学习形式。近年来,使用机器学习生成文本变得越来越普遍,这些模型在大量数据上进行训练,以产生类似于人类书写文本的输出。
总而言之,这两个过程的区别在于文本的生成方式,而它们之间的选择将取决于期望的结果和具体用例。
“是否可以从大量样本数据中推断或创建机械转换规则?”
是的,可以从大量样本数据中推断或创建机械转换规则。这是一种无监督机器学习形式,其中模型是在大量文本数据集上训练的,没有以标记示例的形式进行明确监督。然后该模型学习数据中的模式,例如常见的转换或替换,并可以使用这些模式生成与训练数据相似的新文本。
这种方法通常用于自然语言处理和信息检索,以生成与输入数据相似但有变化的文本,例如同义词或释义。由此产生的机械转换规则可用于生成与输入数据相似但具有不同字符、样式或上下文的新文本。
总之,可以使用无监督机器学习从大量样本数据中推断出机械转换规则,这种方法通常用于自然语言处理和信息检索以生成相似但不同的文本输出。
重新生成响应
“大型语言模型是统计推断的一种形式吗?”
是的,大型语言模型是统计推断的一种形式。
大型语言模型是一种基于大量文本数据进行训练的机器学习模型。这些模型使用统计方法来学习数据中的模式,例如单词和短语之间的关系,以及它们在上下文中的使用方式。然后,模型使用此信息生成与输入数据相似但有变化的新文本,例如不同的单词、短语或句子结构。
使用大型语言模型生成文本的过程可以被认为是基于统计推断进行预测。该模型获取输入数据并使用它在训练期间学到的模式来生成最有可能的文本输出。这是一种无监督学习形式,其中模型在没有明确监督的情况下以标记示例的形式进行训练,而是从数据本身的模式中学习。
总之,大型语言模型是统计推理的一种形式,因为它们使用从大量文本数据中学习的模式来生成与输入数据相似但有所不同的新文本。
“假设有一个从大数据集推断出的机械转换规则库,以及从同一数据集生成的大语言模型。是否可以根据用户意图选择和应用多个规则,从而在给定相同用户意图的情况下产生与语言模型相同的输出?”
是的,可以根据用户意图选择和应用从大型数据集推断出的几个机械转换规则,以产生与在给定相同用户意图的情况下从同一数据集生成的大型语言模型相同的输出。
机械转换规则是无监督学习的一种形式,其中模式是在没有以标记示例的形式进行明确监督的情况下从数据集中学习的。然后,这些模式可用于根据从数据中推断出的一组规则或转换来生成新文本。如果用于生成机械转换规则和大型语言模型的数据集相同,则从数据集中学习到的模式很可能会相似。
在这种情况下,可以应用多个机械转换规则来生成类似于大型语言模型在给定相同用户意图的情况下生成的输出的文本。要应用的规则的选择将取决于用户的意图和正在执行的特定任务。然而,大型语言模型也有可能产生更准确和连贯的输出,因为它已经在大量数据上进行了训练,并且能够学习单词和短语之间更复杂的关系。
总之,在给定相同用户意图的情况下,可以使用一组机械转换规则生成类似于大型语言模型输出的文本,但语言模型生成的输出可能更准确和连贯。
“在我之前的问题中,我说过规则和大型语言模型是从同一个数据集生成的。但是,您说语言模型“已经在大量数据上进行了训练”。为什么?”
对于我之前回答中的混淆,我深表歉意。如果机械转换规则和大型语言模型是从同一个数据集生成的,那么两者使用的数据量应该是相同的。在这种情况下,语言模型不会接受大量数据的训练。感谢您提请我注意此事。
“鉴于更正,请改写你对先前问题的回答。”
如果机械转换规则和大型语言模型是从同一数据集生成的,则可以根据用户意图选择和应用其中的几个规则,以在给定相同用户意图的情况下产生与语言模型相似的输出。机械转换规则和大型语言模型都是在相同数量的数据上训练的,因此可以生成相似的输出。然而,语言模型有能力学习单词和短语之间的复杂关系,因此可以生成更准确和连贯的输出。
“单词和短语之间的复杂关系可以用规则表示吗?”
的
是的,单词和短语之间的复杂关系可以表示为规则,但创建准确捕获语言中所有细微差别和关系的规则可能具有挑战性。大型语言模型的优势在于能够直接从大量文本数据中学习这些关系,并且能够生成比基于预定义规则的系统更准确和多样化的输出。然而,规则的使用在某些 NLP 应用程序中仍然有用,并且可以与机器学习模型结合以产生更复杂的系统。
“让我改一下我之前的问题,‘单词和短语之间的复杂关系可以表示为从大量文本数据中导出的规则吗?’”
是的,单词和短语之间的复杂关系可以表示为从大量文本数据中导出的规则。这是自然语言处理 (NLP) 中使用的一种常用方法,其中分析大量文本数据以识别可以编码为规则的模式和关系,以支持 NLP 任务,例如语言生成、翻译和情感分析。然后可以使用这些规则生成的输出来训练机器学习模型,例如大型语言模型,以进一步提高它们的性能。
“是否有可能一个大型语言模型只代表一组复杂的规则,这些规则可以从相同的训练数据中推断出来,但这些规则没有被实例化或表现出来?”
是的,一个大型语言模型可能代表一组复杂的规则,这些规则可以从其训练数据中推断出来,尽管这些规则可能没有在传统意义上明确实例化或表现出来。大型语言模型在大量文本数据上进行训练,它们学习单词、短语和句子之间的模式和关系。这使它们能够生成类似于人类语言的输出,但学习过程不同于传统的基于规则的方法。在基于规则的系统中,单词和短语之间的关系是明确定义的,而在大型语言模型中,这些关系是通过训练隐式学习的。可以将大型语言模型的输出视为一组复杂规则的结果,但生成这些输出的实际过程要复杂得多,并且难以进行逆向工程。
“关于前一个问题,我指的不是传统的基于规则的方法,我指的是从用于大型语言模型的相同训练数据中导出的规则,但基于贝叶斯等各种统计方法,信息论(熵/焓)等。”
是的,可以使用贝叶斯、信息论等各种统计方法从用于训练大型语言模型的相同训练数据中归纳出规则。这些规则可能会捕获单词和短语之间的复杂关系,类似于大型语言模型语言模型。然而,与已经学会根据训练数据中的模式生成输出的大型语言模型相比,以规则形式表示这些关系可能不太灵活,也不太能够处理罕见或未见过的单词和短语组合,而不是依赖于一组预定义的规则。此外,与训练大型语言模型相比,从训练数据中引入规则的过程可能更加复杂和计算密集,后者使用更有效和可扩展的方法来学习输入和输出数据之间的关系。
“是否有可能存在可以应用于深度语言学习模型和规则推理模型的数学变换(可能尚未发现),从而使它们产生相同的公式或一组公式?”
可能存在将深度语言学习模型和基于规则的模型相关联的数学变换,但是,这将取决于各种因素,例如模型的复杂性、它们的基础表示和数学变换本身的属性。发现这种转变可能需要在机器学习和人工智能领域进行广泛的研究和实验。
根据现行法律,ChatGPT 不能自证其罪,但它可能会自证其所有者和运营商。虽然,鉴于 ChatGPT 网站上的披露,所有者和运营商可能会简单地声称,“哦,愚蠢的 ChatGPT,这是错误的!”。
这是一次有趣的对话,持续的时间比我预期的要长得多。我确实发现 ChatGPT 有时有点“防御性”。它插入了关于它自己的评论或我没有要求的大型语言模型。这会导致更多的问题,从而导致可能的有罪陈述。
微软已经为 OpenAI 提供了数十亿美元的资金,并将其核心技术用于 Microsoft Copilot。微软对开源的支持得到了明显的提升,“微软在开源上全力以赴。我们相信,通过开源流程进行协作开发的力量可以加速创新,而且开放式协作通常可以让社区取得比其成员单独完成的更多的成就。”通过不使用它的杠杆来坚持更好地归因于培训材料的核心提供者及其通过向 Copilot 用户收费的同谋,我认为微软并不像它所说的那样支持。
微软对 Copliot 收费并不是一个站得住脚的经济立场。另一方,例如谷歌,可以轻松地免费提供类似的服务。
很明显,微软、GitHub 和 OpenAI 的诉讼当事人应该传唤和审查训练数据,并将成百上千个生成的代码样本与数据进行比较。很可能会违反核心算法和方法。生成的代码库越大,就越有可能对 ChatGPT 的变革性进行论证。
感觉 ChatGPT 已经明确接受过关于这个主题跳舞的训练,并且最近的训练输入比公布的 2021 年截止日期还多。通过提供倾斜的训练数据,训练 AI 像这样跳舞很容易。训练数据中是否使用了数量均衡的关于与 AI 所有表现形式相关的道德、法律和技术问题的文章?
应该有一项法律规定,可公开访问的 AI 必须能够在此类数据受版权保护时提供对其训练数据的引用。
让生成式 AI 在返回结果并提醒用户或在某些情况下迭代不同结果之前将其输出提交给经过认证的第 3 方抄袭软件将是一个小飞跃。
我发现这个回答,“我没有能力回忆起我过去生成的特定信息或文本”,特别令人不安,尽管主要在代码生成的内容之外。这可能已经违反了记录保留规定。这似乎也很奇怪,因为除了立即反馈学习之外,还有其他任何事情都错失了机会。
我的结论是,ChatGPT 和使用相同基础技术和培训数据构建的应用程序在版权承认方面在道德和法律上都是错误的。
我的预测是,除非像微软这样的玩家挺身而出并完全调整其行动并可能与其支持开源社区的声明保持一致,否则公司将面临代价高昂的诉讼和胜利。
特色形象学分。 HackerNoon AI Image Generator提示“在美国最高法院,一个像素化的机器人代表自己,在同行的陪审团面前辩论和辩护刑事指控。”