当我们冲向一个充满人工智能的未来时,许多评论员都在质疑我们是否走得太快了。科技巨头、研究人员和投资者似乎都在疯狂地开发最先进的人工智能。
但他们是否考虑了风险, 担心者问?
这个问题并非完全没有实际意义,请放心,有数百位敏锐的头脑在考虑反乌托邦的可能性——以及避免它们的方法。
但事实是,未来是未知的,这种强大的新技术的影响与互联网出现时的社交媒体一样难以想象。
有好有坏,但我们的未来会有强大的人工智能系统,我们的子孙后代的未来会有更强大的人工智能。无法阻止,但可以理解。
我与 OpenAI 的联合创始人Ilya Stutskever谈到了这项新技术,OpenAI 是一家非营利性人工智能研究机构,其衍生公司很可能成为地球上最赚钱的实体之一。
我与 Ilya 的谈话是在 GPT-4 发布之前不久,GPT-4 是 OpenAI 巨型人工智能系统的最新迭代,它已经消耗了数十亿字的文本——超过任何人一生可能阅读的文本。
GPT 代表 Generative Pre-trained Transformer,理解这个 Homeric Polyphemus 的三个重要词。 Transformer 是巨人核心算法的名称。
预训练指的是用海量的文本语料库对庞然大物进行教育,教它语言的基本模式和关系——简而言之,教它理解世界。
生成意味着人工智能可以从这个知识库中创造出新的想法。
人工智能已经接管了我们生活的许多方面。但是即将到来的要先进得多,功能强大得多。我们正在进入未知领域。值得花点时间考虑一下这意味着什么。
但同样重要的是不要反应过度,不要像乌龟一样从现在照耀在我们身上的灿烂阳光中退缩。在荷马的史诗《奥德赛》中,独眼巨人波吕斐摩斯将奥德修斯和他的船员困在他的洞穴中,打算吃掉他们。
但奥德修斯设法使巨人失明并逃脱。人工智能不会吃掉我们。
Ilya Sutskever 是 OpenAI 的联合创始人兼首席科学家,也是大型语言模型GPT-4及其公共后代 ChatGPT 背后的主要思想之一,我认为说它正在改变世界并不夸张。
这不是 Ilya 第一次改变世界。他是 AlexNet 的主要推动者,这个卷积神经网络在 2012 年以惊人的表现震惊了科学界并掀起了深度学习革命。
以下是我们谈话的编辑记录。
CRAIG: Ilya,我知道你出生在俄罗斯。是什么让你对计算机科学感兴趣,如果那是最初的冲动,或者是神经科学或其他什么。
伊利亚:的确,我出生在俄罗斯。我在以色列长大,十几岁时,我的家人移民到了加拿大。我的父母说我从小就对 AI 很感兴趣。我也很受意识的激励。我对它感到非常不安,我对可以帮助我更好地理解它的事物感到好奇。
在我 17 岁的时候,我很早就开始与 Geoff Hinton [深度学习的创始人之一,GPT-4 背后的人工智能,当时是多伦多大学的教授] 一起工作。因为我们搬到了加拿大,我立即能够加入多伦多大学。我真的很想做机器学习,因为那似乎是人工智能最重要的方面,在当时是完全无法接近的。
那是2003年,我们想当然地认为计算机可以学习,但是在2003年,我们想当然地认为计算机不能学习。当时 AI 的最大成就是深蓝,[IBM] 的国际象棋引擎 [在 1997 年击败了世界冠军加里卡斯帕罗夫]。
但是,你有这个游戏,你有这个研究,你有这种简单的方法来确定一个位置是否比另一个更好。它真的不觉得这可能适用于现实世界,因为没有学习。学习是个大谜团。我真的对学习很感兴趣。幸运的是,Geoff Hinton 是大学的教授,我们几乎立刻就开始了合作。
那么智力究竟是如何运作的呢?我们怎样才能使计算机稍微智能一点呢?我有一个非常明确的意图,即为 AI 做出很小但真正的贡献。所以,动机是,我能理解智力是如何工作的吗?并为此做出贡献?所以这是我最初的动机。那几乎是 20 年前的事了。
简而言之,我意识到,如果你在一个足够大的数据集上训练一个大型神经网络,一个大型深度神经网络,该数据集指定了人们所做的一些复杂任务,比如视觉,那么你必然会成功。它的逻辑是不可简化的;我们知道人脑可以解决这些任务,并且可以快速解决。而人脑只是一个神经元速度较慢的神经网络。
因此,我们只需要采用一个较小但相关的神经网络并在数据上对其进行训练。计算机内部最好的神经网络将与我们大脑中执行此任务的神经网络有关。
CRAIG: 2017 年,“Attention Is All You Need”论文发表,介绍了自注意力和转换器。 GPT 项目是从什么时候开始的?对变压器有一些直觉吗?
ILYA:因此,就上下文而言,从早期开始,在 OpenAI,我们就在探索预测下一件事就是你所需要的想法。我们当时正在用更有限的神经网络探索它,但希望如果你有一个可以预测下一个单词的神经网络,它将解决无监督学习。所以回到 GPT 之前,无监督学习被认为是机器学习的圣杯。
现在它已经完全解决了,甚至没有人谈论它,但它是一个圣杯。这非常神秘,所以我们正在探索这个想法。我真的很兴奋,因为足够好地预测下一个词会给你无监督学习。
但是我们的神经网络无法胜任这项任务。我们使用的是递归神经网络。当 transformer 出来时,实际上是论文一出来,实际上是第二天,对我来说,对我们来说,很明显,transformer 解决了循环神经网络的局限性,即学习长期依赖性。
这是个技术活。但我们立即切换到变形金刚。因此,刚开始的 GPT 工作在 transformer 上继续进行。它开始工作得更好,你让它变得更大,然后你继续让它变得更大。
这就是最终导致 GPT-3 以及我们今天所处的位置的原因。
CRAIG:大型语言模型存在的局限性在于,它们的知识包含在它们接受训练的语言中。大多数人类知识,我想每个人都同意,是非语言的。
他们的目标是满足提示的统计一致性。他们对语言所涉及的现实没有基本的理解。我向 ChatGPT 询问了关于我自己的情况。它承认我是一名记者,我曾在这些不同的报纸工作过,但它一直在谈论我从未赢得过的奖项。这一切读起来都很漂亮,但很少与潜在的现实相关。在您今后的研究中,是否正在采取措施解决这个问题?
ILYA:对于我们今天看到的这些限制在两年后仍然存在,我们有多大信心?我没那么自信。关于问题的一部分,我还想发表另一条评论,即这些模型只是学习统计规律,因此它们并不真正了解世界的本质。
我的看法与此不同。换句话说,我认为了解统计规律远比表面上看到的要重要。
预测也是一种统计现象。然而,要进行预测,您需要了解产生数据的底层过程。您需要越来越多地了解产生数据的世界。
随着我们的生成模型变得非常好,我声称,它们将对世界及其许多微妙之处有惊人的理解。这是通过文字镜头看到的世界。它试图通过将世界投射到人类在互联网上表达的文本空间上,来越来越多地了解世界。
但是,这个文本已经表达了世界。我会给你举个例子,一个最近的例子,我认为这很能说明问题,也很吸引人。我已经看到与 [ChatGPT] 的这种非常有趣的交互,当用户告诉它它认为 Google 是比 Bing 更好的搜索引擎时 [ChatGPT] 变得好斗和咄咄逼人。
思考这种现象的好方法是什么?这是什么意思?你可以说,它只是预测人们会做什么,人们会这样做,这是事实。但也许我们现在已经达到了这样一个地步,心理学的语言开始被用来理解这些神经网络的行为。
现在让我们谈谈限制。这些神经网络确实有产生幻觉的倾向。那是因为语言模型对于了解世界非常有用,但对于产生良好的输出却不太有用。这有各种技术原因。出于技术原因,语言模型可以更好地了解世界,学习令人难以置信的想法、概念、人、存在的过程的表示,但它的输出并不像人们希望的那样好,或者更确切地说尽可能好。
ILYA:这就是为什么,例如,对于像 ChatGPT 这样的语言模型系统,有一个额外的强化学习训练过程。我们称之为从人类反馈中强化学习。
可以说,在预训练过程中,你想要了解这个世界的一切。通过从人类反馈中强化学习,我们关心输出。我们说,任何时候输出不合适,都不要再这样做了。每次输出没有意义时,不要再这样做了。
它可以快速学习以产生良好的输出。但这是输出的水平,在语言模型预训练过程中不是这样。
现在关于幻觉,它有不时编造东西的倾向,这也极大地限制了它们的用处。
但我非常希望通过从人类反馈步骤简单地改进后续的强化学习,我们可以教它不要产生幻觉。现在你可以说它真的会学习吗?我的答案是,让我们找出答案。
我们今天做事的方式是,我们雇人来教我们的神经网络如何表现,教 ChatGPT 如何表现。你只是和它互动,它从你的反应中看到,它会推断,哦,那不是你想要的。您对其输出不满意。
因此,输出不好,下次应该做些不同的事情。我认为这种方法很有可能能够完全解决幻觉问题。
CRAIG: Yann LeCun [Facebook 的首席 AI 科学家和另一位深度学习的早期先驱] 认为,大型语言模型中缺少的是语言模型可以参考的非语言的底层世界模型。我想听听您对此有何看法,以及您是否对此进行了探索。
ILYA:我回顾了 Yann LeCun 的提案,其中有很多想法,它们以不同的语言表达,与当前的范式可能存在一些细微差异,但在我看来,它们并不是很重要。
第一个主张是希望系统具有多模态理解,而不仅仅是从文本中了解世界。
我对此的评论是,多模态理解确实是可取的,因为你对世界了解更多,对人了解更多,对他们的状况了解更多,因此系统将能够理解它应该完成的任务解决,人们和他们想要的更好。
我们在这方面做了很多工作,最引人注目的是我们已经完成的两个主要神经网络的形式。一种叫做 Clip,一种叫做 Dall-E。并且都朝着这个多式联运的方向发展。
但我也想说,我不认为这种情况是二元的——或者,如果你没有远见,如果你不能从视觉上或视频中理解世界,那么事情就不会成功。
我想证明这一点。所以,我认为有些东西从图像和图表等中更容易学习,但我声称你仍然可以仅从文本中学习它们,只是速度更慢。我会给你举个例子。考虑颜色的概念。
当然,不能仅从文本中学习颜色的概念,但是当您查看嵌入时——我需要绕个小弯路来解释嵌入的概念。每个神经网络都通过作为高维向量的表示、“嵌入”来表示单词、句子和概念。
我们可以查看那些高维向量,看看它们与什么相似;网络如何看待这个概念或那个概念?因此,我们可以查看颜色的嵌入,它知道紫色与蓝色的相似度高于红色,红色与橙色的相似度高于紫色。它只从文本中知道所有这些事情。怎么可能?
如果你有视力,颜色之间的区别就会跳到你身上。你会立即察觉到它们。而对于文本,它需要更长的时间,也许你知道如何说话,并且你已经理解了句法、单词和语法,只是很久以后你才真正开始理解颜色。
因此,这将是我关于多模式必要性的观点:我声称它不是必需的,但它绝对有用。我认为这是一个很好的追求方向。我只是没有看到这种非此即彼的说法。
因此,[LeCun] 论文中的提议声称,最大的挑战之一是预测具有不确定性的高维向量。
但我发现一件事令人惊讶,或者至少在论文中没有得到承认,那就是当前的自回归变压器已经具有该属性。
我给你举两个例子。一个是给定书中的一页,预测书中的下一页。接下来可能有很多可能的页面。这是一个非常复杂的高维空间,他们处理得很好。这同样适用于图像。这些自回归转换器完美地处理图像。
例如,与 OpenAI 一样,我们已经完成了 iGPT 的工作。我们只是拿了一个转换器,我们将它应用到像素上,它工作得非常好,它可以以非常复杂和微妙的方式生成图像。对于 Dall-E 1,同样的事情又发生了。
因此,我认为这篇论文对当前方法无法处理预测高维分布的地方做出了强烈评论的部分——我认为它们绝对可以。
CRAIG:关于让一大群人类训练师使用 ChatGPT 或大型语言模型来通过强化学习对其进行有效指导的想法,从直觉上讲,这听起来不像是一种有效地教授模型有关底层知识的方法它的语言的现实。
ILYA:我不同意问题的措辞。我声称我们的预训练模型已经知道他们需要知道的关于潜在现实的一切。他们已经掌握了这种语言知识,并且对世界上存在的产生这种语言的过程也有了很多了解。
大型生成模型从他们的数据中学到的东西——在这种情况下,大型语言模型——是产生这些数据的现实世界过程的压缩表示,这不仅意味着人和他们的想法,他们的感受,还有一些关于人们所处的条件以及他们之间存在的相互作用。
一个人可能处于的不同情况。所有这些都是压缩过程的一部分,该过程由神经网络表示以生成文本。语言模型越好,生成模型越好,保真度越高,它就越能捕捉到这个过程。
现在,教师大军,正如你所说,确实,那些教师也在使用 AI 辅助。那些老师不是他们自己的。他们使用我们的工具工作,而这些工具完成了大部分工作。但是您确实需要监督;您需要让人们审查行为,因为您希望最终达到非常高的可靠性水平。
确实有很多动机让它尽可能高效和精确,以便生成的语言模型表现得尽可能好。
ILYA:是的,有这些人类教师正在教授模型期望的行为。而他们使用人工智能系统的方式也在不断增加,所以他们自身的效率也在不断提高。
这与教育过程没有什么不同,如何在世界上表现良好。
我们需要进行额外的训练,以确保模型知道幻觉永远都不好。正是强化学习人类教师循环或其他一些变体来教授它。
这里的东西应该工作。我们很快就会知道。
克雷格:这是要去哪里?什么,你现在专注于研究?
ILYA:我不能详细谈论我正在进行的具体研究,但我可以粗略地提及一些研究。我非常感兴趣的是让这些模型更可靠、更可控,让它们从课程数据中学习得更快,指令更少。让他们确实不会产生幻觉。
CRAIG:我听说您评论说我们需要更快的处理器才能进一步扩展。模型的扩展似乎没有尽头,但训练这些模型所需的能力,我们正在达到极限,至少是社会接受的极限。
ILYA:我不记得你所指的是我发表的确切评论,但你总是想要更快的处理器。当然,功率一直在上升。一般来说,成本是上升的。
我要问的问题不是成本是否很大,而是我们从支付这个成本中得到的东西是否超过了成本。也许你付出了所有这些成本,却一无所获,那么,是的,那不值得。
但是如果你得到了一些非常有用的东西,一些非常有价值的东西,一些可以解决我们遇到的很多问题的东西,我们真的很想解决这些问题,那么成本就可以说是合理的。
CRAIG:在我看到的某个时刻,你确实谈到了民主以及人工智能可以对民主产生的影响。
人们跟我谈过有一天,当冲突似乎无法解决时,如果你有足够的数据和足够大的模型,你可以在数据上训练模型,它可以提出一个让每个人都满意的最佳解决方案。
在帮助人类管理社会方面,您是否考虑过这可能会带来什么影响?
ILYA:这是一个很大的问题,因为它是一个更具未来感的问题。我认为我们的模型仍然有很多方法可以变得比现在更强大。
政府将如何使用这项技术作为各种建议的来源是不可预测的。
我认为,对于民主问题,我认为未来可能发生的一件事是,因为你拥有这些神经网络,它们将变得如此普遍,它们将对社会产生如此大的影响,我们将发现有某种民主过程是可取的,假设一个国家的公民向神经网络提供一些关于他们希望事情如何发展的信息。我可以想象会发生这种情况。
这可能是一种非常高带宽的民主形式,您可以从每个公民那里获得更多信息,然后将其汇总,具体说明我们希望此类系统如何运作。现在它提出了很多问题,但这是未来可能发生的一件事。
但是分析所有变量意味着什么?最终你需要在你说的地方做出选择,这些变量看起来真的很重要。我想深入。因为我可以读一百本书,或者我可以非常缓慢而仔细地阅读一本书,并从中获益更多。所以,会有一些元素。另外,我认为从某种意义上说,从根本上理解一切可能是不可能的。让我们举一些更简单的例子。
任何时候社会上有什么复杂的情况,哪怕是在一个公司,哪怕是一个中等规模的公司,都已经不是任何一个人所能理解的了。而且我认为,如果我们以正确的方式构建我们的 AI 系统,我认为 AI 几乎可以在任何情况下提供难以置信的帮助。
克雷格·史密斯 (Craig S. Smith) 是《纽约时报》的前记者和执行官。他是Eye on AI播客的主持人
也发布在这里