这是一篇周末反思机器学习技术现状的文章,特别关注 LLM 也就是 AI 和我们当前的历史点。
在我们进入这个令人兴奋的奇点之前,我想提一下,作为一篇文章,这是一篇更个人化、更不正式的文章,分享了我对自然语言理解演变的看法,并强调了一些在这种情况下看起来很重要的想法.这不是一份全面的行业报告,也不是一份全面的行业报告,但我希望它能成为机器学习工程师和对当前 AI 崛起感兴趣的更广泛受众的有趣读物。
故事分为三个部分:
历史部分简要地提醒我们,我们是如何在短短 12 年内从多层感知器发展到目前的 AGI 状态的。
当前部分重点介绍LLM的最新成就和当前行业趋势。如果您深入了解上下文并寻找一些新鲜的想法,请跳至该部分。
神秘部分提出了一些关于当前 AGI 阶段之后可能发生的事情的想法。
因此,首先,机器学习已经存在了一段时间,大约十年或十二年,具体取决于您是从 Tomas Mikolov 的 word2vec出版物还是从 Andrew Ng 在 Coursera 上的机器学习课程算起。 Kaggle 于 2010 年推出,李飞飞于 2009 年收集了Imagenet 。不久前,如果你超过 30 岁,你可能会同意。
有些人会争辩说机器学习的历史要长得多,但我现在说的是行业对深度学习算法的采用,也就是技术动力,而不是纯粹的研究。在这里,我们不会触及 scikitlearn 中涵盖的经典 ML 算法、所有回归、聚类和时间序列预测等内容。他们默默地做着他们的重要工作,但人们不称他们为 AI,没有大肆宣传,你知道的。
为什么 AI 的春天会发生在 12 年前?深度学习(训练具有误差反向传播的多层神经网络)最终在普通 GPU 上变得可行。 2010 年,最简单的神经网络架构,多层感知器,在手写数字识别(著名的 MNIST 数据集)中击败了其他算法,这是由 Juergen Schmidhuber 等人取得的成果。
从 2010 年左右开始,这项技术变得越来越强大。有几个改变游戏规则的时刻——word2vec 模型的发布将语义理解带入了自然语言处理 (NLP) 的世界,稍后公开发布了 Tensorflow 和 Keras 深度学习框架,当然还有2017 年的Transformer ,仍然是 SOTA 神经网络架构,已经扩展到 NLP 的世界之外。这是为什么?因为 Transformer 具有注意力并且能够处理序列,例如具有 O(n2) 复杂度的文本,这是由矩阵乘法方法实现的,允许我们查看整个输入序列。在我看来,Transformer 成功的第二个原因是灵活的Encoder-Decoder 架构允许我们联合和单独地训练和使用模型(sequence-to-sequence 或 sequence-to-vector)。
OpenAI GPT 系列模型(Transformer 解码器)在科技行业之外引起了一些轰动,因为GPT-3已经可以生成相当人性化的文本,并且能够进行少样本和零样本学习。最后一部分更重要,GPT-3 的论文甚至被命名为“Language Models are Few-Shot Learners”——Large Language Models 这种从例子中快速学习的能力是 OpenAI 在 2020 年首次提出的。
但是砰!
ChatGPT的发布伴随着我们前所未见的炒作,最终引起了公众的广泛关注。而现在, GPT-4正在超越这一点。
这是为什么?在过去的 7 年里,自从神经网络开始显示出不错的结果以来,我们一直称之为 AI 实际上是一种狭义的人工智能——我们的模型被训练来解决一些特定的任务——识别对象、执行分类或预测以下标记在序列中。人们一直梦想着AGI——一种通用人工智能,能够在人类水平上完成多项任务。
事实上,基于指令的 LLM 调整,或者,正如他们在 OpenAI 中所说的那样,从人类反馈中强化学习——
GPT-3.5+ 模型终于学会了对提供的信息进行推理的能力。这改变了一切——在 LLM 更接近于相当好的统计鹦鹉之前,但对于文本嵌入、向量搜索、聊天机器人等许多应用程序仍然非常有用。但是通过基于指令的训练,他们可以有效地从人类那里学习推理.
究竟什么是推理?
能够使用提供的信息通过一些逻辑运算得出结论。假设A连接到B,B连接到C,那么A连接到C吗? GPT-4 在其官方产品页面上提供了一个更复杂的推理示例。该模型的推理能力如此强大和灵活,以至于它可以生成结构化的指令序列或逻辑操作,以便在整个过程中使用“常识”或“常识”来实现给定目标,而不仅仅是提供的信息在提示中。
在具有这种推理能力的 LLM 之前,另一种为推理精心设计的工具是知识图谱,其节点包含实体和边作为实体的谓词或关系。这是一种提供显式推理能力的信息存储形式。在某个时候,我参与了构建一个问答系统,其中包括使用知识图来查找所询问的信息——你只需要检测意图,看看我们是否在图中有这种关系,检查提到的特定实体,如果存在,则查询此子图。事实上,该管道提供了将自然语言查询转换为 SPARQL 查询的功能。
现在,您可以将这些事实信息以纯文本形式作为提示的上下文部分提供给模型,它会在零样本中“学习”它,并能够对此进行推理。哇,对吧?
而且您不限于图中包含的实体和关系类型的数量。另外,你有那种“常识”,对我们世界的概念及其关系的一般理解,这是将机器学习模型与人类认知分开的最棘手的部分。我们甚至没有注意到我们是如何能够用自然语言给出指令的,并且他们在没有太明确的解释的情况下就开始正确地工作。
推理加知识是智力的两个重要组成部分。在过去的 20 年里,我们几乎将所有人类知识以维基百科、科学出版物、服务描述、博客、数十亿行代码和 Stackoverflow 答案以及社交媒体上数十亿条意见的形式放到了互联网上。
现在我们可以用这些知识进行推理。
这些推理能力在GPT4 的官方 OpenAI 技术报告中得到了很好的证明:
GPT-4 在大多数这些专业和学术考试中表现出人类水平的表现。值得注意的是,它通过了模拟版的统一律师考试,得分在应试者的前 10% 之内。
根据 GPT-4 在许多人体测试中的结果,我们在 AGI 附近——OpenAI 甚至在他们的网页上使用了这些词,最近一篇 150 多页的 Microsoft论文深入研究了 GPT-4 在不同方面的能力名为“通用人工智能的火花:GPT-4 的早期实验”的域名仔细但明确地声称 AGI 在这里:
鉴于 GPT-4 功能的广度和深度,我们认为可以合理地将其视为通用人工智能 (AGI) 系统的早期(但仍不完整)版本。
然后:
GPT-4 能力的普遍性,跨越广泛领域的众多能力,以及它在广泛任务中达到或超过人类水平的表现的结合,让我们可以说 GPT-4 是重要的一步走向通用人工智能。
这种说法的理由是:
尽管是纯粹的语言模型,但这个早期版本的 GPT-4 在各种领域和任务上展示了卓越的能力,包括抽象、理解、视觉、编码、数学、医学、法律、对人类动机和情感的理解,以及更多的。
并钉牢它:
然而,即使作为第一步,GPT-4 也挑战了相当多的关于机器智能的广泛持有的假设,并展示了涌现的行为和能力,其来源和机制目前难以准确辨别<...>。我们撰写本文的主要目标是分享我们对 GPT-4 的能力和局限性的探索,以支持我们对已实现技术飞跃的评估。我们相信 GPT-4 的智能标志着计算机科学及其他领域真正的范式转变。
我强烈建议您花一些时间进行这项研究,因为在这些响亮的声明背后,有一个非常有趣的分析,说明了上述模型的工作原理,以及 GPT-4 与 ChatGPT 在不同领域的各种重要任务上的广泛比较结果。
如果我们需要应用 LLM 的推理能力来对模型在训练时不希望学习到的某些特定信息做出结论,我们可以使用任何一种搜索-检索加排名机制,无论您是否将数据存储为向量嵌入一些像Faiss这样的 ANN 索引或像 Elastic 这样的老式全文索引——然后将这些搜索结果作为上下文提供给 LLM,将其注入到提示中。这就是 Bing 2.0 和Bard (现在由PaLM2提供支持)搜索现在所做的。
我用DPR架构实现了这个搜索 + LLM 调用系统,其中 ChatGPT 取代了 Reader 模型,并使用全文 Elastic 搜索,在这两种情况下,系统的整体质量取决于你拥有的数据质量你的索引——如果它是具体和完整的,你可以指望比普通的 ChatGPT 提供更好的答案。
有些人甚至成功地围绕 GPT 制作了一个瑞士刀库,称之为矢量数据库,并在这方面取得了很好的成绩——我的帽子掉了!
但是由于 GPT 模型的文本界面,您可以使用您熟悉的任何工具围绕它构建任何东西,不需要适配器。
可以为进一步的模型改进提供线索的问题之一是这些大型模型实际上是如何学习的,以及那些令人印象深刻的推理能力存储在模型权重中的何处。
本周 OpenAI 发布了一篇论文“语言模型可以解释语言模型中的神经元”和一个旨在通过剥离 LLM 层来回答这些问题的开源项目。它的工作方式——他们观察模型神经网络的某些部分在某些知识领域经常被激活的活动,然后一个更强大的 GPT-4 模型写下它对正在研究的 LLM 的这个特定部分或神经元是什么的解释负责然后他们尝试使用 GPT-4 预测原始 LLM 在许多相关文本序列上的输出,这导致为其每个解释分配一个分数。
然而,这种技术有一些缺点。首先,正如作者所说,他们的方法仅对所研究的大约 300000 个神经元中的 1000 个神经元给出了很好的解释。
这是论文引用:
然而,我们发现基于 GPT-4 和人工承包商的解释在绝对值上仍然得分很低。在观察神经元时,我们还发现典型的神经元看起来非常多义。这表明我们应该改变我们正在解释的内容。
第二点是,该技术目前无法提供有关如何改进培训过程的见解。但它在模型可解释性研究方面是一个很好的努力。
也许如果所研究的神经元会根据它们的相互依赖性联合成一些集群,并且这些集群会展示一些可能因不同的训练程序而改变的行为模式,这将使我们对某些模型能力如何与训练数据相关以及培训政策。在某种程度上,这种聚集和分化可能看起来像大脑被分割成负责特定技能的不同区域。这可以为我们提供有关如何有效微调 LLM 以使其获得某些特定新技能的见解。
另一个流行的想法是制作一个带有循环 LLM的自治代理——Twitter 充满了AutoGPT、AgentGPT、BabyAGI等实验。这个想法是为这样的代理设定一个目标,并为其提供一些外部工具,例如其他服务的 API,以便它可以通过迭代循环或链接模型提供所需的结果。
上周 Huggingface 在其著名的变形金刚库中发布了Agents ,以:
“使用 OpenAssistant、StarCoder、OpenAI 等 LLM 轻松构建 GenerativeAI 应用程序和自主代理”。 (c) 菲利普·施密德
该库提供了一个链接模型和 API 的接口,能够以自然语言响应复杂的查询并支持多模态数据(文本、图像、视频、音频)。本例中的提示包括代理的描述、一组工具(主要是一些其他狭义案例神经网络)、一些示例和一个任务。代理将有助于非工程师使用模型,但也是在 LLM 之上构建更复杂系统的良好开端。顺便说一句,这是自然语言 API,一种与您所知道的不同的互联网。
顺便说一句,最近 Twitter 围绕 AI 变得非常疯狂,每个人都在 LLM 模型之上构建一些东西并向世界展示它——我从未见过这个行业如此热情。如果你想调查发生了什么事——我建议从 Andrew Karpathy 最近的推文开始那个兔子洞潜水。
为 Github copilot 提供支持的Codex已经存在了一段时间,几天前,作为 Colab Pro 订阅者,我收到了 Google 的来信,说他们将在 6 月(引用这封信)
开始逐渐将 AI 编程功能添加到 Colab 其中最先出现的是:
- 代码完成的单行和多行提示;
- 自然语言代码生成,它允许您向 Google 模型发送代码生成请求并将其粘贴到笔记本中。
顺便说一下,上周谷歌宣布了PaLM 2系列模型,其中有科迪,谷歌的编码和调试专用模型,可能会为这些已宣布的功能提供动力。
总结这一部分,我想说我个人在 2016 年左右选择 NLP 而不是 CV 是因为语言是人们传递信息的普遍和最终方式。我们甚至用我们语言中的概念来思考,所以这个系统足够复杂,可以定义我们自己和我们周围的世界。而这带来了创造一个语言驱动的系统的可能性,它具有类人甚至超越那个水平的推理能力和意识。大约半年前,我们刚刚触及了这个真实推理的表面。想象一下我们现在在哪里以及接下来会发生什么。
如果出于任何原因您不熟悉waitbutwhy 博客的作者 Tim Urban,请阅读他在 AGI 上的帖子,日期为 2015 年——看看过去的样子,就在 7 年前,当时没有法学硕士,也没有 Transformer模型要么。我将在这里引用他帖子中的几行,只是为了提醒你我们 7 年前的处境。
制造可以在国际象棋中击败任何人类的人工智能?完毕。制作一个可以阅读 6 岁儿童图画书中的段落并且不仅能识别单词而且能理解它们的含义的书?谷歌目前正花费数十亿美元试图做到这一点。
但在我们实现 AGI 之后,事情会开始以更快的速度发展,他承诺。这是由于 Ray Kurzweil 制定的加速回报定律:
Ray Kurzweil 将人类历史称为加速回报法则。发生这种情况是因为更先进的社会比欠发达的社会有能力以更快的速度进步——因为它们更先进。
将这条定律应用于当前的法学硕士很容易进一步说,学习和推理互联网上保存的所有数据的能力将使这种超人的记忆力达到人类推理水平,很快周围最聪明的人就会被就像国际象棋冠军卡斯帕罗夫在 1997 年被深蓝计算机打败一样。
这将把我们带到人工超级智能 (ASI),但我们还不知道它的外观。也许我们需要另一个反馈循环来训练它,因为 GPT-4 人类反馈学习只提供人类水平的推理。更好的模型很有可能会教较弱的模型,这将是一个迭代过程。**只是推测——我们拭目以待。
Tim 在他关于 AGI 的帖子的第二部分中真正概述的事情是,由于这种加速回报法则,我们甚至可能不会注意到我们的系统超过 AGI 的时间点,那时事情会有点超出我们的理解。
目前,只有一小部分从事技术工作的人了解进展的实际速度以及基于指令的 LLM 调整带来的惊人潜力。 Geoffrey Hinton 就是其中之一,他公开谈到了就业市场压力、虚假内容制作和恶意使用等风险。我发现更重要的是,他指出当前能够零次学习复杂技能的系统可能拥有比人类更好的学习算法。
对现代 LLM 的担忧来自于这样一个事实,即虽然它们在许多任务中提供了巨大的影响力,但使用这些模型的能力——预训练、微调、进行有意义的提示或将它们纳入数字产品——是在培训/使用成本和技能方面,社会上显然存在不平等。 twitter 或 huggingface 社区的一些人会争辩说,我们现在有相当强大的开源 LLM作为 OpenAI 霸权的替代品,但它们仍然是随波逐流,功能不那么强大,而且它们需要一定的技能来处理。虽然 OpenAI 模型如此成功,但微软和谷歌会在该研究中投入更多资金,试图阻止它们。哦, Meta也是,如果他们最终放弃 Metaverse。
当今最需要的技能之一是编写代码——在过去的 20 年里,软件工程主导了技术领域和薪水。根据编码副驾驶的当前状态,看起来很快就会生成或有效地获取和调整大量样板代码,这对用户来说看起来是一样的,从而为开发人员节省大量时间,并且可能会花费一些时间市场之外的工作机会。
在关于 AGI 的那篇非常好的帖子中还有另一个想法,它听起来像是AGI 能够自主自我改进。目前,香草 LLM 仍然不是自主代理人,也绝不包含任何意志力——这两个想法让人们感到害怕。万一。不要将涉及强化学习的模型训练过程与人类反馈混淆,其中使用的 RL 算法是 OpenAI 的Proximal Policy Optimization ,最终模型只是 Transformer 预测令牌序列的 Decoder 部分。
您可能已经注意到我引用的几篇论文是上周发布的——我相信接下来的几周会带来新的发布和想法,我希望我能在这篇文章中涵盖这些内容,但这是时代的标志。
似乎我们正在迅速进入软件的新时代,并且已经朝着奇点迈出了几步,因为机器学习行业的创新已经以前所未有的速度发生——就像去年我们看到的一个月几次只是几个大版本。享受车程!
PS下一次爆炸将是马斯克通过 Neuralink 将我们与法学硕士联系起来的时候。
聚苯硫醚。没有调用 OpenAI API 来编写此文本。我打赌。