各位读者大家好,我很高兴你们能和我一起深入探索大型语言模型 (LLM) 的迷人世界。LLM 的发展引起了各个领域人们的兴趣。如果您是这个主题的新手,那么您来对地方了。在这篇博客中,我们将探索变压器、其组件、其工作原理等等。 准备好开始了吗?让我们开始吧! NLP 中的 Transformer Transformer 模型是一种深度学习神经网络模型,广泛应用于自然语言处理 (NLP) 任务。Transformer 模型擅长学习给定输入数据作为序列的上下文并从中生成新数据。近年来,Transformer 已被用作许多 中的基线模型。 大型语言模型 (LLM) 变压器的历史 Transformer 架构于 2017 年 6 月在论文《 》中首次提出。Transformer 提出之后,NLP 领域围绕其架构发生了翻天覆地的变化。许多大型语言模型 (LLM) 和预训练模型都以 Transformer 为骨干推出。下面我们来简单回顾一下 Transformer 在 NLP 领域的演变历程。 Attention Is All You Need 2018 年 6 月,第一个基于 Transformer 的 (Generative Pre-trained Transformers) 诞生,同年 (Bi-directional Encoder Representations from Transformers) 诞生。2019 年 2 月,OpenAI 推出了 GPT 的进阶版本 。同年, 、 等众多预训练模型相继上线,让 NLP 领域的竞争更加激烈。 GPT BERT GPT-2 XLM RoBERTa 从 2020 年开始,NLP 领域蓬勃发展,许多新的预训练模型相继推出。这些模型的增长很大程度上依赖于 Transformer 架构。以上只是列表中的几个代表,而在现实世界中,甚至有许多模型是在 Transformer 架构上开发的。 在探索 Transformer 的结构之前,我们先了解一些基本概念。 预训练 预训练是从头开始训练机器学习 (ML) 模型的行为。训练过程从最初随机化模型权重开始。在此阶段,大量数据被输入到模型中进行学习。通常,这个训练阶段成本高昂且耗时。 微调 微调是使用特定领域信息对预训练模型进行的训练过程。预训练模型已经获得了广泛的知识,因此不太适合特定领域。在此过程中,预训练模型会重新训练,但由于它已经学习了一些概念,因此成本会降低。 为了对预训练模型进行微调,我们采用了迁移学习技术。迁移学习是一种机器学习方法,其中模型应用从一个用例中学到的知识来预测另一个用例中的推断。 编码器 Transformer 中的编码器将数据序列作为输入,并为给定的输入序列生成向量序列。编码器模型通过利用其中存在的自注意力层来实现这一点。我们将在后面更详细地讨论这些自注意力层。 这些模型通常被描述为具有“双向”注意力,通常被称为自动编码模型。编码器模型主要用于句子分类和命名实体识别 (NER)。 仅编码器模型是架构中只有编码器的 Transformer 模型。它们在文本分类等用例中非常有效,因为模型旨在理解文本的底层表示。 解码器 Transformer 中的解码器将一系列向量作为输入,并生成一系列输出标记。这些输出标记是生成文本中的单词。与编码器一样,解码器也使用许多自注意力层。解码器模型的预训练通常围绕预测句子中的下一个单词展开。这些模型最适合涉及文本生成的任务。 仅解码器模型是架构中只有解码器的 Transformer 模型。它们在文本生成方面非常高效。解码器专门用于生成输出标记(文本)。机器翻译和文本摘要是仅解码器模型擅长的几个用例。 注意力层 Transformer 中的自注意力层允许模型学习输入文本中单词之间的长程依赖关系。 换句话说,该层将指示模型更加关注给定输入文本中的特定单词。 该模型通过计算输入序列中文本对之间的相似度得分来实现这一点。然后,该层使用该得分来计算输入向量的权重。这些层的输出是加权输入向量。 现在您已经了解了编码器、解码器和注意层的基本概念,让我们深入了解 Transformer 的架构。 Transformer 的架构 变压器模型的结构类似于下图所示。 编码器放在左侧,解码器放在右侧。编码器接受文本序列作为输入,并产生一系列向量作为输出,这些向量作为输入馈送到解码器。解码器将生成一系列输出标记。编码器堆叠有自注意力层。 每一层都接受一个输入向量,并根据我们已经讨论过的自注意力机制返回一个加权输入向量。加权和是自注意力层的输出。 解码器还包含一组自注意力层和一个循环神经网络 (RNN)。自注意力层的工作方式与编码器相同,但 RNN 将负责将向量的加权和转换为输出标记。因此,现在应该清楚,RNN 接受加权向量作为输入并生成输出标记作为输出。简而言之,输出标记是输出句子中存在的单词。 为了从代码层面理解 Transformer,我希望您能看一下 。 Transformer 的 PyTorch 实现 结论 Transformer 凭借其在处理大量数据方面的出色表现,彻底改变了人工智能 (AI) 和自然语言处理 (NLP) 领域。Google 的 BERT 和 OpenAI 的 GPT 系列等领先模型展示了它们对搜索引擎和文本生成的变革性影响。 因此,它们已成为现代机器学习中不可或缺的一部分,推动了人工智能的极限,为技术进步创造了新的机会。 因此,它们已成为现代机器学习中不可或缺的一部分,推动了人工智能的极限,为技术进步开辟了新途径。 快乐学习! 参考 请参阅本系列关于大型语言模型(LLM)的其他文章: https://hackernoon.com/large-language-models-a-beginners-journeypart-1?embedable=true