各位读者大家好，我很高兴你们能和我一起深入探索大型语言模型 (LLM) 的迷人世界。LLM 的发展引起了各个领域人们的兴趣。如果您是这个主题的新手，那么您来对地方了。在这篇博客中，我们将探索变压器、其组件、其工作原理等等。 准备好开始了吗？让我们开始吧！  NLP 中的 Transformer  Transformer 模型是一种深度学习神经网络模型，广泛应用于自然语言处理 (NLP) 任务。Transformer 模型擅长学习给定输入数据作为序列的上下文并从中生成新数据。近年来，Transformer 已被用作许多 中的基线模型。 大型语言模型 (LLM) 变压器的历史 Transformer 架构于 2017 年 6 月在论文《   》中首次提出。Transformer 提出之后，NLP 领域围绕其架构发生了翻天覆地的变化。许多大型语言模型 (LLM) 和预训练模型都以 Transformer 为骨干推出。下面我们来简单回顾一下 Transformer 在 NLP 领域的演变历程。  Attention Is All You Need  2018 年 6 月，第一个基于 Transformer 的  (Generative Pre-trained Transformers) 诞生，同年  (Bi-directional Encoder Representations from Transformers) 诞生。2019 年 2 月，OpenAI 推出了 GPT 的进阶版本  。同年，   、  等众多预训练模型相继上线，让 NLP 领域的竞争更加激烈。 GPT BERT GPT-2 XLM RoBERTa 从 2020 年开始，NLP 领域蓬勃发展，许多新的预训练模型相继推出。这些模型的增长很大程度上依赖于 Transformer 架构。以上只是列表中的几个代表，而在现实世界中，甚至有许多模型是在 Transformer 架构上开发的。 在探索 Transformer 的结构之前，我们先了解一些基本概念。 预训练 预训练是从头开始训练机器学习 (ML) 模型的行为。训练过程从最初随机化模型权重开始。在此阶段，大量数据被输入到模型中进行学习。通常，这个训练阶段成本高昂且耗时。  微调 微调是使用特定领域信息对预训练模型进行的训练过程。预训练模型已经获得了广泛的知识，因此不太适合特定领域。在此过程中，预训练模型会重新训练，但由于它已经学习了一些概念，因此成本会降低。 为了对预训练模型进行微调，我们采用了迁移学习技术。迁移学习是一种机器学习方法，其中模型应用从一个用例中学到的知识来预测另一个用例中的推断。 编码器 Transformer 中的编码器将数据序列作为输入，并为给定的输入序列生成向量序列。编码器模型通过利用其中存在的自注意力层来实现这一点。我们将在后面更详细地讨论这些自注意力层。 这些模型通常被描述为具有“双向”注意力，通常被称为自动编码模型。编码器模型主要用于句子分类和命名实体识别 (NER)。 仅编码器模型是架构中只有编码器的 Transformer 模型。它们在文本分类等用例中非常有效，因为模型旨在理解文本的底层表示。  解码器 Transformer 中的解码器将一系列向量作为输入，并生成一系列输出标记。这些输出标记是生成文本中的单词。与编码器一样，解码器也使用许多自注意力层。解码器模型的预训练通常围绕预测句子中的下一个单词展开。这些模型最适合涉及文本生成的任务。 仅解码器模型是架构中只有解码器的 Transformer 模型。它们在文本生成方面非常高效。解码器专门用于生成输出标记（文本）。机器翻译和文本摘要是仅解码器模型擅长的几个用例。 注意力层 Transformer 中的自注意力层允许模型学习输入文本中单词之间的长程依赖关系。 换句话说，该层将指示模型更加关注给定输入文本中的特定单词。 该模型通过计算输入序列中文本对之间的相似度得分来实现这一点。然后，该层使用该得分来计算输入向量的权重。这些层的输出是加权输入向量。 现在您已经了解了编码器、解码器和注意层的基本概念，让我们深入了解 Transformer 的架构。  Transformer 的架构 变压器模型的结构类似于下图所示。  编码器放在左侧，解码器放在右侧。编码器接受文本序列作为输入，并产生一系列向量作为输出，这些向量作为输入馈送到解码器。解码器将生成一系列输出标记。编码器堆叠有自注意力层。 每一层都接受一个输入向量，并根据我们已经讨论过的自注意力机制返回一个加权输入向量。加权和是自注意力层的输出。 解码器还包含一组自注意力层和一个循环神经网络 (RNN)。自注意力层的工作方式与编码器相同，但 RNN 将负责将向量的加权和转换为输出标记。因此，现在应该清楚，RNN 接受加权向量作为输入并生成输出标记作为输出。简而言之，输出标记是输出句子中存在的单词。 为了从代码层面理解 Transformer，我希望您能看一下 。 Transformer 的 PyTorch 实现 结论 Transformer 凭借其在处理大量数据方面的出色表现，彻底改变了人工智能 (AI) 和自然语言处理 (NLP) 领域。Google 的 BERT 和 OpenAI 的 GPT 系列等领先模型展示了它们对搜索引擎和文本生成的变革性影响。 因此，它们已成为现代机器学习中不可或缺的一部分，推动了人工智能的极限，为技术进步创造了新的机会。 因此，它们已成为现代机器学习中不可或缺的一部分，推动了人工智能的极限，为技术进步开辟了新途径。 快乐学习！ 参考 请参阅本系列关于大型语言模型（LLM）的其他文章：   https://hackernoon.com/large-language-models-a-beginners-journeypart-1?embedable=true

Stellar

Before

effect

Google

Hello

OpenAI

Ready

Read My Stories

Connect on LinkedIn

AI/ML Practitioner

該音頻是用故事的原始語言製作的！

太長; 讀書

大型语言模型：探索 Transformer - 第 2 部分

大型语言模型：探索 Transformer - 第 2 部分

About Author

註釋

標籤

这篇文章刊登在

Related Stories

扬帆起航：利用数据湖开发生产级 RAG 应用程序

架构师指南：构建 AI/ML 数据湖参考架构

使用这 18 种开发工具来提高你的工作效率 🚀🔥

如何将您的工作流程提高 10 倍：17 个必备应用程序

扬帆起航：利用数据湖开发生产级 RAG 应用程序

架构师指南：构建 AI/ML 数据湖参考架构

使用这 18 种开发工具来提高你的工作效率 🚀🔥

如何将您的工作流程提高 10 倍：17 个必备应用程序

Light-Mode

Classic

Newspaper

Dark-Mode

Neon Noir

Minty

HN StartUps