paint-brush
大型语言模型:探索 Transformer - 第 2 部分经过@shyamganesh
1,532 讀數
1,532 讀數

大型语言模型:探索 Transformer - 第 2 部分

经过 Shyam Ganesh S5m2024/05/22
Read on Terminal Reader
Read this story w/o Javascript

太長; 讀書

Transformer 模型是一种深度学习神经网络模型,广泛应用于自然语言处理 (NLP) 任务。近年来,Transformer 已被用作许多大型语言模型 (LLM) 中的基线模型。在本博客中,我们将探讨 Transformer、其组件、工作原理等。

People Mentioned

Mention Thumbnail
Mention Thumbnail

Companies Mentioned

Mention Thumbnail
Mention Thumbnail

Coin Mentioned

Mention Thumbnail
featured image - 大型语言模型:探索 Transformer - 第 2 部分
Shyam Ganesh S HackerNoon profile picture


各位读者大家好,我很高兴你们能和我一起深入探索大型语言模型 (LLM) 的迷人世界。LLM 的发展引起了各个领域人们的兴趣。如果您是这个主题的新手,那么您来对地方了。在这篇博客中,我们将探索变压器、其组件、其工作原理等等。


准备好开始了吗?让我们开始吧!

NLP 中的 Transformer

Transformer 模型是一种深度学习神经网络模型,广泛应用于自然语言处理 (NLP) 任务。Transformer 模型擅长学习给定输入数据作为序列的上下文并从中生成新数据。近年来,Transformer 已被用作许多大型语言模型 (LLM)中的基线模型。

变压器的历史

Transformer 架构于 2017 年 6 月在论文《 Attention Is All You Need 》中首次提出。Transformer 提出之后,NLP 领域围绕其架构发生了翻天覆地的变化。许多大型语言模型 (LLM) 和预训练模型都以 Transformer 为骨干推出。下面我们来简单回顾一下 Transformer 在 NLP 领域的演变历程。


变压器的历史。(图片来源:HuggingFace)

2018 年 6 月,第一个基于 Transformer 的GPT (Generative Pre-trained Transformers) 诞生,同年BERT (Bi-directional Encoder Representations from Transformers) 诞生。2019 年 2 月,OpenAI 推出了 GPT 的进阶版本GPT-2 。同年, XLMRoBERTa等众多预训练模型相继上线,让 NLP 领域的竞争更加激烈。


从 2020 年开始,NLP 领域蓬勃发展,许多新的预训练模型相继推出。这些模型的增长很大程度上依赖于 Transformer 架构。以上只是列表中的几个代表,而在现实世界中,甚至有许多模型是在 Transformer 架构上开发的。


在探索 Transformer 的结构之前,我们先了解一些基本概念。

预训练

预训练是从头开始训练机器学习 (ML) 模型的行为。训练过程从最初随机化模型权重开始。在此阶段,大量数据被输入到模型中进行学习。通常,这个训练阶段成本高昂且耗时。

预训练和微调。(图片来源:维基百科)


微调

微调是使用特定领域信息对预训练模型进行的训练过程。预训练模型已经获得了广泛的知识,因此不太适合特定领域。在此过程中,预训练模型会重新训练,但由于它已经学习了一些概念,因此成本会降低。


为了对预训练模型进行微调,我们采用了迁移学习技术。迁移学习是一种机器学习方法,其中模型应用从一个用例中学到的知识来预测另一个用例中的推断。

编码器

Transformer 中的编码器将数据序列作为输入,并为给定的输入序列生成向量序列。编码器模型通过利用其中存在的自注意力层来实现这一点。我们将在后面更详细地讨论这些自注意力层。


这些模型通常被描述为具有“双向”注意力,通常被称为自动编码模型。编码器模型主要用于句子分类和命名实体识别 (NER)。

仅编码器模型是架构中只有编码器的 Transformer 模型。它们在文本分类等用例中非常有效,因为模型旨在理解文本的底层表示。


编码器和解码器。(图片来源:Medium)


解码器

Transformer 中的解码器将一系列向量作为输入,并生成一系列输出标记。这些输出标记是生成文本中的单词。与编码器一样,解码器也使用许多自注意力层。解码器模型的预训练通常围绕预测句子中的下一个单词展开。这些模型最适合涉及文本生成的任务。

仅解码器模型是架构中只有解码器的 Transformer 模型。它们在文本生成方面非常高效。解码器专门用于生成输出标记(文本)。机器翻译和文本摘要是仅解码器模型擅长的几个用例。

注意力层

Transformer 中的自注意力层允许模型学习输入文本中单词之间的长程依赖关系。

换句话说,该层将指示模型更加关注给定输入文本中的特定单词。

该模型通过计算输入序列中文本对之间的相似度得分来实现这一点。然后,该层使用该得分来计算输入向量的权重。这些层的输出是加权输入向量。


现在您已经了解了编码器、解码器和注意层的基本概念,让我们深入了解 Transformer 的架构。


Transformer 的架构

变压器模型的结构类似于下图所示。


Transformer 的架构。(图片来源:HuggingFace)


编码器放在左侧,解码器放在右侧。编码器接受文本序列作为输入,并产生一系列向量作为输出,这些向量作为输入馈送到解码器。解码器将生成一系列输出标记。编码器堆叠有自注意力层。


每一层都接受一个输入向量,并根据我们已经讨论过的自注意力机制返回一个加权输入向量。加权和是自注意力层的输出。


解码器还包含一组自注意力层和一个循环神经网络 (RNN)。自注意力层的工作方式与编码器相同,但 RNN 将负责将向量的加权和转换为输出标记。因此,现在应该清楚,RNN 接受加权向量作为输入并生成输出标记作为输出。简而言之,输出标记是输出句子中存在的单词。


为了从代码层面理解 Transformer,我希望您能看一下Transformer 的 PyTorch 实现


结论

Transformer 凭借其在处理大量数据方面的出色表现,彻底改变了人工智能 (AI) 和自然语言处理 (NLP) 领域。Google 的 BERT 和 OpenAI 的 GPT 系列等领先模型展示了它们对搜索引擎和文本生成的变革性影响。


因此,它们已成为现代机器学习中不可或缺的一部分,推动了人工智能的极限,为技术进步创造了新的机会。 因此,它们已成为现代机器学习中不可或缺的一部分,推动了人工智能的极限,为技术进步开辟了新途径。


快乐学习!


参考

请参阅本系列关于大型语言模型(LLM)的其他文章: