深入学习 Transformer

前言#

Transformer (deep learning) - Wikipedia ↗ 是目前大语言模型的理论基石，学习它有助于理解 How LLM works for you in daily life!

本文将从自己的理解出发，循序渐进地深入 Transformer 所有理论知识，仅供参考。

大白话解释 Transformer#

现在，请拿起手机打开你安装的任意一个大语言模型 App (如果你没有, 确实也没必要继续往下看了…), 输入以下 Prompt: 请用一句话通俗地解释什么是 Transformer.

你可能会得到以下类似回答：

DeepSeek: Transformer就像一位能一目十行、靠“注意力”**同时看清所有词语之间关系**的超级阅读高手，是如今许多聊天AI背后用来理解上下文的聪明大脑。

ChatGPT: Transformer 就像一个“会**同时看全文**、自动判断哪些词最重要”的超级阅读器，它通过关注**上下文之间的关系**来理解和生成语言。

Gemini: Transformer 就像是一个拥有“全局视野”的超级阅读专家，它打破了按顺序逐字处理信息的传统，能够**一次性“看”到整段内容**，并把注意力集中在最关键的词语关联上，从而精准**理解上下文的真正含义**。

markdown

发现什么共同点了吗？几乎所有 AI 在解释 Transformer 的时候都会提到的几个关键词： ① 同时看全文；② 理解上下文关系。

你可能会觉得，就这？感觉这两点不就是我们日常阅读文章时的基操吗？有手就行！

不过… AI 再强也没有手啊…我们得看看 Transformer 的这两个厉害的特征到底牛在哪。

Transformer 特性一：同时看全文#

接着向你的 AI 提问: 为什么要强调 Transformer 可以同时看全文，有什么创新性或特别之处吗?

Oups.. 记得叫 AI 一句话解释, 不然 DeepSeek 和 Gemini 会给你甩出几大段文字.. 只有 ChatGPT 会按照上一个 prompt 要求的风格进行回答。

DeepSeek: 它的革命性在于，把传统模型“逐字串行阅读”的近视模式，升级为“**全文并行审视**”的全局模式，从而一举**根治了长文本健忘症**，并让海量数据的**高速训练**成为可能——这正是大模型能够涌现智能的架构根基。

ChatGPT: Transformer 的创新点在于：它第一次把“**同时关注全文中任意位置的信息**”变成了核心机制（Self-Attention），从而**摆脱了传统 RNN/LSTM 必须按顺序逐词处理的限制**，既更容易**理解长距离关系**，又能大规模**并行计算**，因此训练速度和效果都出现了质变。

Gemini: 强调这一点是因为这种“全局并行处理”的颠覆性创新不仅**打破了传统网络只能按顺序逐字读取的速度瓶颈**，让大规模 GPU 算力得以彻底释放，还能**无视文本长度限制，瞬间且无损地捕捉长句子中任意两个词之间的深层语义关联**。

markdown

根据三位 AI 的总结，我们至少可以知道 Transformer 的特点之一：高度并行。这种创新的并行方式直接让模型开了挂，就好比一个学生本来之前学习一本书只能一个字一个字地理解，突然间他可以同时把书里的所有字一起读完，效率相比以前大大提高了。

正是因为 Transformer 这种颠覆性的效率提升，才使得如今的千万亿参数大模型的训练变得可能，以至于模型奇迹般地发生了智能涌现。

Transformer 特性二：理解上下文关系#

继续问 AI: 一句话解释 Transformer 理解上下文有何创新点？

DeepSeek: 它的创新在于：不再给每个词一个固定的“标准解释”，而是通过**自注意力**让每个词都能直接从全文所有词那里“征集”最相关的信息，实时**动态地组合出它在当前上下文中的唯一含义**，真正做到“见木更见林”。

ChatGPT: Transformer 的创新在于它能**让每个词动态地“查看并衡量”全文里所有其他词与自己的关系**，从而更准确地理解上下文含义。

Gemini: Transformer 理解上下文的最大创新点在于引入了自注意力机制，即 Self-Attention ，它彻底打破了传统网络只能按顺序传递信息的局限，让文本中的任何一个词都能**无视位置距离，直接且动态地与全文所有其他词进行权重计算**，从而实现了对复杂全局语境的瞬间、无损融合。

markdown

上面我们提到了 Transformer 创新点之一是它的高度并行性，使其可以同时处理所有输入文本。即当我们问 AI 一句话时，它会对这句话中的每一个字做相同的操作，那这个操作到底是什么呢？这就引出了 Transformer 的另一大特点：Self Attention.

Self Attention, 即自注意力机制，从字面意思理解，注意力即对某种事物的关注程度，我们可以简单地理解如果两个东西越具有相关性，则它们之间越会注意彼此。而应用到大模型领域，Transformer 会让每个字与其他字之间进行相互评估，看看是否有必要注意另一个字，以理解每个字在当前上下文中的含义。

传统模型和 Transformer 对比#

首先，模型理解上下文的能力并非是 Transformer 独有，传统的 NLP 模型如 RNN 和 LSTM 依然可以按照顺序传递上下文。但区别在于之前的模型受限于必须顺序处理的强约束，每走一步才能更新一次自己的记忆力（隐状态），一旦距离变长，记忆力就会磨损，最终导致信息遗忘。因此，传统模型的局限性主要聚焦在：① 串行导致模型效率低下；② 串行导致模型记忆力差，长上下文中会遗忘前文信息。

Transformer 的革命性不在于第一次让机器理解上下文，而是第一次高效地让每个词都能直接访问整个上下文。

如上文所提，RNN 处理一个句子，必须按照顺序来理解，模型在没读完前面的字之前是绝无可能知道后面还没读到的字的含义的。并且当 RNN 处理的输入过长时，还会丢掉前面的记忆。

而 Transformer 则会一口气同时让所有字都理解全局上下文（即自己是什么意思，整个上下文中哪些其他字需要我关注，哪些和我无关）。

下面让 AI 生成一个可视化地例子来解释为什么 Self Attention 可以让每个字同时理解上下文。P.S. 这里选择了生成效果最好的 DeepSeek 版本。

Transformer 是怎么产生输出的？#

我们知道 Transformer 通过 Self-Attention 理解了用户的问题，但是它怎么知道如何回答用户的问题呢？

实际上，Self-Attention 只负责“理解当前上下文”，并不负责“知道怎么回答”。

理论上，Transformer 架构由编码器（Encoder）和解码器（Decoder）组成。我们可以通俗地将编码器的功能视为理解输入，而解码器的功能则为生成输出。

例如用户输入：法国的首都是哪里？ 后，模型会通过编码器的多层 Self-Attention 来理解该问题，然后在内部生成一个对该问题的理解（context vector），类似于：

问题类型：事实查询
主题：法国
查询属性：首都
期望输出：国家对应的首都名称

markdown

但这时候模型还没有回答，只是“理解了问题”。那模型是怎么知道自己究竟要输出什么呢？其实这里并没有魔法，答案就来自预训练过程中学到的大量语言规律和世界知识。在模型训练时，它可能早已经看过类似的文本：

法国的首都是巴黎。
Paris is the capital of France.
巴黎是法国最大的城市之一。
法国政府位于巴黎。

markdown

进而将 法国 → 首都 → 巴黎 这种关联编码到模型参数中。而当训练好的模型接收到用户输入并通过 Self-Attention 理解问题后，便会进行预测下一个最有可能的词的过程。而下一个最有可能的词，早已经在模型训练时从海量训练数据中学到了，所以其自然而然就知道根据你的输入，产生什么输出了。

小结#

Transformer 的革命性创新点在于其采用了并行处理架构，高效的训练效率使得如今万亿级模型成为可能。
Transformer 通过 Self-Attention 机制使每个词可以同时理解全文，解决了传统模型在长文本中遗忘前文的问题，增强了模型对上下文的理解能力。
Transformer 通过编码器中的自注意力机制理解用户问题，借助预训练时学习过的海量文本，在解码器中以自回归的方式预测下一个最有可能的词。严格说，Transformer 不是真的“知道”，而是从海量对话数据中学到了一种极其强大的统计规律：在“某类问题”和“已有草稿”这样的上下文里，“什么词”出现的概率最高。

题外话，你觉得如今的大模型只是纯粹粗暴的统计规律？还是已经涌现出了我们无法解释的智能？