Appearance
3.1 Transformer 是什么
你不需要自己实现 Transformer,但理解它的设计思路,会让你对 AI 的行为有更深的直觉。
为什么叫"Transformer"
2017 年,Google 发布了一篇论文《Attention is All You Need》,提出了 Transformer 架构。这个名字来自它的核心操作:把输入"变换"成更有信息量的表示。
这个架构彻底改变了 AI 领域,之后的 GPT、Claude、Gemini 都是基于它的。
它解决了什么问题
在 Transformer 之前,处理语言的模型(比如 RNN、LSTM,这是两种早期的神经网络结构,你不需要了解它们)是顺序处理的:先处理第一个词,再处理第二个,一个一个来。
这有两个大问题:
- 速度慢:不能并行处理
- 长距离遗忘:处理到第 100 个词时,第 1 个词的信息已经很淡了
Transformer 的解决方案:让每个词同时"看到"所有其他词,而不是顺序处理。
核心思路:注意力机制
想象你在翻译一个句子:"The cat sat on the mat because it was tired."
当你处理"it"这个词时,你需要知道"it"指的是什么(是 cat 还是 mat?)。你的大脑会回头看整个句子,重点关注"cat"这个词,因为"tired"更可能是猫的状态。
Attention(注意力机制) 就是让 AI 做同样的事情:在处理每个词时,决定应该"关注"输入里的哪些部分。
处理 "it" 时:
对 "The" 的关注度: 0.1
对 "cat" 的关注度: 0.8 ← 高度关注
对 "sat" 的关注度: 0.05
对 "mat" 的关注度: 0.15
...这些关注度就是"注意力权重",它们决定了最终输出的含义。
为什么这解释了很多现象
现象:AI 对上下文开头和结尾更"记得住"
Attention 让每个位置的词都能看到所有其他位置,但在实践中,训练出来的模型对距离很远的内容的注意力会减弱。这就是"中间迷失"问题的根源。
现象:增加上下文长度不是免费的
Attention 的计算量随输入长度的平方增加。上下文从 100k 变成 200k,计算量变成 4 倍(不是 2 倍)。这就是长上下文模型为什么更贵、更慢。
现象:并行处理让训练很快
和 RNN 不同,Transformer 可以同时处理所有位置的词,在 GPU 上能高效并行计算。这让用海量数据训练大模型成为可能。
Transformer 的结构(简化版)
输入文字
↓
Token 化 + Embedding(变成数字)
↓
位置编码(告诉模型每个词在哪个位置)
↓
多层 Attention + 前馈网络
(每层让表示更丰富、更有信息量)
↓
输出层
(计算每个候选词出现的可能性,选一个输出)"参数(Parameter)"就是这些层里的无数个数字,是训练出来的。一个大模型有几百亿到几千亿个参数。
📌 关键结论
- Transformer 让每个词能同时"关注"输入里的所有词,解决了顺序处理的问题
- Attention 机制是核心,它决定"处理这个词时应该重点看哪里"
- 上下文越长,计算量按平方增加——这解释了为什么长上下文模型更贵
- 所有主流大模型(Claude、GPT、Gemini)都基于 Transformer