Skip to content

0.2 LLM 在做什么事

从你发一条消息开始

你向 Claude 发了一段话,比如"帮我写一个登录页面"。在你看到回复之前,发生了什么?

第一步:把你的话变成数字

AI 看不懂文字,只能处理数字。你的话首先被切成一个个小片段,叫做 Token(词元),每个 Token 对应一个数字编号。

"帮我写一个登录页面"
→ ["帮", "我", "写", "一个", "登录", "页面"]  (大概这样分)
→ [1823, 492, 7731, 256, 3847, 9012]  (每个对应一个数字)

💡 类比:就像电报里把文字转成莫尔斯码,AI 把文字转成它能处理的数字序列。


什么是 Token

Token 是 AI 处理文字的最小单位,但它不等于一个字或一个单词

  • 英文里,一个单词可能是一个 Token,也可能被切成几个 Token
  • 中文里,每个汉字大概是 1-2 个 Token
  • 标点符号、空格也是 Token

为什么你需要理解 Token?

因为 AI 的很多限制都和 Token 直接相关:

  • 上下文窗口(Context Window) 就是以 Token 数量计算的
  • 费用 是按 Token 数量计费的
  • 响应速度 取决于生成了多少 Token

⚠️ 常见误解:很多人以为"上下文 200k"是指 200k 个字。实际上是 200k 个 Token,中文大概是 10-15 万个汉字。


什么是上下文窗口

AI 每次处理对话,都有一个"工作内存"的上限,就是上下文窗口(Context Window)

想象 AI 是一个人,正在处理你们的对话。但这个人有一个特殊限制:它只能看到桌面上的一叠纸,纸放满了,最早的就会滑落看不见。

[系统提示] + [历史对话] + [你的新消息] + [AI 的回复]
          ↑ 这些加起来不能超过上下文窗口的上限

这就是为什么:

  • 对话太长之后,AI 会"忘记"前面说过的事
  • 给 AI 塞入太多文件,它处理质量会下降
  • Agent 执行复杂任务时,上下文爆满是一个常见的失控原因

AI 怎么生成回复

理解了 Token,我们来看 AI 怎么生成回复。

它不是先想好整段话再打出来,而是一个 Token 一个 Token 地预测

  1. 看当前所有内容(你的消息 + 历史对话)
  2. 计算"下一个 Token 最可能是哪个词"(列出所有候选词,每个词分配一个可能性分数)
  3. 根据概率选一个 Token
  4. 把这个 Token 加入内容,重复第 1 步

这个过程一直持续,直到生成了"结束"信号。

这就解释了为什么 AI 是流式输出的——因为它本来就是一个词一个词生成的,不是先有整段文字再传给你。


为什么 AI 会"幻觉"

"幻觉"是指 AI 一本正经地说出错误的事实,比如编造一个不存在的论文引用、给出错误的代码。

原因就在于它的工作机制:它在预测"听起来最合理的下一个词",而不是"最真实的下一个词"

当你问一个它不确定的问题,它不会说"我不知道",而是会生成"听起来最像答案的话"——因为那才是它训练出来的模式。

💡 类比:让一个从来没去过某个城市的人,给你描述那里的街道。他可能会结合其他城市的记忆,编出一段听起来很合理的描述,但具体细节可能是错的。


📌 关键结论

  1. AI 把文字切成 Token 处理,Token 数量决定了费用和上下文限制
  2. 上下文窗口是 AI 的"工作内存",超出了就会"忘事"
  3. AI 是一个 Token 一个 Token 流式生成的,不是先想好再说
  4. 幻觉的根本原因是"预测合理内容"而不是"确认真实内容"

下一节:0.3 AI 能做什么,不能做什么

写给自己的 AI 学习地图