Transformers and LLMs

2016 年，Attention is All You Need 论文提出了 Transformer 模型，从此 DL 开始它的新时代，注意力机制在 Transformer 的应用下得到了前所未有的应用和发展。Transformer 目前已经成为 NLP 领域的主流模型，并且在 CV、语音、多模态和强化学习系统中都有了非常成功的应用。

本章不再把 Transformer 和 LLM Preview 分开，而是把它们视为同一条技术链：tokenization 将原始数据变成离散序列，BPE/BBPE 决定离散接口的实现细节，attention 在 token 间做可微检索，mask 和 position encoding 定义条件分布，Transformer block 提供可扩展的残差计算，GPT-2 展示 decoder-only causal LM 的经典训练范式，next-token prediction 给出数学基础，Qwen3 展示现代开源 LLM 的架构、训练和推理系统，而 post-training、PEFT、training systems、KV cache、PagedAttention、continuous batching、speculative decoding、LLaDA 和 Mamba 等内容则说明现代 LLM 已经是 architecture、objective 和 system 的组合体。