Transformers and LLMs


2016 年,Attention is All You Need 论文提出了 Transformer 模型,从此 DL 开始它的新时代,注意力机制在 Transformer 的应用下得到了前所未有的应用和发展。Transformer 目前已经成为 NLP 领域的主流模型,并且在 CV、语音、多模态和强化学习系统中都有了非常成功的应用。

本章不再把 Transformer 和 LLM Preview 分开,而是把它们视为同一条技术链:tokenization 将原始数据变成离散序列,BPE/BBPE 决定离散接口的实现细节,attention 在 token 间做可微检索,mask 和 position encoding 定义条件分布,Transformer block 提供可扩展的残差计算,GPT-2 展示 decoder-only causal LM 的经典训练范式,next-token prediction 给出数学基础,Qwen3 展示现代开源 LLM 的架构、训练和推理系统,而 post-training、PEFT、training systems、KV cache、PagedAttention、continuous batching、speculative decoding、LLaDA 和 Mamba 等内容则说明现代 LLM 已经是 architecture、objective 和 system 的组合体。