About

Chap 0 预热：30 分钟跑通一个 PyTorch 训练脚本
- 0.1 安装与环境验证
- 0.2 用 20 行代码训练 MNIST 小模型
- 0.3 用 TensorBoard 看第一条曲线
Chap 1 PyTorch 基础 & GPU 原理
- 1.1 Tensor 语义：view / reshape / permute / stride
- 1.2 autograd 101：叶子节点、grad_fn、梯度累加
- 1.3 CUDA 与并行：线程层次、SM、内存层次、流（Stream）
- 1.4 常见坑：device 不一致、pin_memory、non_blocking、AMP
- 1.5 速查表：常用 API 与 torch.nn.functional 映射表
Chap 2 网络基础
- 2.1 计算图与反向传播图解
- 2.2 线性层、激活、Dropout、BN
- 2.3 CNN：卷积可视化、空洞卷积、分组卷积、Depthwise & Pointwise
- 2.4 RNN 家族：Vanilla RNN、LSTM、GRU；PackedSequence
- 2.5 PyTorch Lightning：把训练循环抽象为 “pl.LightningModule”
Chap 3 优化方法
- 3.1 SGD、Momentum、Nesterov、Ada* 家族
- 3.2 学习率调度：StepLR、Cosine、One-Cycle、Warmup
- 3.3 二阶近似：L-BFGS、Shampoo、K-FAC（概念级）
- 3.4 正则化：L1/L2、Weight Decay、Label Smoothing、DropBlock
- 3.5 梯度裁剪、梯度累积、混合精度（AMP）
Chap 4 Transformer & Attention
- 4.1 Scaled-Dot Attention、Multi-Head、Causal Mask
- 4.2 Positional Encoding：Sinusoidal、Learnable、RoPE
- 4.3 Transformer Encoder/Decoder、Encoder-Only、Decoder-Only
- 4.4 Vision Transformer（ViT）与 Swin Transformer
- 4.5 FlashAttention、PagedAttention（概念 + PyTorch 2.0 SDPA）
Chap 5 LLM/NLP 训练技术
- 5.1 Tokenizer：BPE、SentencePiece、TikTokenizer
- 5.2 预训练： causal LM、masked LM、next-sentence prediction
- 5.3 微调范式：Fine-Tuning、Adapter、LoRA、QLoRA、Prefix-Tuning
- 5.4 RLHF：PPO、DPO、RRHF（概念 + TRL 代码片段）
- 5.5 分布式训练：DDP、FSDP、DeepSpeed ZeRO-3、Megatron-LM
- 5.6 推理优化：KV-Cache、Continuous Batching、Speculative Decoding