- Chap 0 预热:30 分钟跑通一个 PyTorch 训练脚本
- 0.1 安装与环境验证
- 0.2 用 20 行代码训练 MNIST 小模型
- 0.3 用 TensorBoard 看第一条曲线
- Chap 1 PyTorch 基础 & GPU 原理
- 1.1 Tensor 语义:view / reshape / permute / stride
- 1.2 autograd 101:叶子节点、grad_fn、梯度累加
- 1.3 CUDA 与并行:线程层次、SM、内存层次、流(Stream)
- 1.4 常见坑:device 不一致、pin_memory、non_blocking、AMP
- 1.5 速查表:常用 API 与 torch.nn.functional 映射表
- Chap 2 网络基础
- 2.1 计算图与反向传播图解
- 2.2 线性层、激活、Dropout、BN
- 2.3 CNN:卷积可视化、空洞卷积、分组卷积、Depthwise & Pointwise
- 2.4 RNN 家族:Vanilla RNN、LSTM、GRU;PackedSequence
- 2.5 PyTorch Lightning:把训练循环抽象为 “pl.LightningModule”
- Chap 3 优化方法
- 3.1 SGD、Momentum、Nesterov、Ada* 家族
- 3.2 学习率调度:StepLR、Cosine、One-Cycle、Warmup
- 3.3 二阶近似:L-BFGS、Shampoo、K-FAC(概念级)
- 3.4 正则化:L1/L2、Weight Decay、Label Smoothing、DropBlock
- 3.5 梯度裁剪、梯度累积、混合精度(AMP)
- Chap 4 Transformer & Attention
- 4.1 Scaled-Dot Attention、Multi-Head、Causal Mask
- 4.2 Positional Encoding:Sinusoidal、Learnable、RoPE
- 4.3 Transformer Encoder/Decoder、Encoder-Only、Decoder-Only
- 4.4 Vision Transformer(ViT)与 Swin Transformer
- 4.5 FlashAttention、PagedAttention(概念 + PyTorch 2.0 SDPA)
- Chap 5 LLM/NLP 训练技术
- 5.1 Tokenizer:BPE、SentencePiece、TikTokenizer
- 5.2 预训练: causal LM、masked LM、next-sentence prediction
- 5.3 微调范式:Fine-Tuning、Adapter、LoRA、QLoRA、Prefix-Tuning
- 5.4 RLHF:PPO、DPO、RRHF(概念 + TRL 代码片段)
- 5.5 分布式训练:DDP、FSDP、DeepSpeed ZeRO-3、Megatron-LM
- 5.6 推理优化:KV-Cache、Continuous Batching、Speculative Decoding