AIGC-Interview-Book/深度学习基础/03_模型训练与优化.md at main · WeThinkIn/AIGC-Interview-Book

深度学习核心概念手册（第8-13章）

目录

第8章损失函数

8.1 分类任务损失函数（交叉熵、Focal Loss）
8.2 回归任务损失函数（MSE、MAE、Huber Loss）
- 1. MSE 与 MAE 在处理离群点（Outlier）时的梯度表现有何本质差异？Huber Loss 与 Smooth L1 Loss 如何实现 MSE 与 MAE 的优势互补？在目标检测的边界框回归中为何常选 Smooth L1？
- 2. 当回归目标值跨越多个数量级时，为什么对数均方误差（MSLE）比直接使用 MSE 更具鲁棒性？分位数损失（Quantile Loss）如何帮助模型不仅输出预测值，还能输出预测区间（置信度）？
8.3 其他任务损失函数（对比学习、IoU Loss、知识蒸馏）
第9章正则化技术

9.1 参数正则化（L1、L2、Elastic Net）
9.2 Dropout 及其变体
9.3 数据增强（Mixup、CutMix、Mosaic、AutoAugment）
9.4 早停（Early Stopping）
- 1. 早停（Early Stopping）为什么在数学上被证明与 L2 正则化具有等价的参数约束效果？实际工程中，Patience 机制如何设置才能避免因 Loss 正常震荡而导致的过早退出？
9.5 其他正则化方法
- 1. 对抗训练（FGSM、PGD）的核心思想是什么？它如何作为一种强正则化手段提升模型的鲁棒性？
- 2. R-Drop 的设计思路是什么？为什么它在 NLP 和部分分类任务中仅靠增加 KL 散度约束就能显著涨点？
第10章归一化技术

10.1 归一化的基本原理
- 1. 内部协变量偏移（ICS）假说面临了哪些理论挑战？现代视角如何从"平滑损失曲面（Loss Landscape）"的角度解释归一化的有效性？
- [2. 常见归一化方法（BN、LN、IN、GN）在特征张量的维度划分上有什么本质区别？（请结合具体形状 $N, C, H, W]$ 解释）
10.2 Batch Normalization（BN）
- 1. BN 在训练与推理阶段的运行时状态有何不同（Running Mean/Var）？为什么在小 Batch Size 场景下 BN 会彻底崩溃？
- 2. 在多卡分布式训练中，为什么目标检测任务必须强制引入同步批归一化（SyncBN）？冻结 BN 层（Frozen BN）是什么？在小数据集上做迁移学习微调时为什么要冻结它？
10.3 Layer Normalization（LN、RMSNorm）
- 1. LN 为什么能彻底摆脱 Batch Size 的束缚？在 Transformer 中，Pre-LN 与 Post-LN 对深层网络梯度的影响有何显著差异？
- 2. 为什么 LLaMA、Qwen 等现代大模型全面转向 RMSNorm？它去掉了中心化操作，用什么代价换取了计算效率的飞跃？
10.4 其他归一化方法（IN、GN、WN）
- 1. Instance Normalization（IN）为什么特别适合图像风格迁移任务？它抹除了什么信息？
- 2. Group Normalization（GN）如何在 BN 和 LN 之间取得平衡？为什么它在目标检测的检测头（Head）中大受欢迎？
第11章优化算法

11.1 梯度下降基础（BGD、SGD、MBGD）
- 1. 随机梯度下降（SGD）引入的 Mini-batch 随机噪声，为什么不仅不是缺陷，反而是帮助模型逃离鞍点（Saddle Point）的关键？大 Batch 训练存在什么泛化问题（Sharp Minima）？线性缩放规则（Linear Scaling Rule）如何指导我们调整学习率？
11.2 动量方法（Momentum、Nesterov）
- 1. 动量（Momentum）机制的物理学直觉是什么？它如何有效抑制梯度下降在病态曲率（如"峡谷"地形）中的剧烈震荡？
- 2. Nesterov 动量（NAG）的"前瞻梯度"思想是如何比传统动量更早一步进行刹车减速的？
11.3 自适应学习率方法（AdaGrad、RMSprop、Adam、AdamW、AdaFactor）
11.4 二阶优化方法与前沿技巧
第12章模型训练技巧

12.1 训练流程管理与分布式
12.2 超参数调优与梯度问题
- 1. 梯度消失与爆炸的链式法则根源是什么？残差连接（Residual Connection）如何在数学上强行打通梯度的"高速公路"？
- 2. 梯度检查点（Gradient Checkpointing）是如何通过"以计算时间换取显存空间"的策略，拯救大模型训练 OOM 问题的？
12.3 预训练、微调与持续学习
第13章模型评估与部署

13.1 分类与回归任务评估指标
- 1. 为什么在严重长尾分布的数据集中，Accuracy 是一个极具欺骗性的指标？Precision、Recall 与 F1-Score 如何构建更立体的评估？
- 2. ROC-AUC 的数学本质是什么？类别极度不平衡时，为什么 Precision-Recall 曲线比 ROC 曲线更有参考价值？
13.2 检测与分割任务评估指标
- 1. mAP（mean Average Precision）是如何计算的？PASCAL VOC 设定的 IoU 阈值标准与 COCO 数据集的严格标准（AP50:95）有何显著差异？
- 2. 非极大值抑制（NMS）在密集目标检测中容易造成什么误删问题？Soft-NMS 是如何优雅地缓解这一现象的？
13.3 NLP 与生成式任务评估
- 1. BLEU 与 ROUGE 分数在评估逻辑上的核心区别是什么（精确率 vs 召回率）？
- 2. 困惑度（Perplexity）的数学定义是什么？为什么单纯的 PPL 越来越难以评估现代 LLM 的真实对话能力？
13.4 模型压缩与边缘部署

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

深度学习核心概念手册（第8-13章）

目录

第8章损失函数

8.1 分类任务损失函数（交叉熵、Focal Loss）

8.2 回归任务损失函数（MSE、MAE、Huber Loss）

8.3 其他任务损失函数（对比学习、IoU Loss、知识蒸馏）

第9章正则化技术

9.1 参数正则化（L1、L2、Elastic Net）

9.2 Dropout 及其变体

9.3 数据增强（Mixup、CutMix、Mosaic、AutoAugment）

9.4 早停（Early Stopping）

9.5 其他正则化方法

第10章归一化技术

10.1 归一化的基本原理

10.2 Batch Normalization（BN）

10.3 Layer Normalization（LN、RMSNorm）

10.4 其他归一化方法（IN、GN、WN）

第11章优化算法

11.1 梯度下降基础（BGD、SGD、MBGD）

11.2 动量方法（Momentum、Nesterov）

11.3 自适应学习率方法（AdaGrad、RMSprop、Adam、AdamW、AdaFactor）

11.4 二阶优化方法与前沿技巧

第12章模型训练技巧

12.1 训练流程管理与分布式

12.2 超参数调优与梯度问题

12.3 预训练、微调与持续学习

第13章模型评估与部署

13.1 分类与回归任务评估指标

13.2 检测与分割任务评估指标

13.3 NLP 与生成式任务评估

13.4 模型压缩与边缘部署

FilesExpand file tree

03_模型训练与优化.md

Latest commit

History

03_模型训练与优化.md

File metadata and controls

深度学习核心概念手册（第8-13章）

目录

第8章 损失函数

8.1 分类任务损失函数（交叉熵、Focal Loss）

8.2 回归任务损失函数（MSE、MAE、Huber Loss）

8.3 其他任务损失函数（对比学习、IoU Loss、知识蒸馏）

第9章 正则化技术

9.1 参数正则化（L1、L2、Elastic Net）

9.2 Dropout 及其变体

9.3 数据增强（Mixup、CutMix、Mosaic、AutoAugment）

9.4 早停（Early Stopping）

9.5 其他正则化方法

第10章 归一化技术

10.1 归一化的基本原理

10.2 Batch Normalization（BN）

10.3 Layer Normalization（LN、RMSNorm）

10.4 其他归一化方法（IN、GN、WN）

第11章 优化算法

11.1 梯度下降基础（BGD、SGD、MBGD）

11.2 动量方法（Momentum、Nesterov）

11.3 自适应学习率方法（AdaGrad、RMSprop、Adam、AdamW、AdaFactor）

11.4 二阶优化方法与前沿技巧

第12章 模型训练技巧

12.1 训练流程管理与分布式

12.2 超参数调优与梯度问题

12.3 预训练、微调与持续学习

第13章 模型评估与部署

13.1 分类与回归任务评估指标

13.2 检测与分割任务评估指标

13.3 NLP 与生成式任务评估

13.4 模型压缩与边缘部署

第8章损失函数

第9章正则化技术

第10章归一化技术

第11章优化算法

第12章模型训练技巧

第13章模型评估与部署