-
- 1. 交叉熵损失(Cross-Entropy)的本质是什么?为什么分类任务中 Softmax 与交叉熵是"黄金搭档"(推导其简洁的梯度)?
- 2. 面对正负样本极度不平衡的场景,Focal Loss 是如何通过调制因子重塑梯度分布的?$\gamma$ 与 $\alpha$ 参数在实际调参中如何配合?
- 3. 在模型训练进入末期(Terminal Phase)时,交叉熵损失如何引发"神经坍缩(Neural Collapse)"现象?等角紧框架(ETF)揭示了什么底层几何规律?
- 4. 多标签分类(Multi-Label)与多分类(Multi-Class)在损失函数选择(Sigmoid+BCE vs Softmax+CE)上有何决定性差异?
- 5. 标签平滑(Label Smoothing)如何防止模型过度自信?它与 Focal Loss 能否组合使用?
- 1. MSE 与 MAE 在处理离群点(Outlier)时的梯度表现有何本质差异?Huber Loss 与 Smooth L1 Loss 如何实现 MSE 与 MAE 的优势互补?在目标检测的边界框回归中为何常选 Smooth L1?
- 2. 当回归目标值跨越多个数量级时,为什么对数均方误差(MSLE)比直接使用 MSE 更具鲁棒性?分位数损失(Quantile Loss)如何帮助模型不仅输出预测值,还能输出预测区间(置信度)?
- 1. 从 L1/L2 到 IoU Loss 的演进逻辑是什么?GIoU、DIoU、CIoU 乃至 WIoU 分别解决了边界框回归的哪些痛点?
- 2. InfoNCE Loss 与传统的 Triplet Loss 有何本质区别?对比学习中的"温度系数"如何决定模型对困难负样本的挖掘力度?
- 3. 知识蒸馏中的软标签(Soft Label)究竟传递了什么"暗知识"?蒸馏温度 $T$ 过高或过低分别有什么后果?
- 4. 在 DETR 等基于 Transformer 的架构中,二分图匹配损失(Bipartite Matching Loss)是如何彻底消除 NMS 后处理的?
- 1. 从贝叶斯先验的角度透视,为什么 L1 正则化产生拉普拉斯先验(稀疏解),而 L2 产生高斯先验(平滑解)?
- 2. AdamW 中的"解耦权重衰减(Decoupled Weight Decay)"与直接在 Adam 中应用 L2 正则化是等价的吗?为什么大模型微调必用 AdamW?
- 3. 在大语言模型微调时,参数正则化策略与从头预训练时有何不同?
- 1. Dropout 的训练与推理阶段行为有何不同?为什么 Inverted Dropout(反向 Dropout)成为了现代深度学习框架的标准实现?
- 2. 为什么在现代 CNN 和 ViT 等 Transformer 架构中,DropBlock 和 DropPath(随机深度)逐渐取代了标准 Dropout?
- 3. 为什么 Dropout 与 Batch Normalization(BN)同时使用时容易引发"方差偏移"冲突?如何从网络结构设计上规避?
- 1. Mixup 与 CutMix 的数学本质是什么?它们如何通过平滑决策边界来提升模型的泛化与抗对抗攻击能力?
- 2. YOLO 系列广泛使用的 Mosaic 数据增强,为什么对提升小目标检测能力和优化单卡小 Batch Size 的 BN 统计量有奇效?
- 3. AutoAugment 与 RandAugment 在搜索空间上有何本质区别?为什么在小样本场景下,过度的数据增强反而有害?
- 1. 对抗训练(FGSM、PGD)的核心思想是什么?它如何作为一种强正则化手段提升模型的鲁棒性?
- 2. R-Drop 的设计思路是什么?为什么它在 NLP 和部分分类任务中仅靠增加 KL 散度约束就能显著涨点?
- 1. 内部协变量偏移(ICS)假说面临了哪些理论挑战?现代视角如何从"平滑损失曲面(Loss Landscape)"的角度解释归一化的有效性?
- [2. 常见归一化方法(BN、LN、IN、GN)在特征张量的维度划分上有什么本质区别?(请结合具体形状 $N, C, H, W]$ 解释)
- 1. BN 在训练与推理阶段的运行时状态有何不同(Running Mean/Var)?为什么在小 Batch Size 场景下 BN 会彻底崩溃?
- 2. 在多卡分布式训练中,为什么目标检测任务必须强制引入同步批归一化(SyncBN)?冻结 BN 层(Frozen BN)是什么?在小数据集上做迁移学习微调时为什么要冻结它?
- 1. LN 为什么能彻底摆脱 Batch Size 的束缚?在 Transformer 中,Pre-LN 与 Post-LN 对深层网络梯度的影响有何显著差异?
- 2. 为什么 LLaMA、Qwen 等现代大模型全面转向 RMSNorm?它去掉了中心化操作,用什么代价换取了计算效率的飞跃?
- 1. Instance Normalization(IN)为什么特别适合图像风格迁移任务?它抹除了什么信息?
- 2. Group Normalization(GN)如何在 BN 和 LN 之间取得平衡?为什么它在目标检测的检测头(Head)中大受欢迎?
- 1. 动量(Momentum)机制的物理学直觉是什么?它如何有效抑制梯度下降在病态曲率(如"峡谷"地形)中的剧烈震荡?
- 2. Nesterov 动量(NAG)的"前瞻梯度"思想是如何比传统动量更早一步进行刹车减速的?
- 1. 从 AdaGrad 的学习率衰减危机,到 RMSprop 的指数移动平均,再到 Adam 的封神之路,自适应优化器的演进逻辑是什么?
- 2. 为什么在部分细粒度视觉任务中,精心调参的 SGD+Momentum 极限泛化性能依然优于 Adam?二者在寻找极小值时的倾向有何不同?
- 3. Adam 优化器中的一阶矩和二阶矩分别代表什么物理意义?为什么初期训练时必须进行偏差修正(Bias Correction)?
- 1. 牛顿法等二阶优化在海量参数模型中面临怎样的算力($\mathcal{O}(N^3)$)与存储(Hessian 矩阵)灾难?
- 2. Flash Attention 如何通过优化 SRAM 与 HBM 之间的 IO,极大地加速了网络的前向与反向传播?
- 3. 学习率预热(Warmup)与余弦退火(Cosine Annealing)的组合为什么成为了现代深度学习(特别是 Transformer)的标准调度策略?
- 1. 深度学习完整训练流水线中,如何科学设计数据划分,彻底杜绝数据泄露(Data Leakage)?
- 2. DDP(DistributedDataParallel)在底层多进程和梯度通信机制上,为什么全面碾压传统的 DataParallel(DP)?
- 3. 面对显存瓶颈,ZeRO 优化技术的三个阶段是如何逐级切分优化器状态、梯度和模型参数的?
- 1. 梯度消失与爆炸的链式法则根源是什么?残差连接(Residual Connection)如何在数学上强行打通梯度的"高速公路"?
- 2. 梯度检查点(Gradient Checkpointing)是如何通过"以计算时间换取显存空间"的策略,拯救大模型训练 OOM 问题的?
- 1. 什么是灾难性遗忘(Catastrophic Forgetting)?在领域增量学习(Domain Incremental Learning)中,弹性权重巩固(EWC)是如何通过 Fisher 信息矩阵保护旧知识的?
- 2. LoRA(Low-Rank Adaptation)的底层数学原理是什么?为什么它能在几乎不损失表征能力的前提下,利用极低秩矩阵近似完成大模型的跨领域微调?
- 3. QLoRA 中的 4-bit NormalFloat 量化与双重分块量化是如何结合 LoRA,实现消费级单卡微调庞大语言模型的?
- 1. 为什么在严重长尾分布的数据集中,Accuracy 是一个极具欺骗性的指标?Precision、Recall 与 F1-Score 如何构建更立体的评估?
- 2. ROC-AUC 的数学本质是什么?类别极度不平衡时,为什么 Precision-Recall 曲线比 ROC 曲线更有参考价值?
- 1. mAP(mean Average Precision)是如何计算的?PASCAL VOC 设定的 IoU 阈值标准与 COCO 数据集的严格标准(AP50:95)有何显著差异?
- 2. 非极大值抑制(NMS)在密集目标检测中容易造成什么误删问题?Soft-NMS 是如何优雅地缓解这一现象的?