fix: 修复GitHub渲染失败的公式格式（行内空格+列表内math块去缩进）

WeThinkIn · WeThinkIn · commit 09d9471390c6 · 2026-04-28T21:44:27.000+08:00
diff --git a/AIGC图像创作&AI绘画基础/01_Stable Diffusion系列大模型基础.md b/AIGC图像创作&AI绘画基础/01_Stable Diffusion系列大模型基础.md
@@ -122,13 +122,16 @@
 DDPM的核心是**两个对称的一阶马尔可夫链**：一个是**固定的前向扩散链**（逐步将数据转化为纯噪声），另一个是**可学习的反向去噪链**（逐步从纯噪声中恢复数据）。整个模型通过变分推断训练反向链，使其精确逆转前向扩散过程。
 
 ### 1. DDPM中马尔可夫链的核心定义
-DDPM是一个隐变量模型，其所有状态转移都满足**一阶马尔可夫性**：任意时刻的状态$x_t$只依赖于前一时刻的状态$x_{t-1}$，与更早的状态无关。
-- 前向过程（扩散）：$q(x_{1:T}|x_0) = \prod_{t=1}^T q(x_t|x_{t-1})$，是**固定无参数**的马尔可夫链
-- 反向过程（生成）：$p_\theta(x_{0:T}) = p(x_T) \prod_{t=1}^T p_\theta(x_{t-1}|x_t)$，是**可学习参数**的马尔可夫链
-- 所有隐变量$x_1,...,x_T$与数据$x_0$具有相同维度
+
+DDPM是一个隐变量模型，其所有状态转移都满足**一阶马尔可夫性**：任意时刻的状态 $x_t$ 只依赖于前一时刻的状态 $x_{t-1}$ ，与更早的状态无关。
+
+- 前向过程（扩散）： $q(x_{1:T}|x_0) = \prod_{t=1}^T q(x_t|x_{t-1})$ ，是**固定无参数**的马尔可夫链
+- 反向过程（生成）： $p_\theta(x_{0:T}) = p(x_T) \prod_{t=1}^T p_\theta(x_{t-1}|x_t)$ ，是**可学习参数**的马尔可夫链
+- 所有隐变量 $x_1,...,x_T$ 与数据 $x_0$ 具有相同维度
 
 ### 2. 前向扩散过程（数据→噪声）
-前向过程的目标是**逐步向原始数据添加微小的高斯噪声**，经过$T$步后将数据完全转化为标准高斯噪声。
+
+前向过程的目标是**逐步向原始数据添加微小的高斯噪声**，经过 $T$ 步后将数据完全转化为标准高斯噪声。
 
 #### 1. 转移分布定义
 
@@ -211,15 +214,17 @@ L_{\text{simple}}(\theta) = \mathbb{E}_{t \sim U(1,T), x_0 \sim q(x_0), \epsilon
 
 训练完成后，生成样本的过程如下：
 
-1. 从标准高斯分布采样初始噪声： $x_T \sim \mathcal{N}(0,I)$
-2. 从 $t=T$ 到 $t=1$ 逐步迭代：
+**步骤 1**：从标准高斯分布采样初始噪声 $x_T \sim \mathcal{N}(0,I)$ 。
+
+**步骤 2**：从 $t=T$ 到 $t=1$ 逐步迭代：
 
-   ```math
-   x_{t-1} = \frac{1}{\sqrt{\alpha_t}}\left(x_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t)\right) + \sigma_t z
-   ```
+```math
+x_{t-1} = \frac{1}{\sqrt{\alpha_t}}\left(x_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t)\right) + \sigma_t z
+```
 
-   其中 $z \sim \mathcal{N}(0,I)$ （当 $t=1$ 时 $z=0$ ，最后一步不加噪声）
-3. 最终输出 $x_0$ 即为生成的图像
+其中 $z \sim \mathcal{N}(0,I)$ （当 $t=1$ 时 $z=0$ ，最后一步不加噪声）。
+
+**步骤 3**：最终输出 $x_0$ 即为生成的图像。
 
 
 <h2 id="q-003">面试问题：介绍一下DDPM中的重参数技巧</h2>
@@ -366,23 +371,25 @@ L_{\text{simple}}(\theta) = \mathbb{E}_{t \sim U(1,T), x_0 \sim q(x_0), \epsilon
 
 #### 2. 常见的混合策略
 
-1. **阶段式混合**：
-   - 训练前期（前70%-80%的迭代）：使用 $L_{\text{simple}}$ 快速学习图像的整体结构和语义
-   - 训练后期（后20%-30%的迭代）：切换到 $L_{\text{vlb}}$ 优化细节和对数似然
-   - 效果：FID分数与纯 $L_{\text{simple}}$ 相当，同时NLL值大幅提升
+**1. 阶段式混合**
 
-2. **时间步混合**：
-   - 高噪声阶段（ $t > t_0$ ）：使用 $L_{\text{simple}}$ 的均匀权重，保证整体结构质量
-   - 低噪声阶段（ $t \leq t_0$ ）：使用 $L_{\text{vlb}}$ 的原始权重，优化细节重建
-   - 效果：在不损失整体质量的前提下，提升图像的细节清晰度
+- 训练前期（前70%-80%的迭代）：使用 $L_{\text{simple}}$ 快速学习图像的整体结构和语义
+- 训练后期（后20%-30%的迭代）：切换到 $L_{\text{vlb}}$ 优化细节和对数似然
+- 效果：FID分数与纯 $L_{\text{simple}}$ 相当，同时NLL值大幅提升
 
-3. **加权混合**：
+**2. 时间步混合**
 
-   ```math
-   L_{\text{mixed}} = \lambda L_{\text{simple}} + (1-\lambda) L_{\text{vlb}}
-   ```
+- 高噪声阶段（ $t > t_0$ ）：使用 $L_{\text{simple}}$ 的均匀权重，保证整体结构质量
+- 低噪声阶段（ $t \leq t_0$ ）：使用 $L_{\text{vlb}}$ 的原始权重，优化细节重建
+- 效果：在不损失整体质量的前提下，提升图像的细节清晰度
 
-   其中 $\lambda \in (0,1)$ 是平衡系数，通常取 $\lambda=0.9$ 左右。
+**3. 加权混合**
+
+```math
+L_{\text{mixed}} = \lambda L_{\text{simple}} + (1-\lambda) L_{\text{vlb}}
+```
+
+其中 $\lambda \in (0,1)$ 是平衡系数，通常取 $\lambda=0.9$ 左右。
 
 #### 3. 解决的核心问题
 
@@ -789,17 +796,23 @@ x_{t-1} = \sqrt{\alpha_{t-1}} \cdot \hat{x}_0 + \sqrt{1-\alpha_{t-1}-\sigma_t^2}
 
 DDIM能实现确定性生成的根本原因，是它**打破了扩散模型必须是马尔可夫随机过程的固有认知**：
 
-1. **训练目标的不变性**：DDPM的训练损失只依赖于所有噪声水平的边缘分布 $q(x_t|x_0)$ ，与前向过程的马尔可夫性完全无关。只要边缘分布不变，我们可以构造任意非马尔可夫前向过程。
+**1. 训练目标的不变性**
+
+DDPM的训练损失只依赖于所有噪声水平的边缘分布 $q(x_t|x_0)$ ，与前向过程的马尔可夫性完全无关。只要边缘分布不变，我们可以构造任意非马尔可夫前向过程。
 
-2. **非马尔可夫前向过程的构造**：DDIM构造了一族前向过程，其中每一步 $x_{t-1}$ 都直接依赖原始干净图像 $x_0$ ，而不仅仅是前一步的 $x_t$ ：
+**2. 非马尔可夫前向过程的构造**
+
+DDIM构造了一族前向过程，其中每一步 $x_{t-1}$ 都直接依赖原始干净图像 $x_0$ ，而不仅仅是前一步的 $x_t$ ：
+
+```math
+q_\sigma(x_{t-1}|x_t,x_0) = \mathcal{N}\left(\sqrt{\alpha_{t-1}}x_0 + \sqrt{1-\alpha_{t-1}-\sigma_t^2}\cdot\frac{x_t-\sqrt{\alpha_t}x_0}{\sqrt{1-\alpha_t}}, \sigma_t^2 I\right)
+```
 
-   ```math
-   q_\sigma(x_{t-1}|x_t,x_0) = \mathcal{N}\left(\sqrt{\alpha_{t-1}}x_0 + \sqrt{1-\alpha_{t-1}-\sigma_t^2}\cdot\frac{x_t-\sqrt{\alpha_t}x_0}{\sqrt{1-\alpha_t}}, \sigma_t^2 I\right)
-   ```
+当 $\sigma_t=0$ 时，这个条件分布退化为一个点质量，即给定 $x_t$ 和 $x_0$ ， $x_{t-1}$ 是唯一确定的。
 
-   当 $\sigma_t=0$ 时，这个条件分布退化为一个点质量，即给定 $x_t$ 和 $x_0$ ， $x_{t-1}$ 是唯一确定的。
+**3. 反向过程的确定性推导**
 
-3. **反向过程的确定性推导**：对应的反向生成过程也因此变成确定性的——每一步的 $x_{t-1}$ 完全由当前的 $x_t$ 和模型预测的 $\hat{x}_0$ 唯一确定，不需要注入任何随机噪声。
+对应的反向生成过程也因此变成确定性的——每一步的 $x_{t-1}$ 完全由当前的 $x_t$ 和模型预测的 $\hat{x}_0$ 唯一确定，不需要注入任何随机噪声。
 
 ### 3. 确定性DDIM的理论本质
 
@@ -933,18 +946,19 @@ dx = \left[ f(x, t) - g^2(t) \nabla_x \log p_t(x) \right] dt + g(t)d\bar{w}
 
 #### 3. 训练与采样
 
-- **训练目标**：训练一个时间依赖的Score网络 $s_\theta(x, t)$ ，通过**加权Fisher散度**（去噪Score匹配）近似真实Score函数：
+**训练目标**：训练一个时间依赖的Score网络 $s_\theta(x, t)$ ，通过**加权Fisher散度**（去噪Score匹配）近似真实Score函数：
+
+```math
+\mathcal{L} = \mathbb{E}_{t \sim \mathcal{U}(0,T), x \sim p_t(x)} \left[ \lambda(t) \left\| s_\theta(x, t) - \nabla_x \log p_t(x) \right\|_2^2 \right]
+```
 
-  ```math
-  \mathcal{L} = \mathbb{E}_{t \sim \mathcal{U}(0,T), x \sim p_t(x)} \left[ \lambda(t) \left\| s_\theta(x, t) - \nabla_x \log p_t(x) \right\|_2^2 \right]
-  ```
+其中 $\lambda(t)$ 是时间权重函数，不同的权重对应不同的模型变体。
 
-  其中 $\lambda(t)$ 是时间权重函数，不同的权重对应不同的模型变体。
+**采样方法**：
 
-- **采样方法**：
-  - **随机采样**：用Euler-Maruyama等数值方法求解反向SDE，结果具有多样性
-  - **确定性采样**：求解对应的**概率流ODE**，结果可复现且支持精确似然计算
-  - **预测-校正采样**：结合SDE求解器（预测）和Langevin动力学（校正），在速度和质量之间取得最佳平衡
+- **随机采样**：用Euler-Maruyama等数值方法求解反向SDE，结果具有多样性
+- **确定性采样**：求解对应的**概率流ODE**，结果可复现且支持精确似然计算
+- **预测-校正采样**：结合SDE求解器（预测）和Langevin动力学（校正），在速度和质量之间取得最佳平衡
 
 ### 2. SDE框架统一DDPM与Score-Based模型的本质原因
 
@@ -959,21 +973,19 @@ dx = \left[ f(x, t) - g^2(t) \nabla_x \log p_t(x) \right] dt + g(t)d\bar{w}
 
 #### 2. 训练目标：都是加权Score匹配的特例
 
-- **DDPM的噪声预测损失**：
-  DDPM训练目标是预测添加的噪声 $\epsilon$ ，可以数学等价于：
+**DDPM的噪声预测损失**：DDPM训练目标是预测添加的噪声 $\epsilon$ ，可以数学等价于：
 
-  ```math
-  \mathcal{L}_{\text{DDPM}} = \mathbb{E}_{t, x_0, \epsilon} \left\| \epsilon - \epsilon_\theta(x_t, t) \right\|_2^2
-  ```
+```math
+\mathcal{L}_{\text{DDPM}} = \mathbb{E}_{t, x_0, \epsilon} \left\| \epsilon - \epsilon_\theta(x_t, t) \right\|_2^2
+```
 
-  这对应SDE框架中权重 $\lambda(t) = g^2(t)$ 的加权Fisher散度，且Score函数与噪声预测满足关系：
+这对应SDE框架中权重 $\lambda(t) = g^2(t)$ 的加权Fisher散度，且Score函数与噪声预测满足关系：
 
-  ```math
-  \nabla_x \log p_t(x) = -\frac{\epsilon}{\sigma_t}
-  ```
+```math
+\nabla_x \log p_t(x) = -\frac{\epsilon}{\sigma_t}
+```
 
-- **NCSN的多尺度Score匹配损失**：
-  NCSN训练目标是估计每个噪声尺度下的Score函数，对应SDE框架中权重 $\lambda(t) = \sigma_t^2$ 的加权Fisher散度。
+**NCSN的多尺度Score匹配损失**：NCSN训练目标是估计每个噪声尺度下的Score函数，对应SDE框架中权重 $\lambda(t) = \sigma_t^2$ 的加权Fisher散度。
 
 **结论**：DDPM和NCSN的训练目标只是SDE统一训练目标的不同权重选择，没有本质区别。
 
@@ -1515,15 +1527,17 @@ CFG的核心公式是：
 
 ### 2. 核心数学本质
 
-1. **基准替换**：将CFG的"生成基准"从**所有训练数据的平均分布（空提示词）**替换为**不想要内容的分布（负提示词）**。
-2. **差值放大**：放大"正条件噪声预测"与"负条件噪声预测"的差异，让生成过程同时**趋近正提示词特征**和**远离负提示词特征**。
-3. **隐式二分类梯度**：从score函数视角（ $\nabla \log p(z) = -\epsilon/\sigma$ ），等价于沿着**正/负条件的对数似然比梯度**更新：
+**1. 基准替换**：将CFG的"生成基准"从**所有训练数据的平均分布（空提示词）**替换为**不想要内容的分布（负提示词）**。
+
+**2. 差值放大**：放大"正条件噪声预测"与"负条件噪声预测"的差异，让生成过程同时**趋近正提示词特征**和**远离负提示词特征**。
 
-   ```math
-   \nabla \log \frac{p(z|c^+)}{p(z|c^-)} = \nabla \log p(z|c^+) - \nabla \log p(z|c^-)
-   ```
+**3. 隐式二分类梯度**：从score函数视角（ $\nabla \log p(z) = -\epsilon/\sigma$ ），等价于沿着**正/负条件的对数似然比梯度**更新：
 
-   引导强度 $s$ 控制该梯度的放大倍数，越大则正/负区分越严格。
+```math
+\nabla \log \frac{p(z|c^+)}{p(z|c^-)} = \nabla \log p(z|c^+) - \nabla \log p(z|c^-)
+```
+
+引导强度 $s$ 控制该梯度的放大倍数，越大则正/负区分越严格。
 
 #### 3. 关键结论
 
@@ -3311,23 +3325,23 @@ Stable Diffusion的模型融合主要通过 **Merge Block Weight（块权重融
 
 模型融合的目标是合并多个训练好的Stable Diffusion模型（如风格模型+主体模型），生成兼具各方优势的新模型。Merge Block Weight的核心创新在于**分块处理U-Net/Transformer结构**，而非整体融合：
 
-1. **U-Net结构解构**
+**1. U-Net结构解构**
 
-    Stable Diffusion的U-Net包含多个功能模块：
+Stable Diffusion的U-Net包含多个功能模块：
 
-    - **ResBlock**：负责基础特征提取与残差连接
-    - **Spatial Transformer（Cross-Attention）**：融合文本与图像语义
-    - **DownSample/UpSample**：控制特征图分辨率变换
+- **ResBlock**：负责基础特征提取与残差连接
+- **Spatial Transformer（Cross-Attention）**：融合文本与图像语义
+- **DownSample/UpSample**：控制特征图分辨率变换
 
-2. **分块独立融合**
+**2. 分块独立融合**
 
-    对每个模块的权重独立计算插值，公式为：
+对每个模块的权重独立计算插值，公式为：
 
-    ```math
-    W_{\text{merged}}^{(i)} = \alpha \cdot W_A^{(i)} + (1 - \alpha) \cdot W_B^{(i)}
-    ```
+```math
+W_{\text{merged}}^{(i)} = \alpha \cdot W_A^{(i)} + (1 - \alpha) \cdot W_B^{(i)}
+```
 
-    其中 $W_A^{(i)}$ 和 $W_B^{(i)}$ 是待融合模型在模块 $i$ 的权重， $\alpha$ 为该模块的融合系数（0~1）。
+其中 $W_A^{(i)}$ 和 $W_B^{(i)}$ 是待融合模型在模块 $i$ 的权重， $\alpha$ 为该模块的融合系数（0~1）。
 
 #### 二、技术实现流程