WeThinkIn
diff --git a/‎AIGC图像创作&AI绘画基础/01_Stable Diffusion系列大模型基础.md‎
Lines changed: 114 additions & 24 deletions b/‎AIGC图像创作&AI绘画基础/01_Stable Diffusion系列大模型基础.md‎
Lines changed: 114 additions & 24 deletions
diff --git a/‎AIGC图像创作&AI绘画基础/imgs/DDPM_loss.png‎
-11.3 KB b/‎AIGC图像创作&AI绘画基础/imgs/DDPM_loss.png‎
-11.3 KB
diff --git a/‎AIGC图像创作&AI绘画基础/imgs/DDPM扩散模型反向去噪过程示意图.png‎
1.38 MB b/‎AIGC图像创作&AI绘画基础/imgs/DDPM扩散模型反向去噪过程示意图.png‎
1.38 MB
diff --git a/‎AIGC图像创作&AI绘画基础/imgs/DDPM扩散模型的前向扩散过程和反向去噪过程示意图.png‎
4.18 MB b/‎AIGC图像创作&AI绘画基础/imgs/DDPM扩散模型的前向扩散过程和反向去噪过程示意图.png‎
4.18 MB
diff --git a/‎AIGC图像创作&AI绘画基础/imgs/DDPM扩散模型的前向扩散过程示意图.png‎
787 KB b/‎AIGC图像创作&AI绘画基础/imgs/DDPM扩散模型的前向扩散过程示意图.png‎
787 KB
@@ -119,7 +119,9 @@
 
 <h2 id="q-002">面试问题：DDPM中的马尔可夫链是如何定义的?介绍一下DDPM的前向扩散过程和反向去噪过程</h2>
 
-DDPM的核心是**两个对称的一阶马尔可夫链**：一个是**固定的前向扩散链**（逐步将数据转化为纯噪声），另一个是**可学习的反向去噪链**（逐步从纯噪声中恢复数据）。整个模型通过变分推断训练反向链，使其精确逆转前向扩散过程。
+DDPM的核心是**两个对称的一阶马尔可夫链**：一个是**人为设计的固定前向扩散链**（逐步将数据转化为纯噪声），另一个是**可学习的反向去噪链**（逐步从纯噪声中恢复数据）。整个模型通过变分推断训练反向链，使其精确逆转前向扩散过程。
+
+![DDPM扩散模型的前向扩散过程和反向去噪过程示意图](./imgs/DDPM扩散模型的前向扩散过程和反向去噪过程示意图.png)
 
 ### 1. DDPM中马尔可夫链的核心定义
 
@@ -129,9 +131,11 @@ DDPM是一个隐变量模型，其所有状态转移都满足**一阶马尔可
 - 反向过程（生成）： $p_\theta(x_{0:T}) = p(x_T) \prod_{t=1}^T p_\theta(x_{t-1}|x_t)$ ，是**可学习参数**的马尔可夫链
 - 所有隐变量 $x_1,...,x_T$ 与数据 $x_0$ 具有相同维度
 
-### 2. 前向扩散过程（数据→噪声）
+### 2. DDPM的前向扩散过程（数据→噪声）
+
+前向扩散过程的目标是**逐步向原始数据添加微小的高斯噪声**，经过 $T$ 步后将数据完全转化为标准高斯噪声。
 
-前向过程的目标是**逐步向原始数据添加微小的高斯噪声**，经过 $T$ 步后将数据完全转化为标准高斯噪声。
+![DDPM扩散模型的前向扩散过程示意图](./imgs/DDPM扩散模型的前向扩散过程示意图.png)
 
 #### 1. 转移分布定义
 
@@ -161,58 +165,147 @@ x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon, \quad \epsilon
 - 无需逐步迭代 $T$ 步，可一步生成任意时刻的带噪声样本
 - 当 $T$ 足够大时（论文中 $T=1000$ ）， $\bar{\alpha}_T \to 0$ ， $x_T \approx \mathcal{N}(0,I)$ ，即最终状态服从标准高斯分布，作为生成过程的先验
 
-### 3. 反向去噪过程（噪声→数据）
+### 3. DDPM的反向去噪过程（噪声→数据）
 
-反向过程的目标是**学习一个马尔可夫链，精确逆转前向扩散过程**，从标准高斯噪声 $x_T$ 出发，逐步生成清晰图像 $x_0$ 。
+反向去噪过程的目标是**学习一个马尔可夫链，精确逆转前向扩散过程**，从标准高斯噪声 $x_T$ 出发，逐步生成清晰图像 $x_0$ 。
+
+![DDPM扩散模型反向去噪过程示意图](./imgs/DDPM扩散模型反向去噪过程示意图.png)
 
 #### 1. 转移分布建模
 
-由于前向过程每步添加的噪声很小，反向过程的转移分布也可建模为高斯分布：
+由于前向扩散过程每步添加的噪声很小，反向去噪过程的转移分布也可建模为高斯分布：
 
 ```math
 p_\theta(x_{t-1}|x_t) = \mathcal{N}\left(x_{t-1}; \mu_\theta(x_t,t), \sigma_t^2 I\right)
 ```
 
-- 均值 $\mu_\theta(x_t,t)$ ：由神经网络（U-Net）学习得到，是模型的核心参数
+- 均值 $\mu_\theta(x_t,t)$ ：由神经网络（U-Net、DiT、Tranformer等）学习得到，是模型的核心参数
 - 方差 $\sigma_t^2$ ：论文中设为固定值，通常取 $\sigma_t^2 = \beta_t$ 或 $\tilde{\beta}_t = \frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\beta_t$ （两种极端情况效果相近）
 
-#### 2. 最优均值推导（ε-预测参数化）
+#### 2. 最优均值推导（ $ε$ -预测参数化）
+
+反向去噪过程真正想学习的是 $p_\theta(x_{t-1}|x_t)$ ：给定当前带噪样本 $x_t$ ，预测上一步更干净的样本 $x_{t-1}$ 。但训练时有一个很关键的便利条件：我们手里有真实训练图像 $x_0$ ，而前向扩散过程 $q$ 又是人为定义好的高斯马尔可夫链。因此在训练阶段，可以先计算一个“标准答案”：
+
+```math
+q(x_{t-1}|x_t,x_0)
+```
+
+这个公式表示：如果已经知道原图 $x_0$ ，也知道加噪后的 $x_t$ ，那么中间状态 $x_{t-1}$ 最可能是什么样。这个分布不是模型学习出来的，而是由前向扩散公式严格推出来的，所以可以作为反向去噪模型 $p_\theta(x_{t-1}|x_t)$ 的学习目标。
+
+根据贝叶斯定理，前向扩散过程的后验分布（已知 $x_t$ 和 $x_0$ 时 $x_{t-1}$ 的分布）可以写成：
+
+```math
+q(x_{t-1}|x_t,x_0) = \frac{q(x_t|x_{t-1},x_0)q(x_{t-1}|x_0)}{q(x_t|x_0)}
+```
+
+由于前向过程满足一阶马尔可夫性， $x_t$ 在给定 $x_{t-1}$ 后不再依赖 $x_0$ ，所以：
+
+```math
+q(x_{t-1}|x_t,x_0) = \frac{q(x_t|x_{t-1})q(x_{t-1}|x_0)}{q(x_t|x_0)}
+```
+
+这里三项都已经知道：
+
+```math
+q(x_t|x_{t-1}) = \mathcal{N}\left(x_t;\sqrt{\alpha_t}x_{t-1},\beta_t I\right)
+```
 
-根据贝叶斯定理，前向过程的后验分布（已知 $x_t$ 和 $x_0$ 时 $x_{t-1}$ 的分布）是可计算的：
+```math
+q(x_{t-1}|x_0) = \mathcal{N}\left(x_{t-1};\sqrt{\bar{\alpha}_{t-1}}x_0,(1-\bar{\alpha}_{t-1})I\right)
+```
+
+```math
+q(x_t|x_0) = \mathcal{N}\left(x_t;\sqrt{\bar{\alpha}_t}x_0,(1-\bar{\alpha}_t)I\right)
+```
+
+直观理解： $q(x_t|x_{t-1})$ 告诉我们“ $x_{t-1}$ 经过一步加噪后要能解释当前的 $x_t$ ”， $q(x_{t-1}|x_0)$ 告诉我们“ $x_{t-1}$ 又必须是从原图 $x_0$ 加噪 $t-1$ 步得到的合理状态”。这两个高斯约束相乘后，仍然是一个高斯分布。因此后验分布可计算为：
 
 ```math
 q(x_{t-1}|x_t,x_0) = \mathcal{N}\left(x_{t-1}; \tilde{\mu}_t(x_t,x_0), \tilde{\beta}_t I\right)
 ```
 
-其中最优均值为：
+其中后验方差为：
+
+```math
+\tilde{\beta}_t = \frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t}\beta_t
+```
+
+后验均值（也就是“如果知道真实 $x_0$ ，最合理的反向均值”）为：
 
 ```math
 \tilde{\mu}_t(x_t,x_0) = \frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}x_t + \frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t}x_0
 ```
 
-将 $x_0 = \frac{x_t - \sqrt{1-\bar{\alpha}_t}\epsilon}{\sqrt{\bar{\alpha}_t}}$ （来自前向过程重参数化）代入上式，可将最优均值转化为**预测噪声** $\epsilon$ 的形式：
+这个公式看起来复杂，但含义很朴素： $\tilde{\mu}_t$ 是 $x_t$ 和 $x_0$ 的加权平均。当前状态 $x_t$ 提供“现在已经噪到什么程度”的信息，原图 $x_0$ 提供“最终应该回到哪里”的信息，权重由噪声调度 $\alpha_t,\beta_t,\bar{\alpha}_t$ 决定。
+
+问题来了：采样生成时我们只有 $x_t$ ，并不知道真实的 $x_0$ 。如果直接让神经网络预测均值 $\mu_\theta(x_t,t)$ ，它需要学习一个比较绕的加权均值函数。DDPM的关键技巧是利用前向扩散的重参数化公式：
+
+```math
+x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon
+```
+
+将它改写为：
+
+```math
+x_0 = \frac{x_t - \sqrt{1-\bar{\alpha}_t}\epsilon}{\sqrt{\bar{\alpha}_t}}
+```
+
+也就是说，只要知道 $x_t$ 中混入了多少噪声 $\epsilon$ ，就可以反推出对应的干净图像 $x_0$ 的估计。将这个 $x_0$ 代入后验均值公式：
+
+```math
+\tilde{\mu}_t(x_t,x_0)
+= \frac{\sqrt{\alpha_t}(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_t}x_t
++ \frac{\sqrt{\bar{\alpha}_{t-1}}\beta_t}{1-\bar{\alpha}_t}
+\cdot
+\frac{x_t-\sqrt{1-\bar{\alpha}_t}\epsilon}{\sqrt{\bar{\alpha}_t}}
+```
+
+利用 $\bar{\alpha}_t=\alpha_t\bar{\alpha}_{t-1}$ 化简，可以得到：
+
+```math
+\tilde{\mu}_t(x_t,x_0)
+= \frac{1}{\sqrt{\alpha_t}}\left(x_t-\frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon\right)
+```
+
+于是，原本的“预测反向均值”问题就变成了“预测前向过程中加入的噪声”问题。训练时真实噪声 $\epsilon$ 是已知的，因为 $x_t$ 就是我们用下面这个公式人为合成出来的：
+
+```math
+x_t = \sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon, \quad \epsilon \sim \mathcal{N}(0,I)
+```
+
+所以模型只需要学习：
+
+```math
+\epsilon_\theta(x_t,t) \approx \epsilon
+```
+
+再把预测噪声 $\epsilon_\theta(x_t,t)$ 代入化简后的后验均值，就得到反向过程使用的模型均值：
 
 ```math
 \mu_\theta(x_t,t) = \frac{1}{\sqrt{\alpha_t}}\left(x_t - \frac{\beta_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t)\right)
 ```
 
 其中 $\epsilon_\theta(x_t,t)$ 是神经网络，输入带噪声样本 $x_t$ 和时间步 $t$ ，输出预测的噪声 $\epsilon$ 。
 
+可以把整个逻辑串成一句话：
+
+前向过程可计算 → 后验 $q(x_{t-1}|x_t,x_0)$ 有解析最优均值 → 最优均值依赖 $x_0$ → $x_0$ 又可以由 $x_t$ 和噪声 $ε$ 表示 → 所以学习均值等价于学习噪声 $ε$ → 训练目标变成简单的噪声预测 MSE。
+
 这是DDPM最关键的创新：**将学习复杂的均值函数转化为简单的噪声预测任务**，大大简化了训练目标。
 
-#### 3. 训练目标
+#### 3. DDPM的训练目标
 
-通过最大化对数似然的变分下界，最终化简得到DDPM的简化训练目标（论文中效果最好的版本）：
+通过最大化对数似然的变分下界，我们可以最终化简得到DDPM的简化训练目标（DDPM论文中效果最好的版本）：
 
 ```math
 L_{\text{simple}}(\theta) = \mathbb{E}_{t \sim U(1,T), x_0 \sim q(x_0), \epsilon \sim \mathcal{N}(0,I)}\left[\left\|\epsilon - \epsilon_\theta\left(\sqrt{\bar{\alpha}_t}x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon, t\right)\right\|^2\right]
 ```
 
-- 训练流程：随机采样时间步 $t$ 、原始图像 $x_0$ 和噪声 $\epsilon$ ，生成带噪声样本 $x_t$ ，让模型预测 $\epsilon$ ，计算MSE损失并反向传播
+训练流程：随机采样时间步 $t$ 、原始图像 $x_0$ 和噪声 $\epsilon$ ，生成带噪声样本 $x_t$ ，让模型预测 $\epsilon$ ，计算MSE损失并反向传播。
 
-#### 4. 采样流程（算法2）
+#### 4. 采样流程
 
-训练完成后，生成样本的过程如下：
+训练完成后，DDPM生成样本的过程如下：
 
 **步骤 1**：从标准高斯分布采样初始噪声 $x_T \sim \mathcal{N}(0,I)$ 。
 
@@ -229,11 +322,11 @@ x_{t-1} = \frac{1}{\sqrt{\alpha_t}}\left(x_t - \frac{\beta_t}{\sqrt{1-\bar{\alph
 
 <h2 id="q-003">面试问题：介绍一下DDPM中的重参数技巧</h2>
 
-**DDPM中的重参数技巧是整个模型能够高效训练的数学基石**。它将原本不可导的随机采样过程转化为可导的确定性计算，不仅解决了反向传播的问题，更将DDPM的训练目标从复杂的变分下界简化为了简单的MSE损失，让扩散模型从理论构想变成了可实际训练的生成模型。
+**DDPM中的重参数技巧（Reparameterization Trick）是扩散模型能够高效训练的数学基石**。它将原本不可导的随机采样过程转化为可导的确定性计算，不仅解决了反向传播的问题，更将DDPM的训练目标从复杂的变分下界简化为了简单的MSE损失，让扩散模型从理论构想变成了可实际训练的生成模型。
 
 ### 1. 重参数技巧的本质
 
-重参数技巧（Reparameterization Trick）的核心思想是：**将随机变量的采样过程拆分为"确定性变换+独立随机噪声采样"两部分，把随机性从计算图中分离出来，使得整个过程对模型参数可导**。
+重参数技巧的核心思想是：**将随机变量的采样过程拆分为"确定性变换+独立随机噪声采样"两部分，把随机性从计算图中分离出来，使得整个过程对模型参数可导**。
 
 在VAE中，重参数用于后验分布 $q(z|x)$ 的采样；而在DDPM中，重参数**专门用于前向扩散过程的边缘分布 $q(x_t|x_0)$ 的采样**，这是DDPM与其他生成模型的关键区别。
 
@@ -294,7 +387,7 @@ x_0 = \frac{x_t - \sqrt{1-\bar{\alpha}_t}\epsilon}{\sqrt{\bar{\alpha}_t}}
 
 <h2 id="q-003a">面试问题：DDPM训练目标中的L_simple、L_vlb、混合损失各自解决什么问题？</h2>
 
-DDPM的三个训练目标**从理论严谨性到工程实用性形成了完整的梯度**： $L_{\text{vlb}}$ 是严格的概率理论基础， $L_{\text{simple}}$ 是工业界标准的工程实现，混合损失则兼顾了两者的优点。理解它们的取舍关系，是掌握扩散模型训练精髓的核心。
+DDPM的三个训练目标**从理论严谨性到工程实用性形成了完整的梯度**： $L_{\text{vlb}}$ 是严格的概率理论基础， $L_{\text{simple}}$ 是工业界标准的工程实现，混合损失则兼顾了两者的优点。Rocky人为理解它们的取舍关系，是掌握扩散模型训练精髓的核心。
 
 ### 1. 核心前提：所有损失都源自变分下界
 
@@ -356,7 +449,7 @@ L_{\text{simple}}(\theta) = \mathbb{E}_{t \sim U(1,T), x_0 \sim q(x_0), \epsilon
 
 #### 3. 理论依据（为什么去掉权重依然有效）
 
-论文证明：当神经网络足够强大时，优化 $L_{\text{simple}}$ 和优化 $L_{\text{vlb}}$ 的**最优解是完全一致的**。 $L_{\text{simple}}$ 本质上是一个**加权的变分下界**，只是权重与 $L_{\text{vlb}}$ 不同，它更符合人类的视觉感知特性。
+DDPM论文中证明：当神经网络足够强大时，优化 $L_{\text{simple}}$ 和优化 $L_{\text{vlb}}$ 的**最优解是完全一致的**。 $L_{\text{simple}}$ 本质上是一个**加权的变分下界**，只是权重与 $L_{\text{vlb}}$ 不同，它更符合人类的视觉感知特性。
 
 #### 4. 局限性
 
@@ -391,10 +484,7 @@ L_{\text{mixed}} = \lambda L_{\text{simple}} + (1-\lambda) L_{\text{vlb}}
 
 其中 $\lambda \in (0,1)$ 是平衡系数，通常取 $\lambda=0.9$ 左右。
 
-#### 3. 解决的核心问题
-
-- 打破了"样本质量和对数似然不可兼得"的困境，让模型既拥有媲美GAN的生成质量，又具备概率模型的可解释性和可评估性。
-- 适用于对概率性能有要求的场景，如数据压缩、异常检测等。
+打破了"样本质量和对数似然不可兼得"的困境，让模型既拥有超越GAN的生成质量，又具备概率模型的可解释性和可评估性。
 
 
 <h2 id="q-005">面试问题：DDPM是预测噪声还是预测当前分布？为什么DDPM加噪声的幅度是不一致的？扩散模型中添加的是高斯噪声，能否使用其他噪声的加噪方式？</h2>