层归一化（LayerNorm）位置：原始Transformer：LayerNorm在残差连接和激活函数之后。 T5调整：LayerNorm置于残差连接之前（Pre-Norm），提升训练稳定性（梯度流动更顺畅）。
位置编码：使用相对位置编码（Relative Position Embeddings）而非绝对位置编码：每个注意力头学习一组标量，根据查询-键的相对位置偏移调整注意力logits。优势：更好地处理长序列，泛化到训练未见长度。
简化偏置项：移除LayerNorm中的偏置参数和部分线性层的偏置，减少冗余参数。

影响：

训练效率：Pre-Norm允许使用更大学习率，加速收敛；相对位置编码减少外推偏差。
稳定性：简化设计降低过拟合风险，论文中T5-Base在GLUE上标准差仅0.235。

3.T5的文本到文本框架如何适配多模态任务（如视频描述生成）？需对架构或训练策略做哪些调整？

适配多模态任务的扩展方案：

输入适配：

视频表示为帧序列+文本描述，通过线性投影将视频特征映射为令牌序列，与文本令牌拼接为统一输入。
例：输入："video caption: <frame_1> ... <frame_n> text: A person is running."

架构调整：

在Encoder中增加跨模态注意力层，使文本令牌与视频令牌交互。
参考VilBERT/LXMERT，但保留T5的Decoder用于生成输出。

训练策略：

预训练：使用视频-文本对（如HowTo100M）进行Span Corruption（掩码部分文本或视频特征）。
微调：任务前缀改为多模态指令（如"video QA: [video] Q: What is the person doing?"）。

挑战：

计算成本：视频数据维度高，需设计高效稀疏注意力机制。
模态对齐：需强化视频与文本的语义对齐损失（如对比学习）。

4.视频生成中需解决“文本-视频语义对齐”问题，T5如何参与这一过程？关键技术是什么？

文本-视频语义对齐需确保生成的视频内容与文本描述的语义一致（如“红色跑车在盘山公路漂移”不能出现蓝色车辆或直行场景）。

T5通过两方面参与：① 文本侧语义解构：利用预训练的Span Corruption和Encoder-Decoder架构，将文本拆解为细粒度语义单元（如“红色跑车”→颜色+主体，“盘山公路漂移”→场景+动作+动态），输出结构化的语义嵌入；② 跨模态特征融合：通过跨模态注意力机制（如Cross-Attention），将T5的文本嵌入与视频生成模型的视觉特征（如帧级CNN特征、时空Transformer特征）在潜空间对齐，约束视觉生成过程贴合文本语义。

关键技术包括任务前缀引导的特征聚焦（如添加“video control: ”前缀强化生成导向）、对比学习增强对齐（拉近文本-正样本视频对的特征距离，推远负样本对）。

5.视频编辑任务（如“将视频中白天的街道改为夜晚”）中，T5如何辅助实现可控编辑？

T5在视频编辑中负责编辑指令解析与局部控制生成：

首先解析用户指令的编辑意图（“改时间”）、目标属性（“夜晚”）及作用范围（“街道”）；

然后通过语义匹配定位原视频中与“街道”“白天”相关的视觉区域（如天空、建筑光照特征）；

最后生成编辑控制信号，包括：① 局部掩码（标记需修改的像素区域），② 属性替换特征（如夜晚的低照度、暖色调、灯光分布），③ 时序一致性约束（确保多帧修改后的光照渐变自然）。

例如，T5可将“白天→夜晚”解析为“光照强度降低60%+色温偏黄+添加路灯光斑”，指导视频编辑模型仅修改指定区域的光照属性，避免全局失真。

6.T5在文本到视频生成（Text-to-Video Generation）中扮演什么角色？其核心优势是什么？

T5在文本到视频生成中承担语义解析与控制信号生成的核心角色：首先将用户输入的自然语言指令（如“一只橘猫在雪地追逐蝴蝶”）解析为结构化的语义特征（包含主体、动作、场景、时序关系等），再通过跨模态对齐将这些特征转换为视频生成模型（如扩散模型、GAN）可理解的时空控制信号（如物体运动轨迹、背景动态、光影变化）。

其核心优势在于强大的语义理解与指令遵循能力——依托大规模预训练的Text-to-Text框架，能精准捕捉复杂指令的细节（如“慢动作”“逆光”），并通过零样本迁移适配未见过的场景组合，为视频生成提供可靠的高层语义指导，避免生成内容与文本脱节。

第二章【CLIP：文本-图像嵌入模型】核心基础知识高频考点

1.请讲一讲CLIP模型的原理及其应用场景？

CLIP模型是一种多模态模型，能够通过对比学习同时理解图像和文本。‌ 该模型由两个子模块组成：一个文本编码器和一个图像编码器，通过对比学习将图像和文本的特征对齐，从而在同一个向量空间中进行匹配。

CLIP的核心思想是将图像和文本编码到同一个向量空间中，这使得它能够进行文本与图像的跨模态检索。

在预训练阶段，CLIP通过对比图像和文本的向量表示，学习它们之间的匹配关系。模型接收一批图像-文本对作为输入，尝试将匹配的图像和文本向量在共同的语义空间中拉近，而不匹配的向量则推远。这种学习方式使得CLIP能够捕捉到图像和文本之间的深层语义联系，实现跨模态理解。

CLIP的应用场景非常广泛，包括零样本学习、图像分类、文本-图像检索、文本到图像生成以及开放领域的检测分割等任务。

2.请介绍下什么是对比学习？

对比学习（Contrastive Learning） 是一种基于样本之间相似性和差异性的无监督或自监督学习方法，旨在通过构建正负样本对来学习数据的有效表示。对比学习广泛应用于自然语言处理（NLP）、计算机视觉（CV）等领域，尤其在表征学习（Representation Learning） 中表现出色。通过对比正例和负例，模型能够学习到不同样本之间的相似性和差异性，从而生成更具区分性的特征表示。

核心思想：

通过样本之间的相似性和差异性来训练模型。它通过引入正例和负例，希望模型能够将正例样本对（即相似的样本对）的嵌入距离拉近，同时将负例样本对（即不相似的样本对）的嵌入距离拉远，即最小化类内距离，最大化类间距离。

对比学习的目标函数： 对比学习的目标是最小化类内距离，最大化类间距离。其基本目标函数可以表示为：

$$ L = \sum_{(x_i, x_{j+}) \in P} |f(x_i) - f(x_{j+})|^2_2 - \sum_{(x_i, x_{j-}) \in N} |f(x_i) - f(x_{j-})|^2_2 $$

其中：

$x_i$ 是样本 $i$ ，$x_{j^+}$ 是与 $x_i$ 相似的正例样本，$x_{j^-}$ 是与 $x_i$ 不相似的负例样本。

$f(x)$ 是模型的嵌入函数，它将样本 $x$ 映射到一个低维向量空间。

$\mathcal{P}$ 和 $\mathcal{N}$ 分别是正例对和负例对的集合。

通过最小化这个目标函数，模型可以学习到在嵌入空间中相似的样本靠得更近，而不相似的样本被推得更远。

3.请介绍下对比学习有哪些常见的方法？

SimCLR: 一种用于自监督表征学习的对比学习方法，主要用于计算机视觉任务。SimCLR 通过数据增强生成正例对，并使用对比损失函数来最大化正样本对的相似度，同时最小化负样本对的相似度。

SimCLR 的主要步骤包括：

数据增强：对同一张图片进行不同的数据增强（如翻转、裁剪、颜色变化），生成两张不同的视角，构成正例对。
特征提取：通过神经网络（如 ResNet）对两张增强后的图片进行编码，生成嵌入向量。
对比损失：通过对比损失函数（如 InfoNCE），最大化正例对的相似度，最小化负例对的相似度。

SimCLR 的损失函数（InfoNCE 损失）：

其中：

$z_i$ 和 $z_{j^+}$ 是正例对的嵌入表示。
$\text{sim}(z_i, z_j)$ 是嵌入向量之间的相似度，通常使用余弦相似度。
$\tau$ 是一个温度超参数。

MoCo（Momentum Contrast for Unsupervised Visual Representation Learning） 是另一种用于自监督学习的对比学习方法。 MoCo 使用一个动态更新的队列来存储负例，从而提高对比学习在大规模数据集上的效率。

MoCo 的核心思想是使用一个动量编码器（momentum encoder）生成稳定的负例，并通过一个动态队列保存大量负例样本，确保训练过程中的负例样本丰富多样。

Triplet Loss 是一种经典的对比学习损失函数，通常用于人脸识别等任务。Triplet Loss 使用三个样本构建一个样本三元组(anchor,positive,negative)，其中：

Anchor：参考样本。
Positive：与 Anchor 类似的样本。
Negative：与 Anchor 不相似的样本。

Triplet Loss 的目标是让 Anchor 和 Positive 的距离比 Anchor 和 Negative 的距离更近：

其中，$x_a$、$x_p$ 和 $x_n$ 分别是 Anchor、Positive 和 Negative 样本，$\alpha$ 是一个边界值。

4.请讲一讲BLIP2模型的原理及其优势？

BLIP-2模型是一种创新的视觉-语言预训练模型，通过结合冻结的图像编码器和大语言模型，降低了预训练成本，提高了视觉语言任务的性能‌‌。 BLIP-2采用两阶段预训练策略：第一阶段学习视觉语言表示，第二阶段进行视觉到语言的生成学习‌。

模型结构：

BLIP-2的核心是Q-Former，这是一个轻量级的变换器模块，用于从视觉特征中提取与语言相关的多模态嵌入。Q-Former由两个Transformer子模块组成，分别用于图像特征提取和文本处理‌。图像特征提取使用ViT（Vision Transformer），而文本处理则通过一个既可以作为编码器也可以作为解码器的Transformer实现‌。

BLIP-2的预训练任务包括以下三个目标：

图文匹配（ITM）‌：这是一个分类任务，判断图像和文本描述是否匹配。通过在一个batch内寻找负样本，进行二分类‌。
‌图像-文本对比学习（ITC）‌：将图像表示和文本表示对齐，使它们的互信息达到最大‌。
语言建模‌：通过大型语言模型进行语言生成任务，如文本生成或问答任务‌。

创新点和优势：

BLIP-2的创新点在于其模块化设计，使得模型可以复用现有的强大视觉模型（如CLIP、ViT）和语言模型（如GPT、OPT），无需端到端联合训练，从而大大降低了开发和训练成本‌。此外，BLIP-2通过冻结图像编码器和大型语言模型，仅训练投影层，进一步减少了计算成本‌。

5.在BLIP2中的Q-Former作用是什么？

BLIP2中的Q-Former的主要作用是融合视觉语义和LLM（大语言模型）的能力‌。

Q-Former是一个轻量级的transformer，它使用一个可学习的query向量集，从冻结的视觉模型提取视觉特征。

Q-Former的设计是为了解决视觉语义向量和LLM融合的挑战。

6.BLIP2中的Q-Former有什么缺点？

BLIP2的Q-Former结构的主要缺点包括参数量庞大、收敛过程缓慢以及性能提升不显著‌。具体来说：

参数量庞大‌：Q-Former模型的参数量超过100百万，这使得模型在有限的数据量下难以实现有效训练‌。庞大的参数集使得模型训练过程更加复杂和耗时。
收敛过程缓慢‌：Q-Former的训练具有一定的挑战性，因为它引入了大量的参数，这些参数在样本量有限的情况下难以有效收敛。即使在数据和计算资源都很充裕的情况下，Q-Former的性能提升也并不显著‌。
性能提升不显著‌：即使在数据量充足的情况下，Q-Former的性能上限也未能显著超越LLaVA-1.5的性能表现。

第三章【DDPM：去噪扩散概率模型】核心基础知识高频考点

第四章【DDIM：去噪扩散隐式模型】核心基础知识高频考点

第五章【StableDiffusion】核心基础知识高频考点

1.请讲一讲StableDiffusion模型的原理及其应用场景？

2.请介绍下StableDiffusion和latent-diffusion什么关系？

Stable Diffusion 是 Latent Diffusion 模型的一种具体实现和最有名的代表。它们的关系可以理解为“实作与理论”，或者“具体产品与底层技术框架”的关系。

Latent Diffusion：是一种高效的模型架构思想。它不直接在原始像素空间进行扩散，而是先将图像通过一个变分自编码器（VAE）压缩到维度更小的“潜空间”进行处理，从而大幅降低计算成本。

Stable Diffusion：是由Stability AI等团队基于上述Latent Diffusion架构开发并开源的具体模型。它由UNet（在潜空间去噪）、VAE（图像与潜空间互转）和 Text Encoder（理解文本）三大核心组件构成。

第六章【DiT：带Transformer的可扩展扩散模型】核心基础知识高频考点

1.位置编码在Transformer中的作用?

提供位置信息‌：位置编码为序列中的每个元素提供其在序列中的位置信息，使得模型能够识别和区分序列中不同位置的元素。

增强模型表达能力‌：加入位置编码后，模型能够同时关注到序列中元素的相对位置和全局上下文信息，这对于处理长距离依赖和全局信息非常重要。

解决Transformer模型的局限性‌：Transformer模型在处理序列数据时，原本无法直接获取元素的顺序信息。位置编码通过为每个位置分配一个独特的向量表示，解决了这一问题，使得模型能够理解序列中元素的相对和绝对位置关系。

分类‌：位置编码可以分为绝对位置编码和相对位置编码。绝对位置编码为序列中的每个位置分配一个唯一的编码，直接反映元素在序列中的绝对位置；而相对位置编码则关注于元素之间的相对位置关系。

2.为什么Transformer适合多模态任务？

Transformer的灵活性和强大的表征能力使其适合多模态任务。它可以通过共享参数和跨模态注意力机制来整合不同模态的信息，从而实现更高效的特征学习和融合。

3.Transformer的并行化体现在哪个地方？

Transformer的并行化主要体现在自注意力机制和前馈神经网络的计算过程中。自注意力机制可以并行计算查询、键和值之间的相似度，而前馈神经网络也可以并行处理输入数据。

4.为什么Transformer一般使用LayerNorm？

LayerNorm在每个样本的所有特征上进行归一化，使得模型在小批次或在线学习中表现更好，且不受批次大小的影响。它有助于稳定训练过程，加速收敛。

5.Transformer为什么使用多头注意力机制？

多头注意力机制允许模型同时关注输入序列的不同部分，从而捕捉到更丰富的上下文信息。通过多个注意力头的组合，模型可以学习到不同的表征子空间，提高泛化能力。

6.Transformer训练的Dropout是如何设定的？

Dropout是一种正则化技术，用于防止过拟合。在Transformer中，Dropout通常应用于自注意力机制和前馈神经网络的中间层。具体的Dropout比率可以根据任务和数据集进行调整，常见的比率在0.1到0.3之间。

FilesExpand file tree

02_视频生成核心基础架构模型.md

Latest commit

History

02_视频生成核心基础架构模型.md

File metadata and controls

目录

第一章 【T5：文本编码器】核心基础知识高频考点

第二章 【CLIP：文本-图像嵌入模型】核心基础知识高频考点

第三章 【DDPM：去噪扩散概率模型】核心基础知识高频考点

第四章 【DDIM：去噪扩散隐式模型】核心基础知识高频考点

第五章 【LDM(StableDiffusion)】核心基础知识高频考点

第六章 【DiT：带Transformer的可扩展扩散模型】核心基础知识高频考点

第七章 【FiT：扩散模型灵活视觉Transformer】核心基础知识高频考点

第八章 【Playground：文本转图像生成模型】核心基础知识高频考点

第九章 【VAE：变分自编码器】核心基础知识高频考点

第十章 【VideoGPT： 利用 VQ-VAE 和Transformer生成视频】核心基础知识高频考点

第十一章 【ShareGPT4Video：通过更好的字幕提升视频理解和生成】核心基础知识高频考点

第十二章 【EMA-VFI：一种视频帧插值模型】核心基础知识高频考点

第一章 【T5：文本编码器】核心基础知识高频考点

1.请讲一讲T5模型的原理,以及在视频生成领域的作用

2.T5对原始Transformer做了哪些简化修改（如层归一化位置、位置编码）？这些修改如何影响训练效率和稳定性？

3.T5的文本到文本框架如何适配多模态任务（如视频描述生成）？需对架构或训练策略做哪些调整？

4.视频生成中需解决“文本-视频语义对齐”问题，T5如何参与这一过程？关键技术是什么？

5.视频编辑任务（如“将视频中白天的街道改为夜晚”）中，T5如何辅助实现可控编辑？

6.T5在文本到视频生成（Text-to-Video Generation）中扮演什么角色？其核心优势是什么？

第二章 【CLIP：文本-图像嵌入模型】核心基础知识高频考点

1.请讲一讲CLIP模型的原理及其应用场景？

2.请介绍下什么是对比学习？

3.请介绍下对比学习有哪些常见的方法？

4.请讲一讲BLIP2模型的原理及其优势？

5.在BLIP2中的Q-Former作用是什么？

6.BLIP2中的Q-Former有什么缺点？

第三章 【DDPM：去噪扩散概率模型】核心基础知识高频考点

第四章 【DDIM：去噪扩散隐式模型】核心基础知识高频考点

第五章 【StableDiffusion】核心基础知识高频考点

1.请讲一讲StableDiffusion模型的原理及其应用场景？

2.请介绍下StableDiffusion和latent-diffusion什么关系？

第六章 【DiT：带Transformer的可扩展扩散模型】核心基础知识高频考点

1.位置编码在Transformer中的作用?

2.为什么Transformer适合多模态任务？

3.Transformer的并行化体现在哪个地方？

4.为什么Transformer一般使用LayerNorm？

5.Transformer为什么使用多头注意力机制？

6.Transformer训练的Dropout是如何设定的？

第一章【T5：文本编码器】核心基础知识高频考点

第二章【CLIP：文本-图像嵌入模型】核心基础知识高频考点

第三章【DDPM：去噪扩散概率模型】核心基础知识高频考点

第四章【DDIM：去噪扩散隐式模型】核心基础知识高频考点

第五章【LDM(StableDiffusion)】核心基础知识高频考点

第六章【DiT：带Transformer的可扩展扩散模型】核心基础知识高频考点

第七章【FiT：扩散模型灵活视觉Transformer】核心基础知识高频考点

第八章【Playground：文本转图像生成模型】核心基础知识高频考点

第九章【VAE：变分自编码器】核心基础知识高频考点

第十章【VideoGPT：利用 VQ-VAE 和Transformer生成视频】核心基础知识高频考点

第十一章【ShareGPT4Video：通过更好的字幕提升视频理解和生成】核心基础知识高频考点

第十二章【EMA-VFI：一种视频帧插值模型】核心基础知识高频考点

第一章【T5：文本编码器】核心基础知识高频考点

第二章【CLIP：文本-图像嵌入模型】核心基础知识高频考点

第三章【DDPM：去噪扩散概率模型】核心基础知识高频考点

第四章【DDIM：去噪扩散隐式模型】核心基础知识高频考点

第五章【StableDiffusion】核心基础知识高频考点

第六章【DiT：带Transformer的可扩展扩散模型】核心基础知识高频考点