Skip to content

Commit 2046a84

Browse files
[chore] daily pipeline
1 parent 5698f9e commit 2046a84

488 files changed

Lines changed: 27020 additions & 157 deletions

File tree

Some content is hidden

Large Commits have some content hidden by default. Use the searchbox below for content that may be hidden.

archive/20260527/recommend/arxiv_papers_20260527.standard.json

Lines changed: 791 additions & 0 deletions
Large diffs are not rendered by default.

archive/carryover.json

Lines changed: 3 additions & 3 deletions
Original file line numberDiff line numberDiff line change
@@ -1,10 +1,10 @@
11
{
2-
"generated_at": "2026-05-27T12:14:16.301310+00:00",
3-
"updated_date": "20260428-20260527",
2+
"generated_at": "2026-05-27T21:14:45.984592+00:00",
3+
"updated_date": "20260527",
44
"carryover_days": 9,
55
"tag_states": {
66
"continual": {
7-
"updated_date": "20260428-20260527",
7+
"updated_date": "20260527",
88
"carryover_days": 9,
99
"items": []
1010
}
Lines changed: 101 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,101 @@
1+
---
2+
title: "CPC-VAR:Continual Personalized and Compositional Generation in Visual Autoregressive Models"
3+
title_zh: "CPC-VAR: 视觉自回归模型中的持续个性化与组合生成"
4+
authors: "Junhao Li, Xinhao Zhong, Yi sun, Yuxia Qiao, Bin Chen, Shu-Tao Xia, Yaowei Wang"
5+
date: 2026-05-19
6+
pdf: "https://arxiv.org/pdf/2605.19750v1"
7+
tags: ["query:continual"]
8+
score: 9.0
9+
evidence: 序列概念学习导致灾难性遗忘;方法保留了先前概念
10+
tldr: 视觉自回归(VAR)模型在文本生成图像中效率高,但难以适应不断变化的个性化需求,导致序列概念学习灾难性遗忘和多概念合成特征纠缠。本文提出CPC-VAR框架,通过梯度概念神经元选择(GCNS)和上下文感知组合策略,有效缓解遗忘并实现解耦概念组合。实验表明,该方法在长序列持续任务和多概念合成中显著优于现有基线,突显VAR模型在可扩展个性化生成中的潜力。
11+
source: arxiv
12+
selection_source: fresh_fetch
13+
figures_json: "[{\"url\": \"assets/figures/arxiv/2605.19750v1/fig-001.webp\", \"caption\": \"\", \"page\": 0, \"index\": 1, \"width\": 864, \"height\": 426, \"label\": \"Figure\"}, {\"url\": \"assets/figures/arxiv/2605.19750v1/fig-002.webp\", \"caption\": \"\", \"page\": 0, \"index\": 2, \"width\": 1450, \"height\": 632, \"label\": \"Figure\"}, {\"url\": \"assets/figures/arxiv/2605.19750v1/fig-003.webp\", \"caption\": \"\", \"page\": 0, \"index\": 3, \"width\": 1255, \"height\": 1161, \"label\": \"Figure\"}, {\"url\": \"assets/figures/arxiv/2605.19750v1/fig-004.webp\", \"caption\": \"\", \"page\": 0, \"index\": 4, \"width\": 1287, \"height\": 1297, \"label\": \"Figure\"}, {\"url\": \"assets/figures/arxiv/2605.19750v1/fig-005.webp\", \"caption\": \"\", \"page\": 0, \"index\": 5, \"width\": 865, \"height\": 653, \"label\": \"Figure\"}, {\"url\": \"assets/figures/arxiv/2605.19750v1/fig-006.webp\", \"caption\": \"\", \"page\": 0, \"index\": 6, \"width\": 863, \"height\": 883, \"label\": \"Figure\"}]"
14+
tables_json: "[{\"url\": \"assets/tables/arxiv/2605.19750v1/table-001.webp\", \"caption\": \"\", \"page\": 0, \"index\": 1, \"width\": 1436, \"height\": 310, \"label\": \"Table\"}, {\"url\": \"assets/tables/arxiv/2605.19750v1/table-002.webp\", \"caption\": \"\", \"page\": 0, \"index\": 2, \"width\": 1439, \"height\": 334, \"label\": \"Table\"}, {\"url\": \"assets/tables/arxiv/2605.19750v1/table-003.webp\", \"caption\": \"\", \"page\": 0, \"index\": 3, \"width\": 1443, \"height\": 435, \"label\": \"Table\"}, {\"url\": \"assets/tables/arxiv/2605.19750v1/table-004.webp\", \"caption\": \"\", \"page\": 0, \"index\": 4, \"width\": 1441, \"height\": 436, \"label\": \"Table\"}, {\"url\": \"assets/tables/arxiv/2605.19750v1/table-005.webp\", \"caption\": \"\", \"page\": 0, \"index\": 5, \"width\": 856, \"height\": 459, \"label\": \"Table\"}, {\"url\": \"assets/tables/arxiv/2605.19750v1/table-006.webp\", \"caption\": \"\", \"page\": 0, \"index\": 6, \"width\": 1090, \"height\": 262, \"label\": \"Table\"}, {\"url\": \"assets/tables/arxiv/2605.19750v1/table-007.webp\", \"caption\": \"\", \"page\": 0, \"index\": 7, \"width\": 1094, \"height\": 265, \"label\": \"Table\"}]"
15+
motivation: 解决VAR模型中持续概念学习的灾难性遗忘及多概念合成的特征纠缠与属性不一致问题。
16+
method: 提出梯度概念神经元选择(GCNS)约束冲突参数,以及上下文感知的多分支特征融合策略。
17+
result: 在长序列持续个性化和多概念图像合成上性能提升显著,超越现有基线。
18+
conclusion: 展示了VAR模型在可扩展、可控的持续个性化生成中的巨大潜力。
19+
---
20+
21+
## 摘要
22+
视觉自回归(VAR)模型最近已成为文生图的高效范式。尽管它们具有强大的生成能力,但现有的基于 VAR 的个性化方法仍局限于静态设置,无法适应不断变化的用户需求。特别是,顺序的概念学习会导致严重的灾难性遗忘,而多概念合成往往受到特征纠缠和属性不一致的困扰。在这项工作中,我们首次系统性地研究了 VAR 模型中的持续个性化生成。我们识别出两个关键挑战:(i) 在顺序定制过程中保留先前学习的概念,以及 (ii) 以可控的方式组合多个个性化概念。为了解决这些问题,我们提出了一个包含两个核心组件的统一框架。对于持续的单概念学习,我们引入了基于梯度的概念神经元选择(GCNS),它识别与概念相关的神经元并仅约束跨任务的冲突参数,从而有效地缓解遗忘而无需额外的模型扩展。对于多概念合成,我们提出了一种上下文感知的组合策略,该策略执行多分支特征建模以及由空间条件引导的局部交叉注意力融合,从而实现精确且解耦的概念组合。大量实验表明,我们的方法显著提高了长序列持续个性化的性能,同时在多概念图像合成中取得了优于现有基线的结果。这些发现突显了 VAR 模型在可扩展且可控的个性化生成方面的潜力。
23+
24+
## Abstract
25+
Visual autoregressive (VAR) models have recently emerged as an efficient paradigm for text-to-image generation. Despite their strong generative capability, existing VAR-based personalization methods remain limited to static settings, failing to accommodate evolving user demands. In particular, sequential concept learning leads to severe catastrophic forgetting, while multi-concept synthesis often suffers from feature entanglement and attribute inconsistency. In this work, we present the first systematic study of continual personalized generation in VAR models. We identify two key challenges: (i) preserving previously learned concepts during sequential customization, and (ii) composing multiple personalized concepts in a controllable manner. To address these issues, we propose a unified framework with two core components. For continual single-concept learning, we introduce Gradient-based Concept Neuron Selection (GCNS), which identifies concept-relevant neurons and constrains only conflicting parameters across tasks, effectively mitigating forgetting without additional model expansion. For multi-concept synthesis, we propose a context-aware composition strategy that performs multi-branch feature modeling and localized cross-attention fusion guided by spatial conditions, enabling precise and disentangled concept composition. Extensive experiments demonstrate that our method significantly improves performance in long-sequence continual personalization while achieving superior results in multi-concept image synthesis compared to existing baselines. These findings highlight the potential of VAR models for scalable and controllable personalized generation.
26+
27+
---
28+
29+
## 论文详细总结(自动生成)
30+
31+
好的,请看以下对论文《CPC-VAR: Continual Personalized and Compositional Generation in Visual Autoregressive Models》的结构化中文总结。
32+
33+
### 1. 论文的核心问题与整体含义
34+
35+
* **研究背景与动机**:视觉自回归(VAR)模型已成为文生图领域的高效新范式。然而,现有的VAR个性化方法都是静态的,无法满足用户动态增加新概念的实际需求。这导致两个核心问题:
36+
1. **灾难性遗忘**:序列性地学习新概念会导致模型彻底覆盖先前学到的概念知识。
37+
2. **特征纠缠与属性不一致**:在单张图像中组合多个已学习的个性化概念时,不同概念的特征会发生混淆,导致属性绑定错误和视觉伪影。
38+
* **整体含义**:本文首次系统性地研究了VAR模型中的持续个性化生成问题,旨在使VAR模型能够像人类一样持续、增量地学习新概念,并能精准地组合多个概念进行创作,而不遗忘旧知识。
39+
40+
### 2. 论文提出的方法论
41+
42+
为解决上述问题,作者提出了一个名为 **CPC-VAR** 的统一框架,包含两个核心组件:
43+
44+
* **组件一:基于梯度的概念神经元选择(GCNS)——解决灾难性遗忘**
45+
* **核心思想**:并非所有模型参数对所有概念都同等重要。GCNS通过识别每个概念专属的关键神经元子集,在训练新任务时,仅对属于当前和先前任务“冲突”(重叠)的神经元参数进行约束,从而保护旧知识,同时不影响无关参数的学习。
46+
* **关键技术细节**
47+
1. **神经元选择**:在训练每个任务时,计算交叉注意力层参数的梯度。引入一个二值掩码 **M**,梯度绝对值大于一个动态阈值(如,前 5%)的神经元被认为是当前概念的“关键神经元”,掩码置为 1。
48+
2. **动态掩码更新**:在训练过程中周期性刷新掩码 **M**,以适应不同训练阶段参数重要性的变化,最后将所有阶段的掩码通过逻辑“或”运算合并为该任务的最终掩码。
49+
3. **跨任务冲突正则化**:在训练新任务 `t` 时,聚合所有先前任务的掩码形成历史掩码 `M_<t`。修改损失函数,在其后添加一个正则项:`λ ||M_reg ⊙ (θ_t - θ_old)||²`。其中,`M_reg` 是当前任务掩码与历史掩码的交集(即冲突区域),`θ_old` 是上一个任务的模型权重。此正则项约束冲突参数不要偏离旧知识太远。
50+
4. **尺度加权损失**:为VAR模型不同分辨率尺度的损失赋予不同权重,优先保证对生成质量影响更大的粗尺度的学习效果。
51+
52+
* **组件二:上下文感知的组合策略——解决多概念合成的特征纠缠**
53+
* **核心思想**:利用VAR模型从粗到细的生成特性,在空间结构基本确定的较粗尺度后进行干预。通过多分支并行处理和空间掩码引导的特征与逻辑值(Logits)融合,实现概念的精准放置和解耦。
54+
* **关键技术细节**
55+
1. **多分支推理**:为全局场景(背景)和每个要生成的概念(前景对象)分别设立独立的推理分支。每个分支接收各自的文本提示(全局提示和包含特殊标记的区域提示)和空间条件(如边界框)。
56+
2. **空间引导的特征融合**:在特定尺度(如 `s >= 3`)的交叉注意力层后,根据用户提供的边界框,将局部概念分支的特征 `f_i` 与全局分支的特征 `f_G` 进行融合:`f_Fi = b_i ⊙ f_i + (1 - b_i) ⊙ f_G`。这确保了概念特征仅在其指定区域内生效,区域外则保留全局特征。
57+
3. **逻辑值级融合与平滑**:在最终输出的 Logits 层面,将各分支的局部 Logits `L_i` 与全局 Logits `L_G` 进一步融合。利用背景掩码和局部掩码,对各区域的 Logits 进行加权求和,形成最终的融合 Logits `L_M`,并同步到所有分支进行下一尺度的预测。
58+
59+
### 3. 实验设计
60+
61+
* **数据集**:构建了一个专为VAR连续概念学习设计的挑战性基准,包含**8个顺序的个性化任务**。其中6个是不同且部分相似的对象(如“V1狗”和“V5狗”),2个是不同的艺术风格。每个任务约含 3-5 对文本-图像。
62+
* **基座模型**:采用预训练的 **Infinity-2B** 模型。
63+
* **对比基线**:实验对比了多种方法,包括经典的持续学习方法(**LWF**)、基于扩散模型的持续个性化方法(**CIDM**, **Continual Diffusion**, **Orthogonal Adaptation**)、以及应用于VAR的标准微调方法(**ARBooth**, **LoRA**)。
64+
* **评估指标**:采用**DINO****CLIP-I**衡量生成图像与参考对象之间的主体保真度;采用**CLIP-T**衡量生成图像与文本提示的对齐程度。
65+
66+
### 4. 资源与算力
67+
68+
* **训练资源**:论文明确指出,所有实验均在**单张 NVIDIA A6000 GPU** 上进行。微调采用 1024 分辨率,Batch Size 为 1,每个概念训练 **300 次迭代**
69+
* **推理资源**:文中对比了不同方法的额外内存和计算时间开销。基于 LoRA 的方法在概念数增加时,融合权重所需的内存和时间成本显著增加。而本文提出的 **GCNS 方法无需额外存储空间,且完全避免了推理时的额外时间开销**,实现了性能与效率的良好平衡。
70+
71+
### 5. 实验数量与充分性
72+
73+
* **实验组数**:实验设计比较充分,主要包括:
74+
1. **主实验(定量与定性)**:在 8 个概念序列上,与 6 个基线方法进行了全面的单概念生成和多概念组合生成的比较。
75+
2. **消融实验**:系统地验证了GCNS中三个核心组件(**正则化损失、动态掩码、尺度加权**)的各自贡献。
76+
3. **针对组合策略的消融**:分析了在不同尺度上进行单一空间干预对多概念合成效果的影响。
77+
4. **补充实验**:评估了不同任务训练顺序对性能的影响,以及对关键超参数(正则化系数λ)进行了敏感性分析。
78+
* **客观性与公平性**:对比的基线方法涵盖了当前主流的扩散模型持续学习方案,并对其在VAR架构上的适配做了充分说明(如将LoRA应用于VAR)。评价指标沿用领域内通用标准,实验设计力求公平。补充实验对学习顺序和超参数的分析增加了结论的稳健性。
79+
80+
### 6. 论文的主要结论与发现
81+
82+
* 基于VAR的持续个性化面临灾难性遗忘和特征纠缠两大核心挑战,直接迁移扩散模型的方法效果不佳。
83+
* 本文提出的 **GCNS** 方法能有效识别并保护概念相关神经元,通过冲突正则化显著缓解了灾难性遗忘,尤其是在语义相似的概念间。
84+
* 提出的**上下文感知组合策略**能有效解决多概念合成中的特征混淆和主体忽略问题,实现了精确且解耦的概念组合。
85+
* 所提出的 **CPC-VAR** 框架在长序列持续个性化任务和多概念图像合成任务上,均取得了优于现有基线的性能。
86+
87+
### 7. 优点
88+
89+
* **问题新颖性**:首次系统性地探索并定义了VAR模型中的持续个性化生成问题,填补了研究空白。
90+
* **方法的精巧性**:GCNS方法设计巧妙,通过动态定位和保护关键神经元来实现抗遗忘,参数效率高,零额外存储与推理开销。上下文感知组合策略有效利用了VAR的层次结构。
91+
* **性能提升显著**:在多个指标和任务上,尤其是在主体保真度(DINO, CLIP-I)方面,相较于基线有显著优势。
92+
* **实验设计扎实**:包含全面的对比、消融和补充实验,验证了方法的有效性和稳健性。
93+
94+
### 8. 不足与局限
95+
96+
* **概念容量限制**:论文坦承,当顺序学习的概念数量“极其庞大”时,模型容量最终会饱和,该方法难以支持真正的终身学习。
97+
* **多概念合成的空间引导要求**:上下文感知组合策略需要用户提供空间条件(如边界框),这在一些完全自动化或开放式场景中是一个额外负担。
98+
* **架构依赖**:GCNS的神经元选择主要针对VAR模型的交叉注意力层,此经验结论是否适用于其他类型的生成模型架构尚待探索。
99+
* **数据集规模**:验证使用的基准仅包含8个概念,虽然具有挑战性,但未来需在更长序列、更大规模的概念增量学习场景下验证。
100+
101+
(完)

0 commit comments

Comments
 (0)