论文标题：On the Superimposed Noise Accumulation Problem in Sequential Knowledge Editing of Large Language Models
论文链接：https://arxiv.org/pdf/2505.07899

TL;DR

大型语言模型（LLM）在顺序知识编辑（Sequential Knowledge Editing）场景下面临的性能衰退问题，本论文作者发现随着编辑次数的增加，模型输出会逐渐偏离目标，这种现象被定义为“叠加噪声累积问题”（Superimposed Noise Accumulation Problem）。理论分析表明，该噪声源于无关知识的错误激活以及新旧编辑参数之间的冲突。

为了解决这一问题，作者提出了一种名为 DeltaEdit 的新方法。该方法将更新参数分解为“影响向量”（Influence Vector）和“激活向量”（Activation Vector），并通过动态正交约束策略（Dynamic Orthogonal Constraint Strategy）来优化影响向量，从而在保持编辑效率的同时减少参数间的冲突。

实验结果显示，在 Llama3-8B 模型上进行 3000 次顺序编辑后，DeltaEdit 在编辑性能上相比最强基线（AlphaEdit）提升了 16.8%，并显著缓解了模型崩溃现象，更好地保留了模型的通用能力。

1. 引言

随着大型语言模型（LLM）在各个领域的广泛应用，如何保持模型知识的时效性和准确性成为了一个关键问题。虽然预训练赋予了模型海量的知识，但世界是动态变化的，模型内部的知识可能会过时或出现错误。传统的微调（Fine-tuning）方法虽然可行，但计算成本高昂，且容易导致灾难性遗忘（Catastrophic Forgetting）。

知识编辑（Knowledge Editing）作为一种高效的替代方案，旨在通过定位并修改模型中的特定参数，精确更新知识而不影响其他无关知识。现有的主流方法，如 ROME 和 MEMIT，采用“定位-编辑”（Locate-then-Edit）范式，在单次编辑任务中表现出色。

然而，实际应用往往要求模型能够连续处理一系列的知识更新，即顺序知识编辑（Sequential Knowledge Editing）。研究表明，简单地将单次编辑方法扩展到顺序场景会导致严重的性能下降。随着编辑次数的增加，模型的编辑成功率降低，甚至出现模型崩溃。

论文针对这一现象进行了全面的理论和实验调查。作者发现，现有的顺序编辑研究主要关注优化“激活向量”以减少错误激活，却往往忽视了“影响向量”之间的重叠与冲突。本文提出 DeltaEdit，通过数学上的正交投影技术，显式地控制叠加噪声的累积。

2. 预备知识与问题定义

在深入探讨 DeltaEdit 之前，我们需要对自回归语言模型及知识编辑的数学形式进行回顾。

2.1 自回归语言模型结构

现代自回归语言模型（如 GPT、Llama 系列）主要由堆叠的 Transformer 层组成。第层的隐藏状态计算如下：

其中，是注意力机制的输出，是前馈神经网络（FFN）的输出。已有研究表明，FFN 的参数矩阵和存储了大量的事实性知识。因此，大多数知识编辑方法都选择修改 FFN 的权重来更新知识。

2.2 顺序知识编辑

知识通常以三元组的形式表示，分别代表主体、关系和客体。知识编辑的目标是将原有的知识替换为新知识。我们将这一操作记为。

在长度为的顺序编辑任务中，给定编辑序列，每一次编辑都在上一次编辑的基础上进行。

主流的“定位-编辑”方法（如 MEMIT, AlphaEdit）首先定位模型参数，然后计算更新量：

对于整个编辑序列，参数更新序列为，最终的参数为。

2.3 更新参数的封闭解

大多数编辑方法通过求解正规方程（Normal Equation）来获取。以 MEMIT 为例，其优化目标是：

其中是待编辑主体的表示，是需要保持不变的无关知识的表示，是目标编辑表示。该优化问题的解形式为：

AlphaEdit 则引入了零空间投影，其解形式为：

这里是无关输入表示的零空间。

3. 叠加噪声累积问题

本文的核心贡献之一是识别并形式化了“叠加噪声累积”问题。

3.1 影响向量与激活向量的分解

为了便于分析，作者将更新参数分解为两个向量的外积：

其中：

(影响向量, Influence Vector) ：对应于前文公式中的部分。它是一个专门训练的向量，旨在修改模型的输出方向。
(激活向量, Activation Vector) ：对应于前文公式中的后半部分（如）。它决定了在何种程度上被激活。

对于输入表示，更新量对输出的贡献为。这里点积决定了激活强度。

3.2 叠加噪声的定义

在顺序编辑任务中，假设我们完成了次编辑。当我们针对第次编辑的主体输入进行推理时，模型的实际输出会偏离预期的。这种偏离可以表示为：

理想情况下，不同的编辑操作应当是独立的，互不干扰。即对于操作，应该只有被激活，其他应当保持静默。但在实际中，不同编辑之间存在干扰。作者定义第次编辑受到的叠加噪声（Superimposed Noise）为：

这个指标定量地描述了由于多重编辑干扰而产生的额外偏差。

如图 1 所示，随着编辑数量增加，用户的查询不仅激活了正确知识，还激活了大量无关知识（红色部分）。这种无关知识的叠加使得正确输出被掩盖。

3.3 噪声的成因分析

根据，可以将展开为：

通过分析上式，作者发现噪声的大小主要由两项决定：

(错误激活) ：表示第个输入在多大程度上错误地激活了第次编辑的参数。
(影响向量重叠) ：表示不同编辑的影响向量之间的方向一致性。

现有的局限性：

现有的方法如 AlphaEdit 试图通过优化（例如利用零空间投影）来减小。实验显示（图 3），AlphaEdit 确实比 MEMIT 获得了更小的值。然而，随着编辑数量的增加，AlphaEdit 的性能依然会显著下降。

这表明，仅仅降低错误激活（）是不够的，必须同时考虑减少影响向量之间的冲突（）。如果和接近正交，那么即便存在一定的错误激活，其产生的噪声也会因为向量点积接近零而被抑制。

4. DeltaEdit 方法

基于上述分析，作者提出了 DeltaEdit。该方法的核心思想是在训练当前的编辑参数时，引入基于历史编辑信息的动态正交约束，显式地优化影响向量，使其与历史编辑产生的空间保持正交。

4.1 噪声公式的重写

对于编辑序列，执行第次编辑时的噪声可以重写为：

第一项是历史编辑对当前输入的累积干扰，是常数；第二项是当前编辑与历史编辑的交互项。DeltaEdit 旨在通过约束来最小化第二项中的。

4.2 正交约束策略

为了抑制噪声增长，DeltaEdit 利用历史编辑的累积参数。

动态阈值判定：
并非每次编辑都需要强加正交约束。作者引入了一个动态阈值。仅当时，才启动正交空间投影优化。这避免了在噪声尚不严重时过度限制优化空间，从而保护模型的泛化能力。

正交空间优化：
为了使与历史所有的 () 正交，DeltaEdit 计算历史参数的零空间。为了避免存储所有历史向量的高昂开销，作者直接对的列空间进行操作。

构造列空间矩阵：。
对进行奇异值分解 (SVD)：。
筛选特征向量：选取中非零特征值对应的特征向量构成。
- 注意：为了防止训练空间过度收缩，如果非零特征值数量超过了维度的 3/4，则丢弃最小的特征值，直到保留的数量为 3/4。
计算投影矩阵：
在训练的过程中，每一步更新后都将其投影到零空间：

通过这种方式，被强制限制在与历史编辑方向正交的子空间内，从而使得。

4.3 动态阈值设计

由于随着编辑次数增加而自然增长，固定阈值是不合适的。DeltaEdit 采用了滑动平均策略来更新阈值。

定义均值和方差的更新规则（为滑动系数）：

动态阈值定义为：

其中是控制约束强度的超参数。当当前输入的历史噪声干扰超过均值加倍标准差时，触发正交约束。

4.4 算法流程

DeltaEdit 的整体执行流程如下（简化版）：

初始化 , 。
对于每一个编辑：

a. 获取输入表示。

b. 判断是否满足启动条件：且。

c. 若满足，对进行 SVD，计算零空间投影矩阵；否则。

d. 更新统计量和（仅在非异常值范围内更新）。

e. 优化求解：在梯度下降过程中应用。

f. 计算（使用类似于 AlphaEdit 的公式）。

g. 更新模型参数。

h. 累加历史参数。

5. 实验设置

为了全面评估 DeltaEdit 的有效性，作者在两个主流 LLM 上进行了广泛的实验。

5.1 实验环境

模型：
- GPT2-XL (1.5B 参数)：代表较小规模的模型。
- Llama3-8B：代表当前主流的开源大模型。
数据集：
- ZsRE (Question Answering)：用于评估问答形式的知识编辑。
- CounterFact：更具挑战性的数据集，包含反事实陈述，区分事实与反事实。
硬件：GPT2-XL 在 RTX 4090 (24GB) 上运行，Llama3-8B 在 A100 (40GB) 上运行。

5.2 评估指标

实验采用了三个核心指标，并区分了“top” (最高概率 token) 和“larger” (目标 token 概率上升) 两种计算方式：

Efficacy (有效性) ：编辑后模型能否输出目标知识。
- : 目标是否具有最高概率。
Generalization (泛化性) ：模型对语义等价的改写提示（Rephrased Prompts）能否输出正确知识。
Specificity (特异性/局部性) ：模型对无关输入的预测是否保持不变。这是衡量模型是否发生“遗忘”或“副作用”的关键。

5.3 基线方法

作者选取了多种具有代表性的基线方法进行对比：

Fine-Tuning (FT) ：传统的微调。
ROME：单次编辑的经典方法。
MEMIT：ROME 的多层批量扩展，是当前的强基线。
PRUNE：通过控制条件数来支持顺序编辑。
RECT：通过稀疏化更新参数来减少副作用。
AlphaEdit：最新的基于零空间投影的方法，是 DeltaEdit 的主要对比对象。

6. 实验结果与分析

6.1 主要性能对比

在 CounterFact 和 ZsRE 数据集上进行 3000 次顺序编辑后的结果显示，DeltaEdit 在绝大多数指标上都超越了基线方法。

关键发现：

Llama3-8B 上的显著提升：在 CounterFact 数据集上，DeltaEdit 相比 AlphaEdit 在上提升了 16.8% ，在上提升了 16.61% 。这说明在更大、更复杂的模型中，噪声控制对于维持长期编辑性能至关重要。
GPT2-XL 的结果：在较小的模型上，AlphaEdit 本身表现已经很好，DeltaEdit 依然取得了更优的结果，但提升幅度相对较小。这可能与小模型的参数空间较小，更容易饱和有关。
稳定性：MEMIT 在 Llama3-8B 上表现极差（Efficacy 为 0），这是因为 MEMIT 产生的噪声随着编辑次数迅速累积导致模型崩溃。而 DeltaEdit 展现了极强的稳定性。

6.2 噪声抑制效果

作者绘制了（平均叠加噪声）随编辑次数变化的曲线。

性能衰退与噪声的关系：随着的增加，模型的 Efficacy 呈现明显的下降趋势。且这种下降是非线性的，一旦噪声超过阈值，性能会急剧恶化。
DeltaEdit 的优势：相比 AlphaEdit，DeltaEdit 产生的增长极其缓慢。在 Llama3-8B 上，3000 次编辑后，DeltaEdit 能够保持高 Efficacy，而 AlphaEdit 则出现了大幅下滑。

6.3 影响向量与激活向量的进一步分析

为了验证 DeltaEdit 是否真正减少了参数间的冲突，作者分析了的值。有趣的是，DeltaEdit 的并没有比 AlphaEdit 进一步降低（在某些情况下甚至略高）。

这反过来印证了本文的核心假设：在（错误激活）难以完全消除的情况下，通过正交约束降低（影响向量重叠）是解决噪声问题的关键。 DeltaEdit 并不是通过让更稀疏来起作用，而是通过让互不干扰来容忍的非完美性。

7. 消融实验与深入探讨

7.1 隐藏层表示分析 (t-SNE)

为了探究编辑对模型内部表示的影响，作者提取了 Llama3-8B 在编辑前后的隐藏层表示，并使用 t-SNE 进行可视化。

分布偏移：AlphaEdit 编辑后的模型表示分布发生了显著的偏移（Shift），这意味着模型的原始语义空间被扭曲了。
保持分布：DeltaEdit 编辑后的表示分布与原始模型（Pre-edited）高度重合。这解释了为什么 DeltaEdit 在保持 Specificity（特异性）方面表现优异——它极大地保留了模型的原始流形结构。

7.2 超参数的影响

超参数控制正交约束的强度。

较小：约束启动频繁，可能会限制新知识的学习能力，导致 Generalization 下降。
较大：约束启动少，退化为类似 AlphaEdit 的行为，噪声累积增加，Specificity 下降。
实验表明，在 (Llama3) 和 (GPT2) 附近可以达到最佳的平衡。有趣的是，GPT2 需要更强的约束，而 Llama3 需要相对宽松的约束，这可能与 Llama3 本身参数空间更大、容纳冲突能力更强有关。

7.3 通用能力评估

除了编辑任务本身，作者还在 GLUE 基准测试（CoLA, MMLU, MRPC, NLI, RTE, SST）上评估了模型。

结果：DeltaEdit 在各项任务上的 F1 分数与原始模型差异极小，优于 AlphaEdit。
意义：这证明了 DeltaEdit 并非通过牺牲模型的通用推理能力来换取编辑成功率，它真正做到了“外科手术式”的精准修改。

7.4 案例研究

作者展示了具体的生成案例（Case Study）。例如，将 Danielle Darrieux 的母语修改为英语。

MEMIT：输出重复的乱码，标志着模型崩溃。
AlphaEdit：虽然语句通顺，但内容与编辑目标无关（产生幻觉）。
DeltaEdit：不仅生成流畅，而且逻辑上与新知识一致（例如推断出生地在英语国家）。

8. 讨论与结论

8.1 现有方法的盲点

这篇论文敏锐地指出了现有顺序编辑研究的一个盲点：过度关注激活端（）的稀疏性，而忽视了影响端（）的方向性。 事实上，在大规模连续编辑中，完全避免输入表示的重叠几乎是不可能的（很难为 0）。DeltaEdit 提供了一种正交化的思路，使得即便存在激活重叠，参数更新之间也能互不干扰。

8.2 局限性与未来方向

虽然 DeltaEdit 表现优异，但其计算 SVD 和投影矩阵带来了一定的计算开销。尽管作者通过仅分解的列空间来优化效率，但随着编辑次数趋于无穷大，维护历史信息的成本仍需关注。

未来的研究方向可能包括：

无梯度的正交编辑：是否可以通过闭式解直接计算出正交的，而无需在优化循环中进行投影？
更高效的历史压缩：如何更紧凑地存储历史编辑信息，避免随着增长的内存压力？
跨层协同：本文主要关注单层的编辑，多层联合正交约束可能会带来进一步的提升。

8.3 总结

DeltaEdit 通过引入“叠加噪声”这一概念，为理解 LLM 顺序编辑中的灾难性遗忘和模型崩溃提供了新的视角。其提出的动态正交约束策略，在数学上优雅且在实验中有效。对于致力于让大模型具备持续学习和实时更新能力的研究员来说，这篇论文提供了极具价值的理论参考和工程实践范例。

更多细节请阅读原论文。

往期文章：

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

AAAI 2026：DeltaEdit 实现 LLM 连续知识编辑

TL;DR

1. 引言

2. 预备知识与问题定义

2.1 自回归语言模型结构

2.2 顺序知识编辑

2.3 更新参数的封闭解

3. 叠加噪声累积问题

3.1 影响向量与激活向量的分解

3.2 叠加噪声的定义

3.3 噪声的成因分析

4. DeltaEdit 方法

4.1 噪声公式的重写

4.2 正交约束策略

4.3 动态阈值设计

4.4 算法流程

5. 实验设置

5.1 实验环境

5.2 评估指标

5.3 基线方法

6. 实验结果与分析

6.1 主要性能对比

6.2 噪声抑制效果

6.3 影响向量与激活向量的进一步分析

7. 消融实验与深入探讨

7.1 隐藏层表示分析 (t-SNE)

7.2 超参数的影响

7.3 通用能力评估

7.4 案例研究

8. 讨论与结论

8.1 现有方法的盲点

8.2 局限性与未来方向

8.3 总结

专题展示

AAAI 2026：DeltaEdit 实现 LLM 连续知识编辑

TL;DR

1. 引言

2. 预备知识与问题定义

2.1 自回归语言模型结构

2.2 顺序知识编辑

2.3 更新参数的封闭解

3. 叠加噪声累积问题

3.1 影响向量与激活向量的分解

3.2 叠加噪声的定义

3.3 噪声的成因分析

4. DeltaEdit 方法

4.1 噪声公式的重写

4.2 正交约束策略

4.3 动态阈值设计

4.4 算法流程

5. 实验设置

5.1 实验环境

5.2 评估指标

5.3 基线方法

6. 实验结果与分析

6.1 主要性能对比

6.2 噪声抑制效果

6.3 影响向量与激活向量的进一步分析

7. 消融实验与深入探讨

7.1 隐藏层表示分析 (t-SNE)

7.2 超参数 的影响

7.3 通用能力评估

7.4 案例研究

8. 讨论与结论

8.1 现有方法的盲点

8.2 局限性与未来方向

8.3 总结

猜你喜欢

专题展示

7.2 超参数的影响