
-
论文标题:Stronger Normalization-Free Transformers -
论文链接:https://arxiv.org/pdf/2512.10938
TL;DR
归一化层(Normalization Layers,如 LayerNorm 和 RMSNorm)长期以来被视为深度学习模型(尤其是 Transformer)中不可或缺的组件,用于稳定训练和加速收敛。然而,归一化层依赖于训练时的统计数据,这引入了额外的内存访问开销和对 batch size 的敏感性。普林斯顿大学等机构的作者提出了一种名为 Dynamic erf (Derf) 的逐点(point-wise)函数,旨在完全移除并替代传统的归一化层。
该研究首先系统分析了逐点函数所需的四个关键属性:零中心性(Zero-centeredness)、有界性(Boundedness)、中心敏感性(Center Sensitivity)和单调性(Monotonicity)。基于这些原则,研究团队在搜索空间中确定了误差函数 为最佳基础形式,并引入可学习的参数形成了 Derf。
在 ImageNet 分类(ViT)、图像生成(DiT)、语音识别(wav2vec 2.0)、语言模型(GPT-2)以及 DNA 序列建模等多种任务上的实验表明,Derf 不仅能够替代 LayerNorm 和 RMSNorm,而且在多数情况下取得了更优的性能。分析显示,Derf 的优势并非来自于更强的拟合能力,而是源于其作为逐点函数所带来的隐式正则化效应,从而提升了模型的泛化能力。
1. 引言
在现代深度神经网络架构中,归一化层扮演着至关重要的角色。自 Batch Normalization (BN) 提出以来,Layer Normalization (LN) 和 RMSNorm 等变体已成为 Transformer 架构的标准配置。通过规范化中间激活值的分布,这些层有效地稳定了梯度流并加速了模型收敛。
然而,归一化层的计算机制存在固有的局限性:
-
依赖统计信息:归一化操作需要在运行时计算激活值的均值和方差。这不仅增加了额外的内存访问和同步开销,还使得计算图变得复杂。 -
Batch Size 敏感性:部分归一化方法对 batch size 高度敏感,不当的设置可能导致训练不稳定。
为了解决这些问题,学术界开始探索“无归一化”(Normalization-Free)的方法。其中,Dynamic Tanh (DyT) 作为一种 S 形(S-shaped)逐点函数,近期被证明可以作为归一化层的有效替代品。DyT 的出现表明,不依赖统计信息的逐点映射也能实现与归一化层相当的性能。
本文介绍的研究工作在此基础上进一步推进,旨在寻找能够超越传统归一化层的逐点函数设计。作者通过大规模的搜索和严格的属性分析,提出了 Derf (Dynamic erf) 。Derf 基于标准高斯分布的累积分布函数(CDF)的缩放形式——误差函数 ,并引入了可学习的仿射参数。
2. 背景与问题定义
2.1 归一化层 (Normalization Layers)
当前主流的归一化方法遵循一个统一的范式:
其中,激活值 被减去均值 并除以标准差 进行中心化和缩放, 和 是可学习的仿射参数。
对于 Transformer 中最常用的 Layer Normalization (LN) ,给定一个 token 的表示 ,其均值和方差是沿着通道维度计算的:
这种对统计信息的依赖是归一化层的核心特征。
2.2 逐点函数 (Point-wise Functions)与 DyT
与归一化层不同,逐点函数对每个激活元素独立地应用相同的参数映射 ,不涉及任何跨通道或跨 token 的统计聚合。
DyT (Dynamic Tanh) 是此方向的代表性工作,其定义为:
其中 是控制函数形状的可学习参数。DyT 的设计灵感来源于观察到 LayerNorm 在实践中往往产生类似 S 形的输入-输出映射。Tanh 函数的饱和特性在一定程度上模拟了归一化层的重缩放(re-scaling)和限制极值的作用。
本研究的目标是探索是否存在比 Tanh 更优的函数形式,以及哪些函数属性决定了无归一化训练的成败。
3. 函数属性分析:什么样的逐点函数能替代归一化?
为了设计出更强的逐点函数,作者首先在 ViT-Base 架构上对 ImageNet-1K 任务进行了广泛的控制变量实验,识别出了四个决定性的函数属性:零中心性、有界性、中心敏感性和单调性。

3.1 零中心性 (Zero-centeredness)
零中心性指的是函数的输出分布在零点附近平衡,正负值具有相似的幅度和对称性。归一化层通过减去均值 强制实现零中心化,这有助于消除内部协变量偏移(Internal Covariate Shift)。
实验设置与结果:
作者通过对基础函数引入水平位移 和垂直位移 来破坏零中心性:
结果显示:
-
水平位移:当 时性能影响较小,但随着偏移量增加,性能逐渐下降,当 时训练发散。 -
垂直位移:性能对垂直位移更为敏感,偏移量的增加直接导致精度下降或训练失败。
这证实了保持输出均值接近零对于稳定梯度流至关重要。
3.2 有界性 (Boundedness)
有界性指函数输出被限制在有限范围内,即存在常数 使得 。这能防止激活值在深层网络中逐层累积方差,避免信号爆炸。
实验设置与结果:
-
截断无界函数:将无界函数(如 )进行截断(clipping)。实验发现,截断后的版本性能显著优于原始无界版本。 -
线性混合:将有界函数(如 )逐渐向无界线性函数过渡:。结果显示,随着线性分量 的增加,模型性能下降直至无法收敛。
此外,研究发现无界函数的增长率存在上限。增长过快(如线性或 )会导致训练早期梯度爆炸。像 这样增长较慢的无界函数勉强可以收敛,但性能仍不如有界函数。
3.3 中心敏感性 (Center Sensitivity)
中心敏感性描述了函数在零点附近对输入变化的响应速度。由于训练过程中大部分激活值集中在零点附近,函数在此区域的导数(响应性)直接影响信号在网络中的传播效率。
实验设置与结果:
作者通过在零点附近引入一个“平坦区域”(inactive region)来控制敏感度。在该区域内 ,区域宽度由 控制。
实验表明,最佳性能均在 时取得。随着平坦区域变宽(即中心敏感度降低),性能持续恶化。当 时,训练在早期即发散。这说明函数在原点附近必须具有非零且显著的梯度。
3.4 单调性 (Monotonicity)
单调性保证了输入次序的保持,即输入越大输出越大(或越小)。非单调函数会破坏激活值的相对顺序,且其导数符号的变化可能导致梯度的符号翻转,干扰优化过程。
实验设置与结果:
对比单调函数(如 )、其负单调变体()以及非单调函数(如 或钟形函数)。
结果显示,无论是单调递增还是单调递减函数,都能稳定训练并获得高精度。相反,非单调函数的性能显著较差。这确立了单调性作为有效逐点函数的必要条件。
4. 函数搜索与 Derf 的提出
基于上述四个属性(零中心、有界、中心敏感、单调),研究团队构建了一个包含多种数学形式(多项式、有理函数、指数、对数、三角函数)的候选函数集。并在 ViT-Base 和 DiT 架构上进行了搜索。
4.1 候选函数评估

在所有满足属性约束的候选函数中,(误差函数)展现出了最强的性能,在 Top-1 准确率(ViT)和 FID 分数(DiT)上均优于其他函数形式,也优于 LayerNorm。
4.2 Dynamic erf (Derf) 的形式化
基于 的优异表现,作者提出了 Dynamic erf (Derf) 。
本质上与标准正态分布的累积分布函数(CDF)相关,其数学定义为:
为了增加适应性,Derf 在标准 基础上引入了可学习参数:
参数详解:
-
:通道级(per-channel)向量,作用与 LayerNorm 中的仿射参数相同,用于调整输出的幅度和偏置。 -
:标量(scalar),控制函数的缩放(即斜率陡峭程度)。 -
:标量(scalar),控制函数的水平平移。
参数初始化:
-
初始化为全 1 向量。 -
初始化为全 0 向量。 -
初始化为 0.5。 -
初始化为 0。
这种设计使得 Derf 既保留了 S 形函数的优良属性,又具备了通过 和 调整形态以适应不同层激活分布的能力。
5. 实验结果
作者在视觉、生成模型、语音和 DNA 序列建模等多个领域的模型上全面评估了 Derf。
5.1 视觉 Transformer (ViT)
在 ImageNet-1K 图像分类任务上,对比了 LayerNorm (LN)、DyT 和 Derf。

Derf 在 ViT-Base 和 ViT-Large 上均取得了最高的准确率,超越了传统的 LayerNorm 和之前的 SOTA 逐点函数 DyT。
5.2 扩散 Transformer (DiT)
在基于 ImageNet 的图像生成任务中,使用 Fréchet Inception Distance (FID) 作为评估指标(越低越好)。

Derf 在所有尺寸的 DiT 模型上均显著降低了 FID 分数,证明了其在生成任务中的有效性。
5.3 语音与 DNA 模型
-
语音 (wav2vec 2.0) :在 LibriSpeech 数据集上,Derf 在 Base 和 Large 模型上均取得了比 LN 和 DyT 更低的验证损失。 -
DNA 序列建模 (Hyena, Caduceus) :在 GenomicBenchmarks 数据集上,Derf 同样展现出了一致的性能优势,准确率分别提升约 0.5%。
5.4 语言模型 (GPT-2)
在 OpenWebText 数据集上训练 GPT-2 (124M)。Derf 实现了与 LayerNorm 相当的验证损失 (2.94),且优于 DyT (2.97)。这表明在对统计特性极其敏感的语言模型中,Derf 依然是一个极具竞争力的选择。
6. 核心分析:泛化 vs 拟合
实验结果中最令人深思的部分在于对“训练损失”与“评估性能”之间关系的探讨。通常认为,更好的模型应该具有更低的训练损失(更好的拟合能力)。然而,Derf 展现出了一种反直觉的现象。
6.1 训练损失悖论
为了公平比较拟合能力,作者在训练结束后,将模型切换到评估模式(关闭 Dropout、随机深度等随机性),并在训练集上计算 Loss。

结果显示出一个一致的规律:
即:归一化层的训练集拟合能力最强,Derf 次之,DyT 最弱。
然而,在测试集或下游任务指标上,Derf 却表现最好。
6.2 隐式正则化假设
作者对此提出了以下解释:
-
归一化层的过拟合风险:归一化层在训练过程中利用当前 batch 的统计信息动态调整激活分布。这种高度的适应性虽然极大地降低了训练损失,但也可能导致对训练集分布的过拟合。 -
逐点函数的正则化效应:Derf 和 DyT 仅依赖极少量的可学习标量参数()。这些参数在训练后是固定的,无法像归一化层那样针对每个样本或 batch 动态调整。这种限制构成了某种形式的隐式正则化(Implicit Regularization),迫使网络学习更鲁棒的特征表示,从而提升了泛化能力。 -
Derf 的平衡之道:Derf 之所以优于 DyT,是因为它在保持逐点函数正则化特性的同时,提供了比 Tanh 更强的拟合能力(训练损失更低)。它找到了拟合与泛化之间的更佳平衡点。
7. 消融与深入分析
7.1 参数 的作用
Derf 引入了 DyT 所没有的平移参数 。消融实验显示,移除 会导致性能下降。例如在 ViT-Base 上,移除 后准确率从 82.8% 降至 82.6%。这说明允许激活函数在水平方向上微调中心位置对于对齐特征分布是有益的。
7.2 标量 vs 向量参数
作者尝试将 和 从标量扩展为通道级向量(即每个通道拥有独立的 和 )。实验结果表明,这种参数量的增加并没有带来性能提升。这进一步印证了逐点函数的设计哲学:简单即有效,过多的自由度反而可能削弱正则化效果。
7.3 为什么是 erf 而不是缩放的 tanh?
和 形状相似。是否存在一个缩放因子 ,使得 ?
作者通过最小化两者差值的积分找到了最佳缩放系数 。然而,即使使用了最佳缩放的 ,其性能虽然略好于原始 ,但仍不及 。这说明 函数特定的曲率变化和尾部衰减特性对于优化动力学有着独特的优势。
8. 总结
长久以来,我们把 LayerNorm 或 RMSNorm 当作是 Transformer 的出厂默认设置,这篇论文通过实验告诉我们:没必要非得算均值和方差。只要你的逐点函数设计得当(满足那四个关键属性),它不仅能替代 Norm 层,还能跑得更好。
传统的 Norm 层会根据每一批数据的统计特征动态调整自己。这让训练 Loss 降得很快,但也让模型容易过拟合当前的 Batch。Derf 不同,它的参数训练完就定死了,不会因为输入数据的不同而动态变化,这构成了一种隐式正则化。虽然训练 Loss 没降到最低,但在验证集和下游任务上反而更强了。
更多细节请阅读原论文。
往期文章:
