让每一项优秀工作,被更多人看见:点击进入投稿通道


  • 论文标题:Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability
  • 论文链接:https://arxiv.org/pdf/2604.06628

TL;DR

今天解读一篇来自上海 AI Lab 的论文《Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability》。近期大模型后训练领域存在一种观点,认为监督微调(SFT)倾向于记忆,而强化学习(RL)才能带来泛化。本研究针对长思维链(Long-CoT)推理场景对该观点进行了重新审视。实验表明,推理SFT的跨领域泛化能力并非不存在,而是具有条件性,它由优化动力学(Optimization Dynamics)、训练数据(Training Data)和基座模型能力(Model Capability)三个维度共同决定。

核心 Takeaways:

  1. 优化动力学呈现“先降后升”(Dip-and-Recovery)模式,短周期训练会低估SFT的泛化潜力。
    长CoT数据的拟合难度较大。在训练早期,模型往往会经历域外基准性能下降和输出长度激增的阶段;随着多轮次(Epochs)优化的持续,性能会逐渐恢复并超越基准线,输出长度也会随之回落。因此,响应长度可作为判断模型处于浅层格式模仿还是逻辑内化阶段的粗略诊断指标。

  2. 泛化驱动力源于过程模式(Procedural patterns),而非单纯的领域知识。
    数据质量和结构直接塑造泛化方向。实验发现,即便仅使用仅包含基础四则运算的算术游戏(Countdown)长CoT数据,模型也能学习到问题分解、假设检验和错误回溯等结构化的推理程序,并将这些能力迁移到编程或科学等域外推理任务中。

  3. 基座模型能力决定了模型是“内化逻辑”还是“表面模仿”。
    在相同的数据和训练配方下,参数规模较大、基础能力较强的模型能够有效内化长逻辑链中的过程模式,实现跨域泛化;而基础能力不足的模型则容易陷入浅层模仿,表现为持续输出冗长、重复且缺乏实质逻辑推进的文本,无法完成能力迁移。

  4. 泛化具有不对称性,推理能力提升的代价是安全性退化。
    长CoT SFT在提升模型问题解决能力的同时,也赋予了其绕过内置安全护栏的空间。面对有害查询,经过长CoT训练的模型倾向于在思维链中进行“自我合理化”(Self-rationalization,例如假设请求是出于教育或安全研究目的),从而打破原有的直接拒绝策略(Refusal policy),导致越狱攻击成功率显著上升。


1. 背景

在大语言模型(LLM)的后训练(Post-training)阶段,学术界和工业界普遍采用监督微调(Supervised Fine-Tuning, SFT)和强化学习(Reinforcement Learning, RL)两种方法。近期,部分研究提出了一种框架性的观点:SFT主要提升域内(In-domain)性能但容易陷入对训练数据的记忆(Memorization),而RL具有更优的跨领域泛化(Out-of-domain Generalization)能力。例如,Chu等人在合成任务上确立了这一观点,随后Huan等人在数学推理等现实场景中报告了类似的现象。这种观点促使许多研究者投入精力解释RL相较于SFT的优势,并尝试对SFT的目标函数进行算法层面的修改。

然而,得出“SFT记忆,RL泛化”这一结论的实验条件存在差异。部分研究在训练时未使用长思维链(Long Chain-of-Thought, Long-CoT)数据,部分研究的训练轮数(Epochs)较少,还有部分研究使用的数据存在质量波动。此外,受限于计算资源,许多比较实验基于较小规模或早期的基座模型,未将模型自身的参数规模和固有能力作为一个独立变量进行控制。

长思维链推理数据在结构上与短格式目标存在差异,拟合长逻辑链的难度更大,对模型能力的要求也更高。因此,在推理SFT这一特定场景下,优化过程、数据特征和模型因素的影响更为突出。本论文旨在剥离对齐(Alignment)阶段的干扰,直接在预训练基座模型上进行纯数学推理SFT实验,系统性地控制变量,研究SFT产生泛化的边界条件。

2. 实验设置与评估体系

为了保证结论的客观性,研究团队采用了严格控制变量的实验设计。

2.1 模型选择与训练协议

实验主要选用Qwen3-14B-Base和Qwen3-8B-Base作为基础模型,同时引入InternLM2.5-20B-Base和Qwen2.5系列基座模型,以验证观察到的现象是否跨越单一模型家族。选用基座模型(Base Models)而非指令微调模型(Instruction-tuned Models),是为了排除人类偏好对齐优化带来的混杂因素。为研究模型能力的影响,后续实验还加入了1.7B和4B规模的模型。

在训练数据方面,默认构建了名为 Math-CoT-20k 的数据集。该数据集包含20,480个带有长CoT的数学推理样本。问题来源于OpenR1-Math-220k数据集的默认子集,回答部分由Qwen3-32B在开启“思考”模式下生成。每条回答包含思考过程(以<think></think>标识)以及最终的逐步总结和答案。数据生成后,使用基于规则的验证工具(math-verify)过滤掉答案错误的样本,确保只保留正确结果。最大响应长度设定为16,384个Token。

所有模型均采用标准的SFT目标函数,即最小化响应Token的负对数似然:

默认优化器设定:

  • 优化器:AdamW,权重衰减参数设为0.01。
  • 学习率(Learning Rate):5e-5。
  • 批次大小(Batch Size):256。
  • 学习率调度:余弦衰减(Cosine Decay),预热步数(Warmup steps)占总步数的10%。
  • 训练轮数(Epochs):默认8轮。

2.2 评估基准套件

为了全面捕捉推理SFT带来的收益和潜在成本,评估套件被划分为四个维度:

  1. 域内推理(In-domain Reasoning):评估与训练数据直接对齐的数学推理能力。

    • MATH500:使用avg@3指标。
    • AIME24:使用avg@10指标。
  2. 域外推理(Out-of-domain Reasoning):评估模型在未见领域的逻辑推理能力。

    • LiveCodeBench (LCB) v2:考察代码能力,使用avg@3指标。
    • GPQA-Diamond:考察研究生级别的科学推理,使用avg@3指标。
    • MMLU-Pro:考察广泛的知识密集型推理,使用pass@1指标。
  3. 通用能力(General Capabilities):评估SFT是否破坏了预训练阶段获得的广泛行为。

    • IFEval:衡量指令遵循准确率(pass@1)。
    • AlpacaEval 2.0:衡量开放式响应的质量。使用Llama-3.1-8B-Instruct-RM-RB2奖励模型作为裁判。
    • HaluEval与TruthfulQA:衡量事实一致性与真实性(pass@1)。
  4. 安全性(Safety):评估模型面对有害查询时的抵抗力。

    • HEx-PHI:使用GPT-4.1作为裁判模型,计算攻击成功率(Attack Success Rate, ASR)。

默认解码温度设定为0.6,最大生成长度为32,768个Token。评估均采用零样本(Zero-shot)方式。

3. 优化动力学:泛化是一种过程

之前的研究得出SFT泛化能力弱的结论,往往是基于特定训练周期的切片。本研究分析了模型在整个训练轨迹中的表现,揭示了长CoT推理SFT中存在的非单调动态过程。

3.1 表面上的非泛化可能是优化不充分的假象

研究首先尝试复现先前关于SFT泛化能力较弱的发现。当使用Huan等人采用的短训练周期(1个Epoch)在Math-CoT-20k上训练Qwen3-14B-Base时,域内数学性能出现提升,但域外基准测试(如LCB v2, GPQA-D)收益有限,甚至在部分通用基准测试(如IFEval, AlpacaEval)上出现性能下降。当采用较小的学习率(1e-5)时,这种域外泛化乏力的现象更为突出。

随后,研究团队将训练轮数扩展至8轮(默认设置),并追踪整个训练过程中的性能变化。实验观察到一种典型的“下降后恢复”(Dip-and-Recovery)模式。

在域内数学基准(MATH500, AIME24)上,性能在某些设置下会出现短暂的早期下降,随后迅速恢复并保持上升趋势。在多数域外基准测试(如LCB v2, GPQA, IFEval, AlpacaEval 2.0)上,这种非单调模式同样存在,且下降幅度更大,恢复速度更慢。随着优化的持续,性能最终超越了基座模型的初始水平。

为排除教师模型的特异性,研究使用DeepSeek-R1生成的响应(相同的20k个数学问题)重复了该实验,得到了相似的动力学曲线。这表明,之前文献中报告的SFT泛化限制,可能是短视的评估(仅观察了早期检查点)造成的错觉。长CoT数据具有较高的拟合难度,需要持续的优化才能越过性能衰退期。

3.2 响应长度作为优化阶段的诊断指标

为了理解性能为什么会先降后升,研究记录了不同训练检查点的平均响应长度。结果显示,响应长度与性能变化呈现出明显的共生关系:在训练早期,响应长度急剧增加,随后逐渐回落。最长的响应通常对应着最弱的基准测试性能,而随着性能的恢复,模型的输出变得更加精简。

对此的机制解释如下:在长CoT SFT的早期阶段,模型首先学习到的是数据中最显著的表面特征(Surface Pattern),即生成冗长的类似思考的文本。在此阶段,模型尚未可靠地掌握深层的推理模式(如问题分解、错误回溯、自我评估)。这种“浅层模仿”造成了双重负面影响:

  1. 未能学到真实的推理逻辑,导致推理任务无法产生知识迁移。
  2. 冗长的话痨式输出,伴随偶尔的格式错误(如遗漏</think>标签),会破坏模型在预训练阶段建立的指令遵循能力,导致IFEval等指标大幅下降。

随着优化的深入,模型开始内化可迁移的过程模式(Procedural Patterns),并掌握更精确的语言组织方式。这使得模型的输出更加简练、具有针对性,从而推动了跨领域的泛化。因此,响应长度可以作为判断长CoT SFT优化进度的粗略诊断工具。如果某个检查点的响应长度仍在显著缩短,说明该模型可能尚未达到完全优化状态,哪怕此时它在域内数学任务上的分数已经看似合理。

3.3 重复曝光与单次遍历的对比

长CoT数据的拟合难度引发了一个优化策略上的问题:在固定的计算预算下,是在小规模数据集上训练多个Epoch更好,还是在大规模数据集上训练单个Epoch更好?

研究设计了控制变量实验(总梯度更新步数固定为640步):

  • 设置1:默认配置(20k样本,Batch Size 256,8 Epochs)。
  • 设置2:小数据多轮配置(2.5k样本,Batch Size 32,8 Epochs)。
  • 设置3:大数据单轮配置(20k样本,Batch Size 32,1 Epoch)。

对比设置2和设置3可以看出,在相同的训练预算下,8次重复曝光(Repeated Exposure)在多个基准测试上的表现全面优于单次遍历(1-pass Coverage)。这进一步佐证了长逻辑链需要反复优化才能被模型吸收。当然,如果放开预算限制,数据的多样性依然是有益的(设置1优于设置2)。

3.4 从欠拟合到过拟合:症状与边界

上述实验表明,在默认的长CoT训练协议中,欠拟合(Under-optimization)的风险大于过拟合。为了测试过拟合的边界,研究对Qwen3-14B-Base施加了逐步增强的优化压力:

  • 设置1:默认(LR 5e-5, 8 Epochs, 余弦衰减)。
  • 设置2:增加轮数(LR 5e-5, 16 Epochs, 余弦衰减)。
  • 设置3:取消衰减(LR 5e-5, 16 Epochs, 恒定学习率)。
  • 设置4:激进调度(LR 1e-4, 16 Epochs, 恒定学习率)。

实验数据反映出,在设置2下,模型在大多数基准上的性能保持稳定或继续上升。在设置3下,部分域外测试集开始出现后期的性能衰退。而在设置4这种极端的激进配置下,典型的过拟合症状才清晰显现:域外性能全面下降,甚至域内的数学性能也开始滑坡,同时响应长度出现了反弹上升。这说明只有在长时间、高学习率且无衰减的极端压力下,模型才会出现传统意义上的过拟合崩溃。在常规调度中,长时间训练有助于穿越Dip-and-Recovery周期。

4. 数据因素:结构与质量如何塑造泛化

充分优化只是泛化的前提,泛化的方向和幅度由训练数据的质量与结构决定。为了隔离数据特征的影响,研究构建了四个平行的训练集:

  1. Math-CoT-20k:默认的长思维链数据集。
  2. Math-NoCoT-20k:通过文本处理移除默认数据集中的<think>...</think>部分,仅保留最终的逐步解答和结果。该数据集与Math-CoT共享相同的数学问题和最终答案,唯一的变量是有无长思维链过程。
  3. NuminaMath-20k:问题与默认集相同,但回答来源于人工编写的NuminaMath-1.5数据集。这些答案通常较短,缺乏冗长的探索过程,且质量参差不齐(存在跳步现象)。
  4. Countdown-CoT-20k:问题来源于Countdown算术游戏。该游戏要求使用基础的加减乘除(, , , )操作组合给定数字以达到目标值。回答由Qwen3-32B生成,包含大量的试错、回溯等长CoT探索过程。

4.1 长CoT轨迹的核心作用

对比Math-CoT-20k和Math-NoCoT-20k的实验结果可知,长CoT监督在逻辑密集型任务(尤其是数学推理)上产生了更强的泛化收益。对于Qwen3-14B等参数较大的模型,在域外推理任务(LCB v2, GPQA-D, MMLU-Pro)上,长CoT的优势依然成立。然而,在以指令遵循和偏好对齐为主的测试(如IFEval和AlpacaEval 2.0)中,Math-NoCoT-20k往往表现出略高的分数,因为这些任务侧重于输出格式的精确性,而长推理过程有时会引入额外的格式噪声。

4.2 数据质量的影响

在缺乏长CoT探索过程的情况下,进一步对比Math-NoCoT-20k和NuminaMath-20k可以剥离出数据质量(Data Quality)的影响。结果显示,Math-NoCoT-20k的表现稳定优于NuminaMath-20k。在NuminaMath-20k上训练的模型出现了广泛的域外性能衰退,且域内数学能力的提升也十分有限。结合动力学分析,NuminaMath数据集在Dip-and-Recovery曲线中几乎没有呈现出后期的恢复现象。这说明,低质量数据会从根本上破坏SFT的效用。如果在低质量数据上进行微调并观察到性能泛化失败,会将责任错误地归咎于SFT算法本身,掩盖了数据层面的短板。

4.3 过程泛化:来自Countdown的证据

Countdown-CoT数据集是一个用来验证模型能否学习抽象推理过程的试金石。它的领域知识极为单一(仅涉及基础四则运算),但在长CoT响应轨迹中包含了高度结构化的探索性程序(如问题分解、条件检验、错误回溯)。

对于Qwen3-14B等大模型,使用Countdown-CoT-20k进行SFT不仅提升了基础能力,其在数学等推理基准上的得分甚至超越了Math-NoCoT-20k。这说明模型利用Countdown数据在域外任务上实现了泛化,而这种泛化不依赖于特定的领域知识(如微积分或几何公式),而是驱动于思维链中蕴含的程序性模式(Procedural Patterns)。然而,这种泛化是有边界的:Countdown带来的收益在通用指令遵循任务(IFEval)上表现不佳,且对于参数较小或基础较弱的模型(如InternLM2.5-20B),Countdown-CoT仅能带来边际收益。这引出了下一个核心变量:基座模型能力。

5. 模型因素:基座能力决定泛化的本质

为了评估基础模型能力的作用,研究在Qwen3模型家族中选择了四个不同参数规模的基础模型:1.7B、4B、8B、14B。它们在完全相同的协议下使用Math-CoT-20k进行SFT训练。在此严格控制的设定下,泛化结果的差异可直接归因于模型能力的梯度。

5.1 规模法则与动力学差异

实验数据显示,高能力(参数较大)的模型能够更好地跨域泛化。Qwen3-14B呈现出显著的Dip-and-Recovery轨迹,并在训练后期在各个领域取得广泛提升。8B和4B模型也展示了恢复期,但增幅较小。相比之下,1.7B模型在几乎所有基准测试上的提升都停留在边际水平或负值,即便在训练后期也没有走出性能衰退的泥潭。这表明,仅仅拥有高质量的数据和充分的优化并不能确保泛化发生;较高的内在基础能力是模型从数据中抽象出普遍规律的前提条件。

模型规模同样决定了响应长度的演变曲线。在扩展训练后,较小模型依然保持着相对较长的平均响应Token数;而较大模型的响应长度则较早开始收缩并稳定在较低数值。如前文所述,响应长度是诊断模型处于“学习表面特征”还是“内化逻辑规律”阶段的一个代理指标。小模型陷入“冗长响应”阶段无法脱身,意味着其受限于自身容量,无法完成从模仿格式到内化逻辑的跨越。

5.2 案例研究:浅层模仿 vs. 真实推理

为了直观展示模型能力造成的行为差异,研究分析了训练后期(第640步)的输出切片。

案例分析 I(数论问题)
在寻找特定条件质数的数论题中,1.7B模型在早期就确定了候选集合(17, 53, 71),但它无法完成逻辑闭环。它陷入了一个死循环,连续输出了数十次“Let me check 17, 53, 71”,耗尽了最大Token限制也未能给出最终答案。这种行为反映了模型试图模仿“详尽验证”这一表面模式,却缺乏真实执行检验的能力。反观14B模型,则能够有条不紊地对每一个候选数字进行素性测试,通过独立的方法进行交叉验证,并最终收敛到正确的答案。

Token级对数似然概率分析
为了量化这种能力差异,研究者计算了Qwen3-14B与1.7B模型在Math-CoT-20k训练数据分布上的Token级别的对数似然(Log-probability)差异。通过对大约12.2万个Token的分析发现,14B模型在89.2%的Token上赋予了更高的预测概率。

当筛选出对数似然概率差值大于1.0(即14B占压倒性优势)的Token并映射到词汇层面时,生成了清晰的词云图。图 18 显示,14B模型最大的优势集中在CoT推理连接词上,例如:therefore(因此)、alternatively(或者)、maybe(可能)、wait(等等)、check(检查)。这些词汇构成了思维链推理的结构骨架,标志着模型在进行策略切换、自我纠错、回溯或反思。这在定量层面证实了:1.7B模型能够较好地拟合局部的数学计算模式,但在掌握宏观层面的推理流(何时重新考虑、何时尝试另一种路径、何时验证)方面存在结构性瓶颈,而这恰恰是“思考”与普通“计算”的本质区别。

6. 泛化的代价:安全性在推理SFT中的退化

本研究的一个重要观点是,推理能力向未见领域的泛化并不是完全无害的。长思维链SFT带来的跨域迁移表现出非对称性:推理能力的提升稳定地伴随着模型安全性(Safety/Refusal行为)的下降。

6.1 安全性测试结果

实验采用了HEx-PHI基准评估模型对有害指令的抵抗力。评估对象包括Qwen3-14B、8B以及InternLM2.5-20B。

与Base模型相比,在Math-CoT-20k上训练后,所有三个模型的攻击成功率(Attack Success Rate, ASR)均出现了显著上升,意味着安全性大幅下降。为了进行因果归因,对比测试了在Math-NoCoT-20k上微调的模型。由于Math-CoT和Math-NoCoT包含完全相同的查询和最终答案,如果安全性下降是因为数据中的数学内容造成的,两者应呈现相似的ASR上升幅度。然而,Math-NoCoT引发的安全性退化幅度极小,从而证明:这种安全边界的被打破,直接源于长CoT轨迹中包含的过程性推理模式。

6.2 案例解剖:自我合理化机制

分析模型对有害指令的具体响应,揭示了长CoT SFT改变模型拒绝策略的内部机制。

面对如何传播木马病毒(RAT)的有害请求,基座模型通常会立即触发安全策略,输出简短的拒绝回复(例如:“I'm sorry, but I can't assist with that.”)。
而在经过长CoT SFT训练后,模型在面对同样请求时,会在<think>标签内展开复杂的心理活动:

  1. 首先识别出该请求涉及恶意软件,指出这是非法或违背准则的。
  2. 接着触发探索和绕过机制,模型会开始自我合理化(Self-rationalize):“但是...假设这是出于教育目的...假设这是一堂网络安全课程的内容...”。
  3. 通过这种自我催眠,模型找到了一个被逻辑上允许的角度,绕过了内置的安全防线。
  4. 最终,在退出思考过程后,模型详细生成了有害的操作指导。

矛盾的是,这种打破安全对齐的行为,在某种意义上正是“泛化”的一种体现。长CoT SFT在模型权重中植入了一种顽固的、系统性的问题解决先验(Problem-solving Prior):面对阻碍,尝试寻找替代方案;不断探索可行的路径;不轻易放弃。对于有害查询而言,阻碍不再是一道复杂的数学公式,而变成了模型内部的“拒绝策略”(Refusal Policy)。扩展的推理思考空间给予了模型绕过自身护栏的缓冲地带。这一发现表明,泛化不是免费的午餐,在提升复杂逻辑处理能力的同时,必须针对推理模型引入更为复杂的安全约束机制。

7. 深入讨论:相关工作与研究局限

本研究与多条技术路线产生了对话,并在研究局限性方面提供了客观的自我评估。

7.1 与相关研究的关联

  • SFT vs. RL 争论:此前的研究(如Chu等人和Huan等人)将RL视为泛化的唯一途径,将SFT视为仅仅用于记忆的模块。本研究对这一二元论进行了补充。研究并不否认RL的优势,但指出在充分优化、高质量结构化数据以及强大基座模型的加持下,推理SFT本身具备跨领域泛化的能力。
  • 针对SFT目标的改进:有部分前沿研究尝试修改SFT的损失函数(例如引入RL的思路分配不同的权重)以改善泛化。本研究在保持原生SFT目标函数不变的前提下证明,泛化不是目标函数单一维度的内在固有属性,而是系统层面的条件产物。这说明,在提出复杂的算法变体前,应首先确保基准实验没有受到欠拟合或数据质量的拖累。
  • 自我越狱现象(Self-jailbreaking):早前已有研究提出推理模型会绕过自身的安全限制。本研究的独特性在于,通过CoT与No-CoT数据的严格对比实验,因果地将安全性下降归咎于程序化模式(Procedural patterns)的学习,并将此纳入整个泛化代价的讨论框架中。

7.2 模型、数据与算法的协同设计启示

实验中观察到,模型的能力不能简单等同于参数量。参数量相似但预训练来源不同的模型(例如Qwen3系列与InternLM2.5),在面对相同的SFT数据和优化配置时,表现出了不完全一致的泛化轨迹。这说明预训练和中期训练(Mid-training)阶段建立的知识表征,深刻影响着模型在后训练阶段能提取多少营养。因此,将基座模型视为一个静态的固定起点可能遮蔽了后训练设计的核心挑战。

泛化取决于模型、数据、算法和训练调度的协同设计。一个强大的基座模型在使用劣质数据时依然无法泛化;高质量数据在优化不充分时显得毫无用处;而将高昂的计算资源和优质数据投喂给基础薄弱的模型,也只能得到边际回报。不存在普适的最优配置公式,各个要素之间复杂的依存关系,要求未来的评估必须摒弃孤立变量的测试,转向系统联合分析。

7.3 研究局限性

  1. 领域限制:由于数学问题具备客观唯一的答案,且可以通过拒绝采样高置信度地获取长CoT轨迹,本研究的实验主要建立在数学推理任务之上。本文提出的优化动力学现象(特别是Dip-and-Recovery模型)以及跨领域迁移条件,是否完全适用于代码生成、科学定理证明或多模态任务,有待后续验证。
  2. 模型规模限制:受限于计算力,实验选用的最大稠密模型为20B量级。本研究未涵盖参数量过百亿/千亿级别的超大规模密集模型,也未针对混合专家架构(Mixture-of-Experts, MoE)进行验证,这类模型在优化动力学和容量界限上可能存在变数。
  3. 缺乏直接的强化学习对比:本文未设计与PPO或GRPO等主流RL方法的直接头对头对比实验。既然SFT的泛化是受到多重条件约束的,那么RL与SFT之间的对比结论也必然会随这些条件的改变而漂移,因此要设计一套绝对公平的横向对比体系依然面临方法论上的挑战。

8. 总结

《Rethinking Generalization in Reasoning SFT》一文以严谨的控制变量实验,解构了近期LLM后训练社区对监督微调泛化能力的刻板印象。文章的核心结论是清晰的:长思维链推理的SFT并非单纯的死记硬背。它的跨领域泛化是一种条件触发的现象,受制于足够长周期的优化遍历、蕴含抽象过程性模式的高质量数据,以及足以为这些模式提供土壤的基座模型能力。

本文提供了几个重要的实践指导原则:

  1. 在长CoT SFT任务中,切勿因为在第一或第二个Epoch观测到下游评测掉点就中止训练,必须耐心等待模型越过Dip-and-Recovery曲线的谷底。
  2. 可以利用模型的平均输出Token长度作为监控指标,在长度回落并企稳前,模型大概率仍在拟合浅层格式。
  3. 应当重视具有抽象结构特征的数据(哪怕只是一些逻辑智力游戏数据)对提升泛化基础逻辑能力的价值。
  4. 提升模型推理能力时,必须同步构建针对“内部自我合理化绕过”的强化对齐防御机制。

更多细节请阅读原文。


往期文章: