09
2025/09
深入解读 RL's Razor:为何在线强化学习能有效缓解灾难性遗忘?
当我们使用新数据对大模型进行微调(Fine-tuning)时,模型在获得新能力的同时,往往会严重损害甚至完全忘记之前已经掌握的知识和技能。这就是灾难性遗忘(C
...