02
2026/02
自蒸馏优化 SDPO:如何利用富文本反馈打破 RLVR 的信用分配瓶颈?
论文标题:Reinforcement Learning via Self-Distillation
论文链接:https://arxiv.org/p
...