02

2026/02

自蒸馏优化 SDPO：如何利用富文本反馈打破 RLVR 的信用分配瓶颈？

论文标题：Reinforcement Learning via Self-Distillation 论文链接：https://arxiv.org/p ...

2 月前

470 0