21

2025/08

Qwen团队提出CHORD训练流程：动态融合 SFT 与 RL

大型语言模型 (LLM) 的后训练 (Post-training) 通常依赖于两种主流范式：监督微调 (Supervised Fine-Tuning, SFT ...

2 天前

23 1

先前的工作已经证明了 RLVR 在实践中的成功，但其背后的根本机制，特别是模型在训练过程中的探索行为，仍有待深入研究。来自中国人民大学高瓴人工智能学院的研究者 ...

3 天前

22 0