21
2025/08
Qwen团队提出CHORD训练流程:动态融合 SFT 与 RL
大型语言模型 (LLM) 的后训练 (Post-training) 通常依赖于两种主流范式:监督微调 (Supervised Fine-Tuning, SFT
...
深挖RLVR探索机制:SFT专攻Pass@k,RL强化Pass@1
先前的工作已经证明了 RLVR 在实践中的成功,但其背后的根本机制,特别是模型在训练过程中的探索行为,仍有待深入研究。来自中国人民大学高瓴人工智能学院的研究者
...