05

2025/09

LLM Post-Training 统一视角：清华 & 微信AI 提出统一 Policy Gradient 估计器

又一篇UFT（SFT+RL）的一篇论文（之前分享过两篇：MIT：UFT 统一监督微调（SFT）和强化微调（RFT）、RL+SFT 优势首融合，动态引导模型高效 ...

13 小时前

7 0