05
2025/09

LLM Post-Training 统一视角:清华 & 微信AI 提出统一 Policy Gradient 估计器

又一篇UFT(SFT+RL)的一篇论文(之前分享过两篇:MIT:UFT 统一监督微调(SFT)和强化微调(RFT)、RL+SFT 优势首融合,动态引导模型高效 ...