19
2025/09

Meta AI 新作 Compute as Teacher: 将 rollouts 转化为高质量的无参考监督

对于 LLM 的 post-training 过程,一个核心的挑战在于如何获取高质量的监督信号。无论是 SFT 还是从人类反馈中进行强化学习 RLHF,其效果 ...