15
2025/08

周志华团队新作:通过IRL挖掘LLM内生奖励,首次理论证明RL对LLM有效性

大型语言模型(LLMs)的“对齐”(Alignment)是确保其行为符合人类价值观和期望的关键技术,其核心在于奖励模型(Reward Model, RM)的构 ...