周志华团队新作:通过IRL挖掘LLM内生奖励,首次理论证明RL对LLM有效性
大型语言模型(LLMs)的“对齐”(Alignment)是确保其行为符合人类价值观和期望的关键技术,其核心在于奖励模型(Reward Model, RM)的构
...
FlashRL:引入截断重要性采样,解决Rollout训练不匹配,RL加速可达1.75×
Rollout 生成是强化学习(RL)训练中的主要瓶颈,在 DAPO-32B 模型中约占总训练时间的 70%。FlashRL 提供了首个开源且可用的 RL
...
超越二元奖励:训练语言模型审视自身的不确定性
优化大语言模型过程中,我们都会面临一个问题:通过强化学习(如 RLHF 或 RLVR)增强模型能力的同时,往往会以牺牲模型的校准度为代价,从而催生出更“自信的
...
少即是多:Lite PPO如何用最简策略在LLM推理上超越复杂强化学习算法
利用强化学习(RL)提升大型语言模型(LLM)的推理能力,即RL4LLM,已成为人工智能领域炙手可热的研究方向。然而,该领域的飞速发展也带来了一系列严峻挑战:
...
重磅开源!GLM-4.5 ARC 技术报告深度解读:迈向通用问题求解器的关键一步
2025年8月8日,智谱 AI (Zhipu AI) 与清华大学联手推出了《GLM-4.5: Agentic, Reasoning, and Coding (
...
清华&美团首次揭秘MoE:从“Massive Activations”到“Attention Sink”,探寻“超级专家”的机制
稀疏激活的混合专家模型(Mixture-of-Experts, MoE)已成为推动大型语言模型(LLM)能力边界的关键架构。然而,其庞大的参数量给实际部署带来
...
Diffusion:真正的王牌不是“快”,而是“超级数据学习者”
近期,扩散语言模型(Diffusion Language Models, DLMs)的研究热潮凸显了其巨大的潜力。得益于并行的解码设计,DLMs 能够以每秒数
...
腾讯 AI Lab提出R-Zero「实现零数据自进化」
最近的大语言模型(LLM)发展得很快,但是,这些个模型有个问题:就是它们太依赖大量人工标注的高质量数据了。
要训练一个顶尖的LLM,需要投入很多人力、财力和时
...
CompassVerifier 深度解析:为大模型打造统一、鲁棒的“裁判”与“奖励”系统
我们该如何准确、可靠地评估大模型的能力?
如果说模型是“工匠”,那么评估体系就是“度量衡”。一个没有精准度量衡的领域,是无法实现系统性、科学化进步的。目前,对
...
一行代码,解锁SFT泛化能力:深度解读DFT如何完胜传统微调
在大型语言模型 (LLM) 的世界里,如何让模型更好地理解并遵循人类的指令,即所谓的“对齐”,始终是核心议题。目前,主流的技术路线分为两条:监督微调(Supe
...