Meta FAIR 推出 HERO:LLM 强化中集成稀疏与密集奖励

论文标题:Hybrid Reinforcement: When Reward Is Sparse, It’s Better to Be Dense ...

专挑模型的“软肋”下手:阿里 MIWV 如何实现用1%数据超越全量微调?

论文标题:Importance-Aware Data Selection for Efficient LLM Instruction Tuning ...

Meta AI 推出 RIFL:基于准则的强化学习来提升 LLM 指令遵循能力

论文标题:Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM ...

NeurIPS 2025 满分论文:LLM 强化学习的上限已被基座锁死了

论文标题:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LL ...

小红书推出 RedOne 2.0:SNS 领域大模型后训练实践指南

论文标题:RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Netw ...

EMNLP 2025 主会论文解读:Towards Automated Error Discovery

论文链接:https://arxiv.org/pdf/2509.10833 论文标题:Towards Automated Error Discove ...

Meta AI 最新研究:大模型强化学习的几何优化偏置

对于大语言模型的后训练(post-training)而言,研究者通常面临两种主流技术路径:监督微调(Supervised Fine-Tuning, SFT)和 ...

Meta AI:Scaling Agent Learning via Experience Synthesis

对于基于大型语言模型(LLM)的自主智能体(Autonomous Agents)而言,强化学习(Reinforcement Learning, RL)提供了一 ...

西湖大学提出 SimKO :一种简单的 Pass@K 策略优化方法

在RLVR的框架下,模型的训练目标通常是最大化 pass@1 的性能。pass@1 指标衡量的是模型生成一次回答时,其正确率的期望值。为了提升 pass@1, ...

Google Research 重磅研究:一种用于持续学习的新型机器学习范式 - Nested Learning

Google 在 LLM 持续学习方向有了新突破。 当前的大型语言模型(LLM)在预训练阶段结束后,其参数化知识(parametric knowledge)在 ...