18

2025/08

字节Seed：Pass@k作为reward可以有效平衡探索与利用

目前主流的 RLVR 方法普遍采用一种被称为 Pass@1 的目标进行优化。简单来说，只要模型生成的众多答案中有一个是正确的，就认为这次尝试是“成功”的，并给 ...

1 天前

11 0

高中生都能看懂的大模型PPO优化算法

今天，我们要一起探索一个在人工智能（AI）领域非常重要，特别是驱动像 ChatGPT 这样的大型语言模型（Large Language Models, LLM ...

2 天前

20 0

深入探讨RL4LLM：解决低概率词元的“过度主导”问题

今天给大家解读的论文是《Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs》（arX ...

2 天前

22 0

浙大Posterior-GRPO：结合PRM和ORM来优化大模型

近年来，基于强化学习（Reinforcement Learning, RL）的大语言模型（LLMs）后训练（post-training）技术取得了显著的进展， ...

2 天前

24 0