18
2025/08
字节Seed:Pass@k作为reward可以有效平衡探索与利用
目前主流的 RLVR 方法普遍采用一种被称为 Pass@1 的目标进行优化。简单来说,只要模型生成的众多答案中有一个是正确的,就认为这次尝试是“成功”的,并给
...
高中生都能看懂的大模型PPO优化算法
今天,我们要一起探索一个在人工智能(AI)领域非常重要,特别是驱动像 ChatGPT 这样的大型语言模型(Large Language Models, LLM
...
深入探讨RL4LLM:解决低概率词元的“过度主导”问题
今天给大家解读的论文是《Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs》(arX
...
浙大Posterior-GRPO:结合PRM和ORM来优化大模型
近年来,基于强化学习(Reinforcement Learning, RL)的大语言模型(LLMs)后训练(post-training)技术取得了显著的进展,
...