05
2025/10

腾讯混元提出TFPI:效率性能双重提升,解决 RLVR 中长上下文训练难题

带可验证奖励的强化学习(RLVR)能有效解决复杂任务,但在实际训练过程中面临着两大瓶颈: 高计算成本:为了让模型充分探索推理空间,RLVR训练过程中需要生 ...