05

2025/10

腾讯混元提出TFPI：效率性能双重提升，解决 RLVR 中长上下文训练难题

带可验证奖励的强化学习（RLVR）能有效解决复杂任务，但在实际训练过程中面临着两大瓶颈：高计算成本：为了让模型充分探索推理空间，RLVR训练过程中需要生 ...

6 小时前

9 0