08

2025/10

腾讯混元提出 RLPT ：在预训练数据上进行 RL，进一步 scaling LLM 推理边界

目前，业界主流的两种范式监督学习和 RL 在“scaling”这一维度上遇到了各自的瓶颈。我们能否设计一种新的训练范式，它既能像强化学习一样促进模型探索和学 ...

9 小时前

6 0