08
2025/10
腾讯混元提出 RLPT :在预训练数据上进行 RL,进一步 scaling LLM 推理边界
目前,业界主流的两种范式监督学习和 RL 在“scaling”这一维度上遇到了各自的瓶颈。
我们能否设计一种新的训练范式,它既能像强化学习一样促进模型探索和学
...