0xC001
分享机器学习知识
248
文章
0
评论
527
获赞
重新思考 On-Policy 蒸馏:训练动态、内在机制以及工程实践方案
让每一项优秀工作,被更多人看见:点击进入投稿通道
论文追踪 APP 推荐:DailyPapers
论文标题:Rethinking On-Policy
...
DeepSeek-V4 技术报告解读
让每一项优秀工作,被更多人看见:点击进入投稿通道
论文标题:DeepSeek-V4: Towards Highly Efficient Million
...
人大 & 字节 Seed 提出 Agent-World:实现 Agent 策略与训练环境的协同进化
让每一项优秀工作,被更多人看见:点击进入投稿通道
论文标题:Agent-World: Scaling Real-World Environment S
...
如何抑制大模型强化学习中的重复错误?MEDS 动态奖励框架解读
让每一项优秀工作,被更多人看见:点击进入投稿通道
论文标题:The Past Is Not Past: Memory-Enhanced Dynamic
...
大模型后训练再思考:决定推理SFT泛化能力的三个隐藏变量
让每一项优秀工作,被更多人看见:点击进入投稿通道
论文标题:Rethinking Generalization in Reasoning SFT: A
...
腾讯混元新作:大道至简做好思维链无损压缩
让每一项优秀工作,被更多人看见:点击进入投稿通道
论文标题:The Art of Efficient Reasoning: Data, Reward,
...
相同语义下,提示词的文本频率如何影响大语言模型?
论文标题:Adam’s Law: Textual Frequency Law on Large Language Models
论文链接:https
...
京东提出 RLSD:解决 On-Policy 自蒸馏中的信息不对称问题
让每一项优秀工作,被更多人看见:点击进入投稿通道
论文标题:Self-Distilled RLVR
论文链接:https://arxiv.org/
...
Qwen 团队提出 FIPO:通过 Future-KL 影响的策略优化激发大模型深度推理能力
让每一项优秀工作,被更多人看见:点击进入投稿通道
论文标题:FIPO: Eliciting Deep Reasoning with Future-K
...
mSFT: 解决多任务SFT过拟合问题
让每一项优秀工作,被更多人看见:点击进入投稿通道
论文标题:mSFT: Addressing Dataset Mixtures Overfitting
...