13

2026/05

京东新作：训练-推理差异与策略滞后，如何在异步 RL 框架中实现解耦校正

让每一项优秀工作，被更多人看见：点击进入投稿通道论文追踪 APP 推荐：DailyPapers 论文标题：Missing Old Logits i ...

20 小时前

11 0