21

2026/01

你的 GRPO 的优势估计是有偏差的：GRPO 中的统计陷阱与 HA-DW 修正方案

论文标题：Your Group-Relative Advantage Is Biased 论文链接：https://arxiv.org/pdf/26 ...

18 小时前

16 0