26

2025/09

腾讯提出单流策略优化（SPO）：告别组同步瓶颈，回归RL本质

当前，流行的范式是所谓的 group-based 方法，其代表是组相对策略优化（Group Relative Policy Optimization, GRP ...

5 小时前

7 0