24

2026/02

小红书提出 VESPO 变分序列级软策略优化，从测度变换视角重构重要性采样

论文标题：VESPO: Variational Sequence-Level Soft Policy Optimization for Stable O ...

16 小时前

15 0