19
2025/08
HuggingFace榜一论文:大模型强化学习中的熵机制
将 RL 应用于 LLM 的推理任务并非一帆风顺,一个普遍存在且棘手的问题是 “策略熵崩溃”(Collapse of Policy Entropy)。在 RL
...