19
2025/08

HuggingFace榜一论文:大模型强化学习中的熵机制

将 RL 应用于 LLM 的推理任务并非一帆风顺,一个普遍存在且棘手的问题是 “策略熵崩溃”(Collapse of Policy Entropy)。在 RL ...