19

2025/08

HuggingFace榜一论文：大模型强化学习中的熵机制

将 RL 应用于 LLM 的推理任务并非一帆风顺，一个普遍存在且棘手的问题是 “策略熵崩溃”（Collapse of Policy Entropy）。在 RL ...

1 天前

15 0