14
2025/09
字节 Seed 推出 EMPG:面向长程 LLM Agents 的熵调控策略梯度
如何有效地训练 Agent 仍然是一个开放且充满挑战的研究领域,特别是在许多现实场景中,例如网页浏览、软件工程或复杂的知识检索,环境的奖励信号是稀疏的——代理
...