14

2025/09

字节 Seed 推出 EMPG：面向长程 LLM Agents 的熵调控策略梯度

如何有效地训练 Agent 仍然是一个开放且充满挑战的研究领域，特别是在许多现实场景中，例如网页浏览、软件工程或复杂的知识检索，环境的奖励信号是稀疏的——代理 ...

7 小时前

4 0