02
2025/09
强化学习理论之策略梯度(Policy Gradients)基础全解析
1. 假设与问题设定
在深入推导之前,我们首先要明确问题背景。策略梯度方法通常在 Episodic 设定下进行分析。这意味着智能体(Agent)与环境的交互由一系列独立的“回合”(Trajector
...
PPO、DPO、GRPO及其变体(Dr. GRPO、GSPO、GMPO、LitePPO)策略优化算法综述
引言
大型语言模型(Large Language Models, LLMs)的出现是人工智能领域的一个重要里程碑。这些模型通过在海量的文本语料库上进行自监督
...