强化学习基础 - 机器学习POD

百川提出DCPO：应用动态自适应裁剪、平滑优势标准化，性能优于 DAPO

在 RLVR 的实践中，尽管 GRPO 在多个任务上验证了其有效性，但后续研究，如 DAPO (Dynamic sAmpling Policy Optimiz ...

2 月前

190 2

LLM训练新思路：快手RLEP巧用经验回放，实现效率与性能双突破

将强化学习应用于大型语言模型的训练并非易事。这个过程通常伴随着巨大的计算资源消耗，并且训练过程可能很不稳定。其中一个常见的挑战是“策略漂移”（policy ...

2 月前

191 1

强化学习理论之策略梯度（Policy Gradients）基础全解析

1. 假设与问题设定在深入推导之前，我们首先要明确问题背景。策略梯度方法通常在 Episodic 设定下进行分析。这意味着智能体（Agent）与环境的交互由一系列独立的“回合”（Trajector ...

2 月前

150 3

PPO、DPO、GRPO及其变体（Dr. GRPO、GSPO、GMPO、LitePPO）策略优化算法综述

引言大型语言模型（Large Language Models, LLMs）的出现是人工智能领域的一个重要里程碑。这些模型通过在海量的文本语料库上进行自监督 ...

2 月前

482 0

强化学习理论基础之“探索与利用”演进史

“智慧的艺术，是知道该忽略什么的艺术。” — 威廉·詹姆斯 (William James) 我们每天打开美团或饿了么点外卖，一个深刻的哲学难题上演了：是稳妥地点那家吃过多次、味道不错的老牌餐厅（ ...

2 月前

183 1

蒙特卡罗和时序差分

你要听一段故事，但它绝不是平铺直叙的。数学故事里蕴藏着一种不动声色的哲学性，就像生活一样，有时你需要随机掷骰子蒙混过关，有时又得步步为营，计算每一步的得失。而蒙特卡罗方法和时序差分算法，正是这两种思维 ...

6 月前

540 2

基于动态规划的强化学习算法

动态规划（Dynamic Programming，DP）是解决强化学习问题的一类方法，它通常假设环境的动态能够完全被马尔可夫决策过程（MDP）所建模。同时，它要求能精确获取状态转移模型和奖励函数（即假 ...

6 月前

508 6

什么是价值函数？

在强化学习（Reinforcement Learning, RL）的领域中，价值函数（Value Function）是用来衡量某个状态或状态-动作对的“好坏”的核心概念。它们描述了智能体在特定策略下（ ...

6 月前

780 7

什么是马尔可夫决策过程？

马尔可夫决策过程（Markov Decision Process, MDP）是强化学习的核心基础，用于描述智能体与环境之间的交互关系。一个 MDP 通常由以下五要素构成：状态空间、动作空间、奖励函数、 ...

6 月前

570 6

强化学习基础⁹

百川提出DCPO：应用动态自适应裁剪、平滑优势标准化，性能优于 DAPO

LLM训练新思路：快手RLEP巧用经验回放，实现效率与性能双突破

强化学习理论之策略梯度（Policy Gradients）基础全解析

PPO、DPO、GRPO及其变体（Dr. GRPO、GSPO、GMPO、LitePPO）策略优化算法综述

强化学习理论基础之“探索与利用”演进史

蒙特卡罗和时序差分

基于动态规划的强化学习算法

什么是价值函数？

什么是马尔可夫决策过程？

专题展示

强化学习基础9

专题展示

强化学习基础⁹