强化学习基础9

百川提出DCPO:应用动态自适应裁剪、平滑优势标准化,性能优于 DAPO

在 RLVR 的实践中,尽管 GRPO 在多个任务上验证了其有效性,但后续研究,如 DAPO (Dynamic sAmpling Policy Optimiz ...

LLM训练新思路:快手RLEP巧用经验回放,实现效率与性能双突破

将强化学习应用于大型语言模型的训练并非易事。这个过程通常伴随着巨大的计算资源消耗,并且训练过程可能很不稳定。 其中一个常见的挑战是“策略漂移”(policy ...

强化学习理论之策略梯度(Policy Gradients)基础全解析

1. 假设与问题设定 在深入推导之前,我们首先要明确问题背景。策略梯度方法通常在 Episodic 设定下进行分析。这意味着智能体(Agent)与环境的交互由一系列独立的“回合”(Trajector ...

PPO、DPO、GRPO及其变体(Dr. GRPO、GSPO、GMPO、LitePPO)策略优化算法综述

引言 大型语言模型(Large Language Models, LLMs)的出现是人工智能领域的一个重要里程碑。这些模型通过在海量的文本语料库上进行自监督 ...

强化学习理论基础之“探索与利用”演进史

“智慧的艺术,是知道该忽略什么的艺术。” — 威廉·詹姆斯 (William James) 我们每天打开美团或饿了么点外卖,一个深刻的哲学难题上演了:是稳妥地点那家吃过多次、味道不错的老牌餐厅( ...

蒙特卡罗和时序差分

你要听一段故事,但它绝不是平铺直叙的。数学故事里蕴藏着一种不动声色的哲学性,就像生活一样,有时你需要随机掷骰子蒙混过关,有时又得步步为营,计算每一步的得失。而蒙特卡罗方法和时序差分算法,正是这两种思维 ...

基于动态规划的强化学习算法

动态规划(Dynamic Programming,DP)是解决强化学习问题的一类方法,它通常假设环境的动态能够完全被马尔可夫决策过程(MDP)所建模。同时,它要求能精确获取状态转移模型和奖励函数(即假 ...

什么是价值函数?

在强化学习(Reinforcement Learning, RL)的领域中,价值函数(Value Function)是用来衡量某个状态或状态-动作对的“好坏”的核心概念。它们描述了智能体在特定策略下( ...

什么是马尔可夫决策过程?

马尔可夫决策过程(Markov Decision Process, MDP)是强化学习的核心基础,用于描述智能体与环境之间的交互关系。一个 MDP 通常由以下五要素构成:状态空间、动作空间、奖励函数、 ...