Pod 4. 什么是强化学习？

强化学习是机器学习领域的一个分支，它专注于如何使智能系统通过与环境的交互来学习最佳行为策略。这一学习过程假设智能系统与环境的互动符合马尔可夫决策过程，其中智能系统能够观测到一系列因交互产生的状态和奖励。强化学习的目标是优化序贯决策，以实现长期奖励的最大化。

在每个时间步骤 $t$ ，智能系统会从环境中获取一个状态 $s_t$ 和一个奖励 $r_t$ ，然后根据这些信息采取一个动作 $a_t$ 。环境响应智能系统的动作并决定下一时刻 $t+1$ 的状态 $s_{t+1}$ 和奖励 $r_{t+1}$ 。学习的策略是指在给定状态下应采取的动作。智能系统的目标是最大化整个过程中的长期累积奖励，而不仅仅是单个时刻的奖励。通过不断尝试和错误，强化学习系统逐步发展出最优策略。

强化学习中的马尔可夫决策过程是一种随机过程，由四元组 $\langle S, A, P, r \rangle$ 定义：

$S$ 是有限状态集合。
$A$ 是有限动作集合。
$P$ 是状态转移概率函数： $P(s'|s, a)$ 。
$r$ 是奖励函数： $r(s, a)$ 。

马尔可夫决策过程具有马尔可夫性, 下一个状态只依赖于前一个状态与动作, 由状态转移概率函数 $P\left(s^{\prime} \mid s, a\right)$ 表示。下一个奖励依赖于前一个状态与动作, 由奖励函数 $r(s, a)$ 表示。

策略 $\pi$ 定义了在给定状态下采取动作的规则，可以是一个函数 $a=f(s)$ 或条件概率分布 $P(a|s)$ 。在策略 $\pi$ 下，智能系统的行为模式是确定性或随机性的。

价值函数（或状态价值函数）是在策略 $\pi$ 下，从某状态 $s$ 出发的长期累积奖励的期望值：

v_{\pi}(s) = E_{\pi}\left[r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots | s_t=s\right]

动作价值函数则是从状态 $s$ 和动作 $a$ 出发的长期累积奖励的期望值：

q_{\pi}(s, a) = E_{\pi}\left[r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots | s_t=s, a_t=a\right]

强化学习的终极目标是找到最大化价值函数的策略 $\pi^*$ ，在实际学习中，这通常涉及到从一个初始策略出发，不断地进行迭代优化。折扣因子 $\gamma$ 用来调整未来奖励的现值。

强化学习方法可以分为基于策略的、基于价值的，这两种方法都属于无模型方法，还有基于模型的方法。

基于模型的方法尝试直接学习马尔可夫决策过程的模型，包括状态转移概率和奖励函数，以便能够预测环境反馈并找到最大化价值函数的策略 $\pi^*$ 。

基于策略的无模型方法不直接学习环境模型，而是寻找最优策略 $\pi^*$ ，可以通过函数 $a=f^*(s)$ 或条件概率分布 $P^*(a|s)$ 表示，实现最佳决策。学习过程从一个初始策略开始，通过探索来优化。

基于价值的无模型方法也不直接学习环境模型，而是尝试找到最优价值函数，尤其是最优动作价值函数 $q^*(s, a)$ 。通过这种方法，可以间接地学到最优策略，根据该策略在特定状态下采取最佳动作。这个学习过程通常从一个初始价值函数开始，不断通过迭代来优化。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

专题展示

关注公众号，获取最新动态

Pod 4. 什么是强化学习？

猜你喜欢

专题展示

关注公众号，获取最新动态