强化学习是机器学习领域的一个分支,它专注于如何使智能系统通过与环境的交互来学习最佳行为策略。这一学习过程假设智能系统与环境的互动符合马尔可夫决策过程,其中智能系统能够观测到一系列因交互产生的状态和奖励。强化学习的目标是优化序贯决策,以实现长期奖励的最大化。

在每个时间步骤 t ,智能系统会从环境中获取一个状态 s_t 和一个奖励 r_t ,然后根据这些信息采取一个动作 a_t 。环境响应智能系统的动作并决定下一时刻 t+1 的状态 s_{t+1} 和奖励 r_{t+1} 。学习的策略是指在给定状态下应采取的动作。智能系统的目标是最大化整个过程中的长期累积奖励,而不仅仅是单个时刻的奖励。通过不断尝试和错误,强化学习系统逐步发展出最优策略。

强化学习中的马尔可夫决策过程是一种随机过程,由四元组 \langle S, A, P, r \rangle 定义:

  • S 是有限状态集合。
  • A 是有限动作集合。
  • P 是状态转移概率函数: P(s'|s, a)
  • r 是奖励函数: r(s, a)

马尔可夫决策过程具有马尔可夫性, 下一个状态只依赖于前一个状态与动作, 由状态转移概率函数 P\left(s^{\prime} \mid s, a\right) 表示。下一个奖励依赖于前一个状态与动作, 由奖励函数 r(s, a) 表示。

策略 \pi 定义了在给定状态下采取动作的规则,可以是一个函数 a=f(s) 或条件概率分布 P(a|s) 。在策略 \pi 下,智能系统的行为模式是确定性或随机性的。

价值函数(或状态价值函数)是在策略 \pi 下,从某状态 s 出发的长期累积奖励的期望值:

v_{\pi}(s) = E_{\pi}\left[r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots | s_t=s\right]

动作价值函数则是从状态 s 和动作 a 出发的长期累积奖励的期望值:

q_{\pi}(s, a) = E_{\pi}\left[r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots | s_t=s, a_t=a\right]

强化学习的终极目标是找到最大化价值函数的策略 \pi^* ,在实际学习中,这通常涉及到从一个初始策略出发,不断地进行迭代优化。折扣因子 \gamma 用来调整未来奖励的现值。

强化学习方法可以分为基于策略的、基于价值的,这两种方法都属于无模型方法,还有基于模型的方法。

基于模型的方法尝试直接学习马尔可夫决策过程的模型,包括状态转移概率和奖励函数,以便能够预测环境反馈并找到最大化价值函数的策略 \pi^*

基于策略的无模型方法不直接学习环境模型,而是寻找最优策略 \pi^* ,可以通过函数 a=f^*(s) 或条件概率分布 P^*(a|s) 表示,实现最佳决策。学习过程从一个初始策略开始,通过探索来优化。

基于价值的无模型方法也不直接学习环境模型,而是尝试找到最优价值函数,尤其是最优动作价值函数 q^*(s, a) 。通过这种方法,可以间接地学到最优策略,根据该策略在特定状态下采取最佳动作。这个学习过程通常从一个初始价值函数开始,不断通过迭代来优化。