“智慧的艺术,是知道该忽略什么的艺术。” — 威廉·詹姆斯 (William James)

我们每天打开美团或饿了么点外卖,一个深刻的哲学难题上演了:是稳妥地点那家吃过多次、味道不错的老牌餐厅(利用),还是冒险尝试一下首页推荐的那家新店,说不定会发现意想不到的美味(探索)?

这个看似简单的选择,背后正是困扰着从人工智能专家到经济学家们的核心矛盾——“探索与利用的权衡”(Exploration vs. Exploitation)。

选择“利用”,我们获得了确定的满足感,但也可能永远被困在“红烧肉套餐”里,错失街角那家绝妙的轻食店;选择“探索”,我们为未来的美食地图开辟了新的可能,但也承担着“踩雷”、浪费金钱和心情的风险。

为了把这个我们每天都在无意识解决的难题,变成一个可以被精确研究和优化的科学问题,科学家们构建了一个经典的模型——多臂老虎机问题(Multi-Armed Bandit)。

想象一下,美团上的每一家餐厅都是一台老虎机。你并不知道它们真正的“好吃概率”(中奖率),你的每一次下单就是一次“拉杆”。你的目标是,在有限的午餐预算(拉杆次数)内,尽可能地最大化你的美食幸福感(总收益)。

这个问题的解决历程,绝非一蹴而就。它是一场跨越近一个世纪、汇集了统计学、计算机科学、运筹学和机器学习领域顶尖智慧的伟大接力赛。

1. 问题的首次提出与早期探索 (1930s - 1950s)

在计算机科学正式成为一门学科之前,探索与利用的困境已在那些决策代价极其高昂的领域——生物统计学和临床医学试验中,初现端倪。这并非巧合,因为在这些场景下,每一次“尝试”(比如给病人使用一种新药)都可能意味着生命的拯救或逝去,这迫使研究者们必须在“边做边学”(learning while doing)的过程中,尽可能快地找到最优策略,并让更多试验对象受益。

1.1 一位被遗忘了半个世纪的先知

故事的真正起点,可以追溯到1933年。当时,耶鲁大学的生物统计学家威廉·汤普森发表了一篇在当时并未引起广泛关注、题为《关于一个未知概率大于另一个的似然性》(On the likelihood that one unknown probability is greater than another)的论文。然而,这篇论文在近80年后被证明是该领域真正的开山之作。

汤普森面临的问题是典型的临床试验困境:有两种药物A和B,它们的真实疗效未知。我们希望在试验过程中,不仅能通过数据判断出哪种药更优,更重要的是,要让尽可能多的患者被分配到效果更好的那种药物上。这是一个经典的、带有即时反馈和长远目标的适应性设计(adaptive design)问题。

汤普森提出的解决方案,蕴含着深刻的贝叶斯思想,可以说是汤普森采样(Thompson Sampling)算法最早的、最朴素的雏形。其核心逻辑可以概括为:

  1. 维护信念分布 (Maintain Belief Distribution): 贝叶斯思想的核心是,不将未知的参数(如药物疗效)看作一个固定的、待估计的值,而是用一个概率分布来描述我们对它的“信念”或不确定性。对于一个成功/失败的试验(如药物是否有效),其成功率可以用一个Beta分布来建模。初始时,我们对两种药物一无所知,可以为它们的疗效 分别设定一个Beta(1, 1)的先验分布,这等同于[0, 1]上的均匀分布。

  2. 根据信念做决策 (Sample from Belief for Decision): 在给下一位病人用药时,我们不直接比较两种药物的期望疗效,而是从它们各自的信念分布中,随机抽取一个样本值。比如,从代表药物A疗效的Beta分布中抽样得到 ,从代表药物B疗效的Beta分布中抽样得到

  3. 选择最优可能 (Choose the Apparent Best): 我们比较这两个随机抽取的样本值,并选择数值更大的那个。在这个例子中,因为 ,我们就给这位病人使用药物A。

  4. 更新信念 (Update Belief): 观察药物A的治疗结果后(比如“成功”),我们根据这个新的数据点来更新我们对药物A疗效的信念分布。在Beta-Bernoulli模型中,这个更新非常简单(得益于共轭先验的性质):如果药物A成功了,其分布从 更新为 ;如果失败了,则更新为 。这个更新过程,就是贝叶斯法则的具体体现。

这个方法的精妙之处在于,它通过后验概率采样,将探索和利用完美地融合在了一起。如果一种药物(比如A)的历史表现很好(成功次数多),它的信念分布(Beta分布的概率密度函数图像)会变得“又高又瘦”,并集中在较高的值上,因此它有很大概率采样出高值而被选中(利用)。反之,如果另一种药物(比如B)的尝试次数很少,它的信念分布会非常“矮胖”,覆盖范围很广,充满了不确定性。这意味着它既可能采样出很低的值,也同样可能采样出非常高的值,从而获得了被探索的机会(探索)。

然而,历史总是充满遗憾。由于上世纪30年代,统计学界由频率学派主导,贝叶斯思想尚处边缘地位,加之当时计算能力的限制,进行大规模采样计算十分困难,汤普森的这一杰出思想在历史长河中被“雪藏”了近半个世纪,直到21世纪才被重新发掘并大放异彩。这是后话。

1.2 为问题注入数学灵魂

如果说汤普森是思想上的伟大先驱,那么哥伦比亚大学的统计学家赫伯特·罗宾斯则是为多臂老虎机问题构建理论大厦的奠基人。在1952年的论文《关于实验的序贯设计的一些方面》(Some aspects of the sequential design of experiments)中,罗宾斯做了两件影响深远的里程碑式工作:

  1. 正式定义问题: 他清晰地将这类问题从具体的应用场景中抽离出来,抽象为“多臂老虎机”模型,使其成为一个具有普适性的数学问题。这一定义包括:

    • 个臂(动作),
    • 每个臂 对应一个未知的、固定的回报概率分布 ,其均值为
    • 在一个时间序列 中,算法在每一轮选择一个臂 ,并观测到从 中采样的一个回报
    • 算法的目标是最大化总回报
  2. 引入“遗憾”(Regret)概念: 如何科学地衡量一个bandit算法的好坏?罗宾斯提出了一个至今仍在被所有相关研究使用的核心指标——遗憾。在 次试验后,一个算法的总遗憾被定义为:

    其中, 是所有“臂”(老虎机)中最好的那个的真实平均回报,而 则是算法在 次试验中实际获得的总回报。

“遗憾”的含义是:你的算法因为没有始终选择那个“上帝视角”下的最优臂,而造成了多少“本可以得到却没有得到”的收益损失。它完美地量化了探索与利用权衡的代价。一个好的算法,其目标就是最小化总遗憾

更准确地说,我们希望算法的平均遗憾 随着试验次数 的增加而趋向于0。这意味着算法最终能够以极高的概率收敛到选择最优的臂。罗宾斯向整个统计学界发出了一个响亮的挑战:设计一个策略,使其总遗憾的增长速度是次线性的(sub-linear),例如 ,而不是线性的 。一个总是随机选择的策略,其遗憾是线性增长的。这个挑战,正式开启了长达数十年的、以最小化遗憾为目标的理论探索之旅。

2. 启发式算法 (1970s - 1980s)

在强大的、具有理论保障的算法诞生之前,研究者们首先尝试了一些符合人类直觉的、简单的启发式算法。这些算法虽然在理论上不完美,但因其简单、有效且易于实现,至今仍在工业界和学术界被广泛使用和讨论,并常常作为更复杂算法的基准(baseline)。

2.1 Epsilon-Greedy (ε-贪心) 算法:简单即是美

ε-贪心算法是bandit问题中最著名、最基础的入门级算法。它的思想简单粗暴,却直指问题的核心:在绝大部分时间里保持贪心,但偶尔给予一点随机性来避免短视。

其策略如下:

  • 绝大部分时间搞“利用”: 在每次决策时,算法以 的概率,选择到目前为止观测到的样本平均回报最高的那个臂。令 为臂 时刻前的样本均值,则选择
  • 小部分时间搞“探索”: 以一个很小的概率 (例如 0.1 或 0.05),完全随机地从所有 个臂中选择一个。

伪代码:

  1. 初始化:为每个臂 初始化计数 和回报总和 。参数为
  2. 对于
    a. 生成一个 [0, 1] 之间的随机数
    b. 如果
    选择一个随机的臂 (探索)。
    c. 否则:
    选择臂 (利用)。(若有多个最大值,则随机选一个)。
    d. 拉动臂 ,获得回报
    e. 更新:,

优点:

  • 实现极其简单,几乎是bandit问题的 "Hello World"。
  • 逻辑清晰,容易理解和解释。
  • 保证了“无限探索”,即每个臂在无限时间内都有被选中的机会,从而避免了算法过早地收敛到次优臂。

缺点:

  • 探索是“盲目的”: 在探索时,算法给予一个历史表现极差的臂和一个“看起来很有潜力但尝试不多”的臂完全相同的机会。这显然是低效的,浪费了宝贵的探索机会。
  • 参数敏感: 的选择至关重要。如果 太大,算法会浪费太多机会在无用的探索上,导致遗憾增加;如果 太小,算法可能无法发现真正的最优臂,或发现得太慢,导致长期遗憾增加。

为了解决固定 的问题,人们提出了衰减 ε-贪心(Decaying ε-Greedy)策略。其思想是让 随着时间的推移而逐渐减小,例如令 。在初期,算法不确定性高,需要进行大量的探索;随着经验的积累,算法越来越自信,逐渐减少探索,更多地转向利用。这种改进在理论上可以实现更好的遗憾界,但如何设计最优的衰减速率本身又成了一个新问题。

2.2 Softmax 探索

作为对 ε-贪心算法“盲目”探索的改进,Softmax 算法提出了一种更“智能”的、基于价值的随机探索方式。它不再是均等地探索所有非最优臂,而是根据每个臂的历史表现来分配探索的概率——表现越好的臂,被选中的概率也越高。

其核心思想是,每个臂被选中的概率与其估计的回报值呈正相关。具体来说,在第 轮,臂 被选中的概率 通过一个Softmax函数(也称Boltzmann分布)计算得出:

这里的 是臂 时刻的样本平均回报,而 是一个称为“温度”(temperature)的超参数,它控制着算法的探索程度。

  • 时,分子分母中的指数项都趋近于1,所有臂被选中的概率趋于相等(),算法接近于纯粹的随机探索。
  • 时,概率会极度集中在当前样本平均回报最高的臂上,算法接近于纯粹的贪心利用。

通过调节温度 ,我们可以控制探索与利用的平衡。通常,我们会采用一个退火(annealing)策略,即让 随着时间的推移而逐渐降低,从而实现从高度探索到高度利用的平滑过渡。

相比于 ε-贪心,Softmax 显然更胜一筹,因为它将“探索”的机会更多地给予了那些“看起来更有希望”的臂,而不是浪费在明显较差的臂上。但它仍然是一个启发式算法,其遗憾性能高度依赖于温度的设定和退火策略,缺乏像后来的UCB算法那样坚实的、与问题无关的理论遗憾界保证。

3. 乐观主义原则与遗憾下界 (1980s - 2000s)

启发式算法虽然实用,但统计学家和理论计算机科学家们追求的是更根本的东西:一个具有严格数学证明、能够在理论上达到最优的算法。这段时期,bandit理论迎来了决定性的突破,为整个领域奠定了坚实的数学基础。

3.1 为“遗憾”设定理论下界

1985年,T.L. Lai 与前文提到的奠基人 Herbert Robbins 合作发表了一篇划时代的论文《渐进有效的自适应分配规则》(Asymptotically efficient adaptive allocation rules)。这篇论文从理论上证明了,对于一类广泛的 bandit 问题,任何“足够好”的算法,其累计遗憾 的增长速度不可能优于对数级别

具体来说,他们证明了对于任何具有一致性的算法(即能以概率1收敛到最优臂的算法),其遗憾存在一个渐进下界:

这个公式的右侧由每个次优臂与最优臂之间的“距离”决定。这个“距离”用KL散度(Kullback-Leibler Divergence)来衡量,它表示了从信息论的角度看,区分两个概率分布( 是次优臂的回报分布, 是最优臂的回报分布)的难度。

这个理论下界的意义是革命性的:

  1. 它为所有 bandit 算法设定了一个黄金标准。任何算法如果能设计出来,并且被证明其遗憾可以达到 的增长率,那么它在渐进意义上就是“最优”的,不可能再有本质上更好的算法了。
  2. 它指明了问题的核心难度。如果一个次优臂的回报分布与最优臂非常接近(KL散度小),那么区分它们就需要更多的样本,因此必然会产生更多的遗憾。这个下界是问题本身内在困难性的体现,而不是算法的缺陷。

这个理论里程碑为后续算法的设计指明了方向:我们的目标就是设计一个具体的、可执行的算法,并证明它能匹配这个对数遗憾界。

3.2 UCB 算法的横空出世

在 Lai 和 Robbins 设定了理论目标近20年后,一个简单、优美且能达到该目标的算法终于诞生了。2002年,Peter Auer, Nicolò Cesa-Bianchi 和 Paul Fischer 发表了论文《有限时间分析 Bandit 问题》(Finite-time Analysis of the Multiarmed Bandit Problem),正式提出了置信上界(Upper Confidence Bound, UCB1)算法。

UCB算法的核心思想是一个非常强大且普适的原则:“在不确定性面前保持乐观”(Optimism in the Face of Uncertainty, OFU)。对于每个臂,我们不仅要看它过去的表现(样本均值),还要考虑我们对这个估计的“不确定性”。一个臂被尝试的次数越少,我们对它的真实回报就越不确定,它的“潜力”就可能越大。我们应该乐观地相信,它的真实回报可能是我们当前认知范围内的最高值。

UCB算法在每一轮 为每一个臂 计算一个指数,然后选择指数最高的那个臂。这个指数由两部分构成:

  1. 利用项 :臂 时刻前观测到的样本平均回报。这体现了对已知信息的利用。
  2. 探索项 :这部分也被称为“置信半径”或“探索奖励”。

    • 是总的试验次数。分子中的 使得探索的紧迫性随着时间推移而缓慢增长。
    • 是臂 时刻前被选择的次数。这是关键!如果一个臂被选择的次数 很少,分母就小,探索项的值就很大,这个臂的总指数就会被显著拔高,从而更有可能被选中,这就是对不确定性的探索。

这个公式的理论基础来源于霍夫丁不等式(Hoeffding's Inequality)等集中不等式。它构建了真实均值 的一个高概率的置信区间的上界。算法的“乐观”就体现在,它假设每个臂的真实回报就是其置信区间可能达到的最高值(即样本均值+置信半径),然后选择那个“最乐观”的臂。

伪代码:

  1. 初始化:对每个臂 ,先拉动一次。记录 和回报
  2. 对于
    a. 对每个臂 ,计算其UCB指数:
    b. 选择臂
    c. 拉动臂 ,获得回报
    d. 更新:,

UCB1算法的巨大成功在于:

  • 无需调参:与 ε-贪心和 Softmax 不同,UCB1 是一个无参数算法(或说参数不依赖于问题本身),具有普适性。
  • 确定性:在相同的历史下,UCB的决策是确定的,便于分析和复现。
  • 理论最优:Auer等人严格证明了UCB1的累计遗憾上界是 ,后续的改进版本(如UCB-Tuned)则被证明可以达到 ,完美匹配了 Lai 和 Robbins 提出的理论下界。

UCB的出现,是bandit算法发展史上的一个分水岭。它标志着bandit算法从启发式时代,正式进入了拥有坚实理论保障的现代算法时代。后续也出现了UCB-V(考虑方差,对回报方差小的臂减少探索)、KL-UCB(使用KL散度构建更紧的置信边界)等一系列改进版本,但核心的乐观主义原则一脉相承。

4. 汤普森采样的华丽复兴 (2000s - 2010s)

正当基于置信区间的UCB系列算法以其优美的理论和稳健的表现 seemingly "统一江湖" 的时候,一股古老而强大的力量正在悄然复苏。这股力量,正是源自1933年威廉·汤普森那篇被遗忘的论文。

4.1 重新发现

进入21世纪,随着计算能力的极大提升和互联网应用的爆发(如在线广告、新闻推荐、A/B测试),bandit算法迎来了前所未有的巨大应用需求。在谷歌、微软、雅虎等公司的实际业务大规模A/B测试中,研究人员和工程师们惊讶地发现,那个古老的、基于贝叶斯思想的汤普森采样算法,在实际效果上,常常能优于理论完美的UCB算法。

2011年,谷歌的Olivier Chapelle和Lihong Li发表了一篇影响力巨大的论文《对汤普森采样的实证评估》(An Empirical Evaluation of Thompson Sampling),通过在多个真实世界数据集上的对比,系统性地展示了汤普森采样在很多场景下都取得了最佳或接近最佳的效果,尤其是在试验早期,其收敛速度往往更快。这篇论文引发了学术界和工业界对汤普森采样的重新审视和研究热潮。

4.2 深入理解汤普森采样

让我们再次回顾并深化汤普森采样的机制。它是一种后验采样(Posterior Sampling)方法。其核心是“概率匹配”(Probability Matching),即一个臂被选中的概率,正好匹配了该臂是当前最优臂的后验概率。

这是一个非常优雅且符合直觉的特性。如果根据已有数据,我们有80%的把握认为A臂是最好的,那我们就有80%的概率去选择它。

与UCB的对比:

  • 决策机制: UCB是确定性的,它计算一个固定的指数。汤普森采样是随机性的,它从后验分布中采样。
  • 探索驱动: UCB的探索是由一个固定的、确定性的探索项(置信区间半径)驱动的,该探索项对所有“同样不确定”的臂给予相同的奖励。而汤普森采样的探索是随机的,且与后验分布的方差(即不确定性)直接、内在相关。分布越宽(不确定性越大),采样出极端高值的可能性也越大,探索就越可能发生。
  • 实践效果: 这种内在的、随机化的探索机制,可能让汤普森采样在某些情况下更灵活、更高效。例如,当多个臂的真实回报非常接近时,UCB可能会在它们之间“犹豫不决”,按照其确定性规则轮流尝试。而汤普森采样的随机性可能帮助它更快地“打破僵局”,锁定最优臂。

4.3 为汤普森采样正名

尽管汤普森采样的实证效果惊人,但在很长一段时间里,它都缺乏像UCB那样严格的 遗憾界证明。这使得它在理论家眼中总显得“不够完美”,更像一个表现优异的“黑科技”。

这一理论空白最终在2012年被彻底填补了。来自斯坦福的Shipra Agrawal和Navin Goyal在论文《汤普森采样的分析》(Analysis of Thompson Sampling for the Multi-armed Bandit Problem)中,以及来自法国的研究者Emilie Kaufmann等人在另一篇独立工作中,几乎同时证明了,对于常用的伯努利(Bernoulli)老虎机问题(即回报为0或1),汤普森采样同样可以达到 的最优遗憾界。

这一系列的理论突破,彻底为汤普森采样“正名”。它不再仅仅是一个经验上好用的算法,而是和UCB一样,成为了一个兼具顶级实证效果和坚实理论基础的SOTA (State-of-the-art) 算法。自此,UCB和汤普森采样并驾齐驱,成为现代非上下文bandit问题的两大主流选择。

5. 上下文老虎机的崛起 (2010s - 至今)

经典的多臂老虎机问题有一个重要的、但在现实世界中往往不成立的假设:环境是静态的,每个臂的回报分布是固定不变的。然而,在绝大多数真实世界应用中,最优的选择往往依赖于“上下文”(Context)

  • 新闻推荐: 给一个喜欢体育的年轻人推荐体育新闻,给一个关注财经的中年人推荐财经新闻,显然比推荐同一条“万金油”新闻要好。“用户画像”(年龄、性别、历史浏览记录等)就是上下文。
  • 在线广告: 向正在浏览汽车网站的用户展示汽车广告,其点击率会远高于向其展示化妆品广告。“用户正在浏览的页面”就是上下文。
  • 动态定价: 在高峰时段对网约车提高价格,在平峰时段降低价格。“时间”、“地点”、“需求量”就是上下文。

上下文老虎机(Contextual Bandits)应运而生。它在经典MAB的基础上增加了一步:在每一轮决策前,算法会先接收到一个描述当前状态的上下文向量 。算法的目标不再是找出一个全局最优的臂,而是学习一个策略(policy),能够根据输入的上下文 ,推荐最合适的臂。

上下文老虎机可以被看作是“带评估的监督学习”(Evaluative Supervised Learning),也是连接多臂老虎机和完整强化学习(Full Reinforcement Learning)的关键桥梁。它引入了“状态”(上下文),但与完整RL不同的是,它的奖励是即时的,当前动作不会影响到下一个状态(上下文)的出现。

5.1 LinUCB

在众多上下文bandit算法中,由Lihong Li, Wei Chu, John Langford和Robert Schapire等人在2010年提出的 LinUCB (Linear UCB) 算法,因其简洁、高效和强大的性能,成为了应用最广泛的基准算法之一。

LinUCB的核心假设是:每个臂 的期望回报,是关于上下文特征向量 的线性函数

这里, 是臂 未知的、真实的权重向量,是算法需要学习的参数。 是与当前上下文和臂 相关的特征向量。

LinUCB的工作流程如下:

  1. 维护模型: 算法为每个臂 维护一个关于其权重 的估计。这通常通过岭回归(Ridge Regression)来实现,因为岭回归不仅可以防止过拟合,还可以在线高效地更新参数。

  2. 构建置信区间: 利用岭回归的结果(具体是设计矩阵 和响应向量 ),算法可以为预测的回报构建一个置信区间。这个置信区间的宽度与上下文特征的不确定性有关。

  3. 乐观选择: 在做出决策时,LinUCB计算每个臂的预测回报的置信上界(UCB),然后选择上界最高的那个臂。其选择准则为:


这个公式与经典UCB1惊人地相似:

  • 第一部分 是基于当前模型对回报的预测值(利用)。
  • 第二部分 是一个探索奖励,它衡量了模型对当前这个特定上下文 预测的不确定性。如果系统对这类上下文见得少(即 的方向在已见数据的空间中是新的),那么 在该方向上的投影会较大,探索奖励也较高。

LinUCB巧妙地将UCB的乐观主义原则推广到了高维、连续的上下文空间,为解决大规模个性化推荐等实际问题提供了一个强大而可行的工具。

5.2 上下文时代的百花齐放

LinUCB的成功开启了上下文bandit的新纪元。各种经典MAB的思想被迅速融入进来:

  • 上下文汤普森采样 (Contextual Thompson Sampling): 将汤普森采样的贝叶斯思想应用于上下文场景。例如,通过维护一个关于线性模型权重 的后验分布(通常是多元高斯分布),每次决策时从该分布中采样一个权重向量 ,然后选择使得 最大的臂。
  • 非线性与深度学习 bandit: 当线性的假设不成立时,真实世界的关系往往是复杂的、非线性的。研究者们开始使用更强大的非线性模型,如核方法(Kernel UCB)、决策树,以及近年来最火热的神经网络。使用深度神经网络来建模回报函数,催生了 Neural Bandits 这一前沿研究方向,能够处理图像、文本等复杂的、非结构化的上下文信息,并自动学习有效的特征表示。

6. 从Bandits到完整强化学习

探索与利用的演进并未止步于上下文老虎机。它是通往更广阔的完整强化学习(Full Reinforcement Learning)世界的基石。

6.1 马尔可夫决策过程 (MDP)

完整RL解决的问题比上下文bandit更进了一步。它不仅考虑即时回报,还要考虑延迟回报(delayed rewards)长期价值(long-term value)。其数学框架是马尔可夫决策过程 (Markov Decision Process, MDP) ,定义为元组 ,其中:

  • : 状态空间 (State Space)
  • : 动作空间 (Action Space)
  • : 状态转移概率 ,即在状态 执行动作 后转移到状态 的概率。
  • : 奖励函数
  • : 折扣因子,用于平衡即时奖励和未来奖励。

关键区别:在上下文bandit中,选择一个动作只会影响当前获得的奖励,而不会影响下一个上下文的出现。而在MDP中,当前动作会影响下一个状态,从而影响整个未来的轨迹和总回报。这就是所谓的信誉分配问题(Credit Assignment Problem):一个最终的成功(如赢得一盘棋)是由于一连串动作中的哪一步或哪几步?

6.2 探索与利用在完整RL中的体现

尽管问题变得更复杂,探索与利用的权衡依然是核心。

  • 基于价值的方法 (Value-based Methods): 像Q-Learning这样的算法,学习一个动作价值函数 来估计在状态 执行动作 的长期价值。在决策时,它们常常直接复用bandit中的简单策略,如ε-贪心:以 的概率选择 ,以 的概率随机探索。
  • 基于策略的方法 (Policy-based Methods): 像REINFORCE或A2C/A3C这样的算法,直接学习一个随机策略 。探索被内生地编码在策略的随机性中。通常会给目标函数增加一个熵正则项(entropy regularization),鼓励策略的熵(随机性)不要过低,从而避免过早收敛,促进探索。
  • 更高级的探索策略: 在稀疏奖励或复杂环境中,简单的ε-贪心等方法效率低下。现代RL研究已经发展出许多更高级的探索技术,例如内在好奇心驱动(Intrinsic Curiosity Motivation, ICM),即给智能体一个额外的“内在奖励”去探索未见过或不确定的状态,以及基于模型的方法,通过对环境建模来指导探索等。