机器学习基础4

反向 KL 散度与正向 KL 散度

给定两个分布 ,它们可能在相同的变量 上定义,但其分布形状各异。两者之间的距离可以通过 相对熵 (Relative Entropy) 来度量,其定义如下: 或者在连续情形下为: 其中: 1. 该指标 ...

广义优势估计

优势是什么 在强化学习(Reinforcement Learning)中,优势函数(Advantage Function) 是一个非常重要的概念。优势函数衡量了某个动作相对于其他动作的好坏程度,具体来 ...

大模型RLHF中PPO的直观理解

1. RLHF的流程 大模型的核心方法非RLHF(reinforcement learning from human feedback)莫属了。简单来说,RLHF是一种让模型从人类反馈中学习的方法。在 ...

PageRank算法详解

在现代数据科学中,许多数据结构都可以表示为图,如互联网、社交网络等。这些图结构中的数据为机器学习提供了丰富的理论和应用场景。其中,PageRank 算法是图链接分析的经典代表,它是图数据上的无监督 ...