机器学习基础 - 机器学习POD

反向 KL 散度与正向 KL 散度

给定两个分布，它们可能在相同的变量上定义，但其分布形状各异。两者之间的距离可以通过相对熵 (Relative Entropy) 来度量，其定义如下：或者在连续情形下为：其中： 1. 该指标 ...

11 月前

2,056 14

优势是什么在强化学习（Reinforcement Learning）中，优势函数（Advantage Function）是一个非常重要的概念。优势函数衡量了某个动作相对于其他动作的好坏程度，具体来 ...

1 年前

2,565 18

1. RLHF的流程大模型的核心方法非RLHF（reinforcement learning from human feedback）莫属了。简单来说，RLHF是一种让模型从人类反馈中学习的方法。在 ...

2 年前

7,191 27

在现代数据科学中，许多数据结构都可以表示为图，如互联网、社交网络等。这些图结构中的数据为机器学习提供了丰富的理论和应用场景。其中，PageRank 算法是图链接分析的经典代表，它是图数据上的无监督 ...

5 年前

10,494 27