![](https://www.mlpod.com/wp-content/themes/PandaPRO-2.4.2/images/default.png)
机器学习基础3
广义优势估计
广义优势估计(Generalized Advantage Estimation, GAE)是强化学习中特别是在策略优化算法中使用的一种技术,用于估计优势函数。优势函数(Advantage Functi
...
大模型RLHF中PPO的直观理解
1. RLHF的流程
大模型的核心方法非RLHF(reinforcement learning from human feedback)莫属了。简单来说,RLHF是一种让模型从人类反馈中学习的方法。在
...
PageRank算法详解
在现代数据科学中,许多数据结构都可以表示为图,如互联网、社交网络等。这些图结构中的数据为机器学习提供了丰富的理论和应用场景。其中,PageRank 算法是图链接分析的经典代表,它是图数据上的无监督
...