13
2024/09
反向 KL 散度与正向 KL 散度
给定两个分布 ,它们可能在相同的变量 上定义,但其分布形状各异。两者之间的距离可以通过 相对熵 (Relative Entropy) 来度量,其定义如下:
或者在连续情形下为:
其中:
1. 该指标
...
百面大模型-9
什么是策略梯度?
首先从文本生成角度简单介绍一下强化学习:
因为状态-动作空间非常庞大,将强化学习应用于对话生成是一个巨大的挑战。在这种背景下,我们将人类交互视为“环境”。在每个时间步 ,代理(即AI
...
百面大模型-8
大模型PPO中的奖励是什么?
在强化学习的过程中,奖励通常只在序列结束时才会出现,其他中间步骤的奖励为 0,折扣因子为 1,为Reward Model输出的标量结果。
为了防止模型被 Reward M
...