03
2024/09

百面大模型-9

什么是策略梯度? 首先从文本生成角度简单介绍一下强化学习: 因为状态-动作空间非常庞大,将强化学习应用于对话生成是一个巨大的挑战。在这种背景下,我们将人类交互视为“环境”。在每个时间步 ,代理(即AI ...

百面大模型-8

大模型PPO中的奖励是什么? 在强化学习的过程中,奖励通常只在序列结束时才会出现,其他中间步骤的奖励为 0,折扣因子为 1,为Reward Model输出的标量结果。 为了防止模型被 Reward M ...