03

2024/09

百面大模型-9

什么是策略梯度？首先从文本生成角度简单介绍一下强化学习：因为状态-动作空间非常庞大，将强化学习应用于对话生成是一个巨大的挑战。在这种背景下，我们将人类交互视为“环境”。在每个时间步，代理（即AI ...

1 年前

1,311 5

大模型PPO中的奖励是什么？在强化学习的过程中，奖励通常只在序列结束时才会出现，其他中间步骤的奖励为 0，折扣因子为 1，为Reward Model输出的标量结果。为了防止模型被 Reward M ...

1 年前

1,741 4