机器学习基础
强化学习基础
大模型
其它
大模型可视化
力扣出题频次
03
2024/09
百面大模型-9
什么是策略梯度? 首先从文本生成角度简单介绍一下强化学习: 因为状态-动作空间非常庞大,将强化学习应用于对话生成是一个巨大的挑战。在这种背景下,我们将人类交互视为“环境”。在每个时间步 ,代理(即AI ...
百面大模型-8
大模型PPO中的奖励是什么? 在强化学习的过程中,奖励通常只在序列结束时才会出现,其他中间步骤的奖励为 0,折扣因子为 1,为Reward Model输出的标量结果。 为了防止模型被 Reward M ...
加载更多
专题展示
字节Seed & 复旦提出ThinkDial:复现GPT-oss可控推理
5 小时前
LLM训练新思路:快手RLEP巧用经验回放,实现效率与性能双突破
1 天前
强化学习理论之策略梯度(Policy Gradients)基础全解析
2 天前
机器学习基础
强化学习基础
大模型
其它
大模型可视化
力扣出题频次