机器学习基础
强化学习基础
大模型
其它
大模型可视化
03
2024/09
百面大模型-9
什么是策略梯度? 首先从文本生成角度简单介绍一下强化学习: 因为状态-动作空间非常庞大,将强化学习应用于对话生成是一个巨大的挑战。在这种背景下,我们将人类交互视为“环境”。在每个时间步 ,代理(即AI ...
百面大模型-8
大模型PPO中的奖励是什么? 在强化学习的过程中,奖励通常只在序列结束时才会出现,其他中间步骤的奖励为 0,折扣因子为 1,为Reward Model输出的标量结果。 为了防止模型被 Reward M ...
加载更多
专题展示
UBC & DeepMind 揭示“短上下文主导”现象:80%的生成任务只需最后96个Token
10 小时前
谷歌 DeepMind & MIT 发布智能体 Scaling Law
2 天前
Native Parallel Reasoner: 基于自蒸馏强化学习的原生并行推理框架
2 天前
机器学习基础
强化学习基础
大模型
其它
大模型可视化