15

2023/12

大模型RLHF中PPO的直观理解

1. RLHF的流程大模型的核心方法非RLHF（reinforcement learning from human feedback）莫属了。简单来说，RLHF是一种让模型从人类反馈中学习的方法。在 ...

2 年前

6,570 24