15
2023/12
大模型RLHF中PPO的直观理解
1. RLHF的流程
大模型的核心方法非RLHF(reinforcement learning from human feedback)莫属了。简单来说,RLH
...