15
2023/12

大模型RLHF中PPO的直观理解

1. RLHF的流程 大模型的核心方法非RLHF(reinforcement learning from human feedback)莫属了。简单来说,RLH ...