15
2023/12

大模型RLHF中PPO的直观理解

1. RLHF的流程 大模型的核心方法非RLHF(reinforcement learning from human feedback)莫属了。简单来说,RLHF是一种让模型从人类反馈中学习的方法。在 ...