25

2025/09

北大 & 字节 Seed 提出 DACE：难度感知下的确定性引导探索

我们能否在不引入昂贵的过程监督（process supervision）的前提下，为模型提供更细粒度的学习信号？是否存在一种源自模型内部的、能够反映其推理状态 ...

6 小时前

5 0

前言：当LLM遇见强化学习，是火花还是陷阱？近年来，大型语言模型（LLM）与强化学习（RL）的结合，特别是以人类反馈强化学习（RLHF）为代表的技术，已成为 ...

7 小时前

4 0