17
2025/04

迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了

论文标题:Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models ...

什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」

近年来,大语言模型(LLMs)的对齐研究成为人工智能领域的核心挑战之一,而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习(RLHF),还是基于「RL-Free」的各类直接偏好优化方 ...