17
2025/04
迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了
论文标题:Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models
...
什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」
近年来,大语言模型(LLMs)的对齐研究成为人工智能领域的核心挑战之一,而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习(RLHF),还是基于「RL-Free」的各类直接偏好优化方
...