17

2025/04

迈向推理时代：900+篇参考文献揭示长链思维的前世今生，最全综述来了

论文标题：Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models ...

8 月前

1,604 10

近年来，大语言模型（LLMs）的对齐研究成为人工智能领域的核心挑战之一，而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习（RLHF），还是基于「RL-Free」的各类直接偏好优化方 ...

8 月前

885 8