大模型23

思维链再遭质疑!距离真正可泛化推理还很远吗?

近年来,大型语言模型(LLM)通过一种名为“思维链”(Chain-of-Thought, CoT)的提示技术,展现了令人惊叹的复杂推理能力。它们能够像人类一样 ...

告别验证器依赖:RLPR如何将大模型推理能力泛化到通用领域

当今的大语言模型(LLM)在各类任务上展现了惊人的能力,但提升其逻辑推理能力,尤其是面对复杂问题时的深度推理,仍然是前沿研究的核心挑战。一种被称为“基于可验证 ...

深入解读 OpenAI 最新开源力作:gpt-oss-120b & gpt-oss-20b 模型卡

摘要: 2025年8月5日,OpenAI 投下了一颗重磅炸弹,发布了自 2019 年以来的首批开源权重模型:gpt-oss-120b 和 gpt-oss-2 ...

ACL2025|AdaGroPE:免训练即插即用扩窗至128k

引言:为什么大模型需要更长的“记忆”? 在人工智能的浪潮之巅,大型语言模型(LLM)无疑是最耀眼的明星。从回答复杂问题到创作诗歌剧本,它们展现出的强大能力正深 ...

ACL2025|大模型响应采样理论:「描述性」与「规定性」

引言:当LLM面临选择,它会如何“思考”? 近年来,大型语言模型(Large Language Models, LLMs),例如我们熟知的 GPT-4、Cla ...

ACL2025|“拉不住的弹簧”:为什么大型语言模型会“抵抗”对齐?

在人工智能飞速发展的今天,大型语言模型(LLMs)已经渗透到我们工作和生活的方方面面。然而,当我们惊叹于其强大的语言能力时,一个严峻的挑战也浮出水面:对齐(A ...

基于 VERL 的 TokenAwareBatchPack 实践,干掉 OOM,榨干序列并行

LRM 浪潮下,训练样本的长度不断增加,序列并行策略已成为训练中的常用选择。 然而,无论是常规训练还是序列并行训练,以“样本数量”定义批次的传统做法,都存在不容忽视的问题: 一方面,样本长度参差不齐 ...

迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了

论文标题:Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models ...

什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」

近年来,大语言模型(LLMs)的对齐研究成为人工智能领域的核心挑战之一,而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习(RLHF),还是基于「RL-Free」的各类直接偏好优化方 ...

一个轻量但不失高效的DPO训练框架:OpenDPO

DPO的损失函数可以做如下恒等变换,可以发现蓝色框中的结果是一个可以预计算的常数。因此,在使用DPO进行优化时,我们完全可以离线计算常数部分,在线只需要加载进行训练,这样和sft的训练相差无几。 根据 ...