
大模型23
思维链再遭质疑!距离真正可泛化推理还很远吗?
近年来,大型语言模型(LLM)通过一种名为“思维链”(Chain-of-Thought, CoT)的提示技术,展现了令人惊叹的复杂推理能力。它们能够像人类一样
...
告别验证器依赖:RLPR如何将大模型推理能力泛化到通用领域
当今的大语言模型(LLM)在各类任务上展现了惊人的能力,但提升其逻辑推理能力,尤其是面对复杂问题时的深度推理,仍然是前沿研究的核心挑战。一种被称为“基于可验证
...
深入解读 OpenAI 最新开源力作:gpt-oss-120b & gpt-oss-20b 模型卡
摘要: 2025年8月5日,OpenAI 投下了一颗重磅炸弹,发布了自 2019 年以来的首批开源权重模型:gpt-oss-120b 和 gpt-oss-2
...
ACL2025|AdaGroPE:免训练即插即用扩窗至128k
引言:为什么大模型需要更长的“记忆”?
在人工智能的浪潮之巅,大型语言模型(LLM)无疑是最耀眼的明星。从回答复杂问题到创作诗歌剧本,它们展现出的强大能力正深
...
ACL2025|大模型响应采样理论:「描述性」与「规定性」
引言:当LLM面临选择,它会如何“思考”?
近年来,大型语言模型(Large Language Models, LLMs),例如我们熟知的 GPT-4、Cla
...
ACL2025|“拉不住的弹簧”:为什么大型语言模型会“抵抗”对齐?
在人工智能飞速发展的今天,大型语言模型(LLMs)已经渗透到我们工作和生活的方方面面。然而,当我们惊叹于其强大的语言能力时,一个严峻的挑战也浮出水面:对齐(A
...
基于 VERL 的 TokenAwareBatchPack 实践,干掉 OOM,榨干序列并行
LRM 浪潮下,训练样本的长度不断增加,序列并行策略已成为训练中的常用选择。
然而,无论是常规训练还是序列并行训练,以“样本数量”定义批次的传统做法,都存在不容忽视的问题: 一方面,样本长度参差不齐
...
迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了
论文标题:Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models
...
什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」
近年来,大语言模型(LLMs)的对齐研究成为人工智能领域的核心挑战之一,而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习(RLHF),还是基于「RL-Free」的各类直接偏好优化方
...
一个轻量但不失高效的DPO训练框架:OpenDPO
DPO的损失函数可以做如下恒等变换,可以发现蓝色框中的结果是一个可以预计算的常数。因此,在使用DPO进行优化时,我们完全可以离线计算常数部分,在线只需要加载进行训练,这样和sft的训练相差无几。
根据
...