
0xC001
分享机器学习知识
90
文章
0
评论
278
获赞
腾讯 AI Lab 推出 Parallel-R1:引入并行思考进一步释放LLM潜力
思维链(Chain-of-Thought, CoT)是主要依赖于一种顺序性的、单线程的推理模式。这种模式模拟了人类解决问题时一步接一步的思考过程,虽然在一定程
...
百川提出DCPO:应用动态自适应裁剪、平滑优势标准化,性能优于 DAPO
在 RLVR 的实践中,尽管 GRPO 在多个任务上验证了其有效性,但后续研究,如 DAPO (Dynamic sAmpling Policy Optimiz
...
Meta AI 新作 Distilled Pretraining:预训练阶段知识蒸馏会损害ICL能力
我们知道知识蒸馏(Knowledge Distillation)主要被视为一种模型压缩或在有监督微调阶段提升性能的手段。然而在过去的一年中,知识蒸馏在大模型预
...
深入解读 RL's Razor:为何在线强化学习能有效缓解灾难性遗忘?
当我们使用新数据对大模型进行微调(Fine-tuning)时,模型在获得新能力的同时,往往会严重损害甚至完全忘记之前已经掌握的知识和技能。这就是灾难性遗忘(C
...
Meta Superintelligence Labs 首篇论文:重新定义 RAG
在RAG应用中,LLM的上下文主要由检索到的段落拼接而成,其中只有一小部分与用户的查询直接相关。由于在重排阶段的多样性或去重操作,这些段落间的语义相似性不高,
...
抛弃Self-Consistency的“答案投票”,用“PiCSAR”双重置信度作为BoN标准
BoN (Best-of-n) 策略的成败关键在于如何设计一个有效的评分函数(Scoring Function),用以在没有真实答案作为参照的情况下,准确地识
...
Qwen提出LPPO框架,通过PG-Sampling和LP-Weighting解决数据稀缺与训练效率瓶颈
在RLVR的实践中,主流的研究方向长期聚焦于“数据为中心”(Data-Centric)的理念。研究者们投入大量精力进行算法设计(如PPO、GRPO及其变体)、
...
DeepSeek V3.1 翻车了!字节 Seed 提出 Inverse IFEval 判断大型语言模型能否能听懂“逆向指令”?
大模型在处理非典型或反直觉指令时的鲁棒性待深入探索。我们或许都遇到过类似的情景:当我们给模型一个明确的指令,例如“你必须严格避免使用项目符号列表”,模型却依然
...
全网最详细解读 OpenAI 最新论文:为什么大模型会存在“幻觉”?
大型语言模型(Large Language Models, LLMs)的能力日益增强,但一个挑战始终顽固地存在,即“幻觉” (hallucination) 问
...
深度解析 Baichuan-M2:解决临床决策实用性难题,推出基于大规模验证器系统扩展医疗能力
今年,大模型在对话和推理能力上取得了长足的进步。但是在医疗领域,虽然在很多模型在 benchmark(如美国医师执照考试 USMLE)上刷得很高,但是在真实的
...