11
2025/08

重磅开源!GLM-4.5 ARC 技术报告深度解读:迈向通用问题求解器的关键一步

2025年8月8日,智谱 AI (Zhipu AI) 与清华大学联手推出了《GLM-4.5: Agentic, Reasoning, and Coding ( ...

清华&美团首次揭秘MoE:从“Massive Activations”到“Attention Sink”,探寻“超级专家”的机制

稀疏激活的混合专家模型(Mixture-of-Experts, MoE)已成为推动大型语言模型(LLM)能力边界的关键架构。然而,其庞大的参数量给实际部署带来 ...

Diffusion:真正的王牌不是“快”,而是“超级数据学习者”

近期,扩散语言模型(Diffusion Language Models, DLMs)的研究热潮凸显了其巨大的潜力。得益于并行的解码设计,DLMs 能够以每秒数 ...