08
2025/09

Meta Superintelligence Labs 首篇论文:重新定义 RAG

在RAG应用中,LLM的上下文主要由检索到的段落拼接而成,其中只有一小部分与用户的查询直接相关。由于在重排阶段的多样性或去重操作,这些段落间的语义相似性不高, ...

抛弃Self-Consistency的“答案投票”,用“PiCSAR”双重置信度作为BoN标准

BoN (Best-of-n) 策略的成败关键在于如何设计一个有效的评分函数(Scoring Function),用以在没有真实答案作为参照的情况下,准确地识 ...

Qwen提出LPPO框架,通过PG-Sampling和LP-Weighting解决数据稀缺与训练效率瓶颈

在RLVR的实践中,主流的研究方向长期聚焦于“数据为中心”(Data-Centric)的理念。研究者们投入大量精力进行算法设计(如PPO、GRPO及其变体)、 ...