08
2025/09
Meta Superintelligence Labs 首篇论文:重新定义 RAG
在RAG应用中,LLM的上下文主要由检索到的段落拼接而成,其中只有一小部分与用户的查询直接相关。由于在重排阶段的多样性或去重操作,这些段落间的语义相似性不高,
...
抛弃Self-Consistency的“答案投票”,用“PiCSAR”双重置信度作为BoN标准
BoN (Best-of-n) 策略的成败关键在于如何设计一个有效的评分函数(Scoring Function),用以在没有真实答案作为参照的情况下,准确地识
...
Qwen提出LPPO框架,通过PG-Sampling和LP-Weighting解决数据稀缺与训练效率瓶颈
在RLVR的实践中,主流的研究方向长期聚焦于“数据为中心”(Data-Centric)的理念。研究者们投入大量精力进行算法设计(如PPO、GRPO及其变体)、
...