03                                
                                
                                    2025/11                                
                            
                        
                    Sea AI Lab 新研究:FP16 可以解决 RL 中的训推不一致
                    大模型强化学习微调不稳定的一个关键来源:训练-推理不匹配(training-inference mismatch)。为了最大化训练效率,框架通常会采用两种不同
...