机器学习基础
强化学习基础
大模型
其它
大模型可视化

10

2026/02

大语言模型强化微调中的熵动力学分析

论文标题：On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language ...

8 小时前

7 0

专题展示

大语言模型强化微调中的熵动力学分析

8 小时前

Sea AI Lab 提出 DPPO：重新审视 PPO 算法中的信任域

3 天前

MaxRL：重新审视强化学习与最大似然估计的统一

6 天前

机器学习基础
强化学习基础
大模型
其它
大模型可视化

Copyright © 2017-2026 机器学习POD. 京公网安备11010802044892号京ICP备2021031854号

机器学习基础
强化学习基础
大模型
其它
大模型可视化