
Wayne
分享机器学习知识
29
文章
0
评论
141
获赞
基于动态规划的强化学习算法
动态规划(Dynamic Programming,DP)是解决强化学习问题的一类方法,它通常假设环境的动态能够完全被马尔可夫决策过程(MDP)所建模。同时,它要求能精确获取状态转移模型和奖励函数(即假
...
什么是马尔可夫决策过程?
马尔可夫决策过程(Markov Decision Process, MDP)是强化学习的核心基础,用于描述智能体与环境之间的交互关系。一个 MDP 通常由以下五要素构成:状态空间、动作空间、奖励函数、
...
迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了
论文标题:Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models
...
什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」
近年来,大语言模型(LLMs)的对齐研究成为人工智能领域的核心挑战之一,而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习(RLHF),还是基于「RL-Free」的各类直接偏好优化方
...
一个轻量但不失高效的DPO训练框架:OpenDPO
DPO的损失函数可以做如下恒等变换,可以发现蓝色框中的结果是一个可以预计算的常数。因此,在使用DPO进行优化时,我们完全可以离线计算常数部分,在线只需要加载进行训练,这样和sft的训练相差无几。
根据
...
一个轻量但不失高效的SFT训练框架:OpenSFT
OpenSFT,顾名思义,一个开源的SFT训练框架,基于 accelerator + deepspeed + ring flash attention 实现。
本项目实现了length-pack数据组
...
蒙特卡洛法近似KL散度的艺术:从有偏估计到零方差优化
在强化学习和概率建模的世界里,KL散度如同一位沉默的裁判,默默地衡量着两个概率分布之间的差异。然而,当面对高维空间或复杂分布时,KL散度的计算常常令人望而却步。本文将揭示一种优雅的近似方法,利用蒙特卡
...