Hongbo Ma's Blog

Created2026-03-20|经典AI知识

GRPO (Group Relative Policy Optimization) 参考文献 Papers DeepSeekMath_ Pushing the Limits of Mathematical Reasoning in Open Language Models Understanding R1-Zero-Like Training_ A Critical Perspective DeepSeek-R1_ Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 从PPO到GRPO 其中和分别是当前和旧的策略模型，和是从问题数据集和旧策略采样的问题和输出,通过公式来计算，其中有公式，我们需要额外训练一个Critic模型来对进行拟合 PPO的问题有： PPO 中使用的值函数通常是与策略模型大小相当的另一个模型，这带来了显著的内存和计算负担此外，在 RL 训练期间，值函数被用作方差缩减的baseline，而在 LLM 的上下文中，奖励模型通常只为最后一个 token 分配奖励分数，这...

Reinforcement Learning2-DPO

Created2026-03-15|经典AI知识

DPO (Direct Preference Optimization) 参考文献 Papers Direct Preference Optimization__Your Language Model is Secretly a Reward Model 从PPO到DPO PPO的问题是训练流程复杂，训练模型过多，这个是我们推导DPO的初衷对于PPO整体而言，有如下奖励公式：我们尝试推导该公式的闭式解，将KL散度进行展开：我们希望重新配凑出一个KL散度形式的式子：但是此时不满足一个概率的形式，所以引入配分函数：上式变为：又因为不依赖于,所以最小化上式，等同于最小化KL散度，那么理想中的闭式最优解则变为：根据此对应关系，我们可以重参数化：由PPO中关于奖励偏好的公式可以得出：于是由最大似然，我们就得到了DPO的损失函数：将PPO中的 Bradley-Terry 模型推广到 Plackett-Luce 模型，即从描述两者的序关系模型推广到描述多者的序关系模型：给定提示词和一组回答，用户会给出一个排列，这个排名出现的概率为：可以理...

Reinforcement Learning1-RLHF

Created2026-02-27|经典AI知识

RLHF 参考文献 Papers Trust Region Policy Optimization Proximal Policy Optimization Algorithms 从传统的策略方法开始基于策略的强化学习用参数化概率分布代替了基于值函数的强化学习中的确定性策略，在返回的动作概率列表中对不同的动作进行抽样选择目标函数——最大化reward：其中是 agent 与环境交互产生的状态-动作轨迹，该策略涵盖所有可能情况其中，特定的轨迹在策略下发生的概率定义为：策略：在状态下，agent有多大概率选择行为状态转移概率：在状态下，进行行为后,环境有多大的概率转移到状态进行求导：与无关由蒙特卡洛方法来近似梯度，采样个轨迹样本，其中，那么：最后，有参数更新公式：因此，有算法：一些进一步的设计回合制奖励若是可以简化奖励形式为回合制，,则有通用简化形式: 未来总奖励定义为未来总奖励，即从第个步骤开始，直到回合结束能获得的所有奖励之和如果我们考虑因果关系，那么第时刻做的动作只能影响未来的奖励，不...

Diffusion9-流视角

Created2026-02-11|经典AI知识

流视角参考文献 Papers Score-Based Generative Modeling Through Stochastic Differential Equations The Principles of Diffusion Models Residual Flows for Invertible Generative Modeling Variational Inference with Normalizing Flows Invertible Residual Networks A stochastic estimator of the trace of the influence matrix for Laplacian smoothing splines Flow Matching for Generative Modeling Flow Straight and Fast- Learning to Generate and Transfer Data with Rectified Flow Blogs Generative Modeling by Est...

Diffusion8-SDE框架

Created2026-01-03|经典AI知识

SDE框架参考文献 Papers Score-Based Generative Modeling Through Stochastic Differential Equations The Principles of Diffusion Models Blogs Generative Modeling by Estimating Gradients of the Data Distribution 正向 SDE NCSN 的前向过程 NCSN 使用一系列递增的噪声水平。扰动过程为：由于和都是由同一个干净样本加上高斯噪声得到的，可以将表示为加上一个额外的噪声项其中，，且和是独立的，我们希望求解这个系数根据定义：现在，我们通过来构造：由于是固定样本，和是独立的，因此，在给定的条件下，它们的方差应该满足：所以：那么将定义为：其中，那么有：当时，我们使用微分近似： DDPM 的前向过程 DDPM 通过一个方差调度逐步注入噪声：对于从到的连续化近似，利用近似 ...

Diffusion7-从密度变换到福克-普朗克方程

Created2025-12-20|经典AI知识

概率密度在变换下的演化过程参考文献 Papers The Principles of Diffusion Models 确定性单步变换考虑一个作用于维状态的确定性、光滑向量场 : 这表示从初始状态经过一个单位时间步演化到状态设初始状态，则 ,由于概率质量守恒，应用后的密度可以通过变量变换公式从得到等价形式（在坐标下）：线性情形如果是线性的，由可逆矩阵定义（即），则：微积分角度证明该密度公式直接来源于多元微积分中的变量替换法则单变量对于积分，变量替换导致：多变量对于且，无穷小体积的变换为：所以有：密度公式的推导概率密度的一个基本属性是，它可以被视为 Delta 函数在上的期望值：其中 ,由于：令 ,那么：代入：利用 Delta 函数的筛选性质：在本例中，函数为：将中的替换为：确定性离散多步变换考虑一个状态序列，其中每一步的状态通过一个光滑双射演化到：初始状态由于每一步都是一个光滑双射，根据概率质量守恒，密度的演...

Diffusion6-SDE与伊藤积分

Created2025-12-20|经典AI知识

SDE与伊藤积分参考文献 Papers The Principles of Diffusion Models 从ODE到SDE 从一个描述状态变量的确定性演化的常微分方程开始：在小时间步下对 ODE 进行欧拉离散化：当时，这个近似在适当的正则性条件下收敛到 ODE 的精确解引入随机性在欧拉离散化中加入一个随机项来引入这种不确定性，从而得到 SDE 的离散形式：：漂移项：扩散系数 (Diffusion Coefficient)，控制了随机项的强度，此处假设其仅依赖于时间：时间缩放因子，随机游走中的方差与时间步成正比，因此标准差（偏差）与时间步的平方根成正比：标准高斯噪声令，上式对应于著名的伊藤 (Itô) 积分形式的 SDE：其中是维纳过程（或布朗运动）的微分形式，其增量满足布朗路径几乎处处不可微，但是具有性质,也就是说，在无穷小时间间隔内，布朗路径的增量是一个零均值且协方差为的高斯随机变量 SDE的一般形式经典黎曼勒贝格积分伊藤积分由于维纳过程（布朗运动）的轨迹是连续但几乎处处不可微的，经典微积分...

Diffusion5-ODE的基本性质与解法

Created2025-12-08|经典AI知识

ODE的基本性质与解法参考文献 Papers The Principles of Diffusion Models Books 喻文健，《数值分析与算法(第3版)》，清华大学出版社，2020. 常微分方程定义与基本性质常微分方程描述了一个确定性的演化过程。系统随时间的状态变化率由以下方程给出：：表示系统在时间的状态（位置）：是一个向量场（时变速度场），它定义了空间中每一点在每一时刻的“指令”——即变化的方向和大小可以将求解 ODE 想象为粒子在流体中的运动：向量场视角：是一个静态或动态的“箭头景观”，规定了每一点的局部流向轨迹视角：解是一条曲线。粒子从起点出发，其每一步的运动方向（切线方向）都严格遵循向量场的指引直觉：一旦初始状态确定，在满足一定条件下，粒子随时间演化的整个轨迹就被唯一确定了解的存在性与唯一性存在性：是否一定有一条路径能满足方程？唯一性：从同一点出发，是否只会产生一条路径？局部存在性与唯一性定理设是空间与时间的开区域，设向量场是定义在该区域上的函数若函数满足以下两个条件：连...

Diffusion4-DDPM与分数视角的形式化统一

Created2025-11-20|经典AI知识

形式化统一：SMLD与DDPM 参考文献 Papers Score-Based Generative Modeling Through Stochastic Differential Equations Blogs Generative Modeling by Estimating Gradients of the Data Distribution 回顾: SMLD与DDPM SMLD (Denoising Score Matching with Langevin Dynamics) 训练过程噪声序列： Noise-Perturbed Distribution: 对于每个噪声，原始数据分布被扰动，得到噪声扰动分布 NCSN: 训练一个噪声条件评分模型 (Noise Conditional Score Network, NCSN) 来估计每个噪声扰动分布的评分函数，使其近似满足：其中，一般来说：训练目标推理过程给定充足的数据和模型容量，最优的基于得分的模型几乎在的所有情况下都匹配接下来，顺序地为每个运行步的朗之万 M...

Diffusion3-分数视角

Created2025-10-22|经典AI知识

分数视角参考文献 Papers Score-Based Generative Modeling Through Stochastic Differential Equations Generative Modeling by Estimating Gradients of the Data Distribution Sliced Score Matching: A Scalable Approach to Density and Score Estimation A Connection Between Score Matching and Denoising Autoencoders Estimation of Non-Normalized Statistical Models by Score Matching Blogs Generative Modeling by Estimating Gradients of the Data Distribution Sliced Score Matching: A Scalable Approach to Density a...