Diffusion4-DDPM与分数视角的形式化统一

Created2025-11-20|Updated2026-03-30|经典AI知识

|Post Views:

形式化统一：SMLD与DDPM

参考文献

Papers

Score-Based Generative Modeling Through Stochastic Differential Equations

Blogs

Generative Modeling by Estimating Gradients of the Data Distribution

回顾: SMLD与DDPM

SMLD (Denoising Score Matching with Langevin Dynamics)

训练过程

噪声序列：

Noise-Perturbed Distribution:

对于每个噪声，原始数据分布被扰动，得到噪声扰动分布

NCSN: 训练一个噪声条件评分模型 (Noise Conditional Score Network, NCSN) 来估计每个噪声扰动分布的评分函数，使其近似满足：

其中，一般来说：

训练目标

推理过程

给定充足的数据和模型容量，最优的基于得分的模型几乎在的所有情况下都匹配

接下来，顺序地为每个运行步的朗之万 MCMC 获取一个样本：

上述过程按的顺序重复进行

即：

从一个大噪声高斯分布（以为标准差）中初始化（通常是纯噪声），模型在下运行步。
对于接下来的每一个噪声尺度（小于），上一个阶段的最终样本被用作当前阶段的初始样本 ，模型在更小的下运行步
当达到最小噪声时，样本最接近真实数据分布

理想条件：

（采样步数无限多）：确保在每个级别上，朗之万 MCMC 能够充分探索并收敛到
（步长无限小）：确保离散化误差消失，使离散 MCMC 过程精确地模拟连续的朗之万动力学

在这些理想条件下，最终的样本理论上可以精确地来自

DDPM (Denoising Diffusion Probabilistic Models)

噪声序列：

对于给定的

前向过程：

进而推得：

根据此，我们可以对应地定义Noise-Perturbed Distribution

Noise-Perturbed Distribution:

根据DDPM的反向过程公式：

进行参数化后：

$取$

训练目标(简化版)

其中：

推理过程

统一：公式的形式

令：

从DDPM开始变化

反向过程

训练目标

此时：

那么：

将上述结论带回原式：

推理过程

总结与对比

前提

噪声

SMLD：噪声序列：
DDPM：噪声序列：；

噪声扰动分布

SMLD：
DDPM：

训练目标

SMLD：
DDPM：

推理过程

SMLD：
DDPM：

噪声量级

SMLD：
DDPM：

Author: Hongbo Ma

Link: https://ma-hongbo.github.io/2025/11/20/Diffusion4-DDPM%E4%B8%8E%E5%88%86%E6%95%B0%E8%A7%86%E8%A7%92%E7%9A%84%E5%BD%A2%E5%BC%8F%E5%8C%96%E7%BB%9F%E4%B8%80/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

生成模型 Diffusion

Related Articles

Diffusion1-DPM与DDPM

Diffusion的数学推导与具体实现参考文献 Denoising Diffusion Probabilistic Models Deep Unsupervised Learning using Nonequilibrium Thermodynamics 1.DPM Diffusion的前向过程(Forward Process) 前向过程是一个固定的马尔可夫链，它逐步向数据中添加高斯噪声，直至数据完全变成纯噪声,即代表的过程用数学公式表示如下：其中，是真实数据样本，是在每个时间步添加的噪声方差，构成一个固定的方差调度表前向过程的关键特性通过重参数化，可以在任意时间步闭式地得到的采样，而无需逐步迭代定义和则对上文公式进行重参数化有：代入的表达式: 继续代入到: 然后根据高斯分布的封闭性以及推导公式，最终高斯分布参数为: 最终可以得到一个简洁的闭式形式：这个公式是训练阶段的核心，它可以直接从原始数据采样出任意时间步的加噪样本 Diffusion的反向过程(Reverse Process) 反向过程是一个由模型学...

Diffusion5-ODE的基本性质与解法

ODE的基本性质与解法参考文献 Papers The Principles of Diffusion Models Books 喻文健，《数值分析与算法(第3版)》，清华大学出版社，2020. 常微分方程定义与基本性质常微分方程描述了一个确定性的演化过程。系统随时间的状态变化率由以下方程给出：：表示系统在时间的状态（位置）：是一个向量场（时变速度场），它定义了空间中每一点在每一时刻的“指令”——即变化的方向和大小可以将求解 ODE 想象为粒子在流体中的运动：向量场视角：是一个静态或动态的“箭头景观”，规定了每一点的局部流向轨迹视角：解是一条曲线。粒子从起点出发，其每一步的运动方向（切线方向）都严格遵循向量场的指引直觉：一旦初始状态确定，在满足一定条件下，粒子随时间演化的整个轨迹就被唯一确定了解的存在性与唯一性存在性：是否一定有一条路径能满足方程？唯一性：从同一点出发，是否只会产生一条路径？局部存在性与唯一性定理设是空间与时间的开区域，设向量场是定义在该区域上的函数若函数满足以下两个条件：连...

Diffusion3-分数视角

分数视角参考文献 Papers Score-Based Generative Modeling Through Stochastic Differential Equations Generative Modeling by Estimating Gradients of the Data Distribution Sliced Score Matching: A Scalable Approach to Density and Score Estimation A Connection Between Score Matching and Denoising Autoencoders Estimation of Non-Normalized Statistical Models by Score Matching Blogs Generative Modeling by Estimating Gradients of the Data Distribution Sliced Score Matching: A Scalable Approach to Density a...

Diffusion7-从密度变换到福克-普朗克方程

概率密度在变换下的演化过程参考文献 Papers The Principles of Diffusion Models 确定性单步变换考虑一个作用于维状态的确定性、光滑向量场 : 这表示从初始状态经过一个单位时间步演化到状态设初始状态，则 ,由于概率质量守恒，应用后的密度可以通过变量变换公式从得到等价形式（在坐标下）：线性情形如果是线性的，由可逆矩阵定义（即），则：微积分角度证明该密度公式直接来源于多元微积分中的变量替换法则单变量对于积分，变量替换导致：多变量对于且，无穷小体积的变换为：所以有：密度公式的推导概率密度的一个基本属性是，它可以被视为 Delta 函数在上的期望值：其中 ,由于：令 ,那么：代入：利用 Delta 函数的筛选性质：在本例中，函数为：将中的替换为：确定性离散多步变换考虑一个状态序列，其中每一步的状态通过一个光滑双射演化到：初始状态由于每一步都是一个光滑双射，根据概率质量守恒，密度的演...

Diffusion6-SDE与伊藤积分

SDE与伊藤积分参考文献 Papers The Principles of Diffusion Models 从ODE到SDE 从一个描述状态变量的确定性演化的常微分方程开始：在小时间步下对 ODE 进行欧拉离散化：当时，这个近似在适当的正则性条件下收敛到 ODE 的精确解引入随机性在欧拉离散化中加入一个随机项来引入这种不确定性，从而得到 SDE 的离散形式：：漂移项：扩散系数 (Diffusion Coefficient)，控制了随机项的强度，此处假设其仅依赖于时间：时间缩放因子，随机游走中的方差与时间步成正比，因此标准差（偏差）与时间步的平方根成正比：标准高斯噪声令，上式对应于著名的伊藤 (Itô) 积分形式的 SDE：其中是维纳过程（或布朗运动）的微分形式，其增量满足布朗路径几乎处处不可微，但是具有性质,也就是说，在无穷小时间间隔内，布朗路径的增量是一个零均值且协方差为的高斯随机变量 SDE的一般形式经典黎曼勒贝格积分伊藤积分由于维纳过程（布朗运动）的轨迹是连续但几乎处处不可微的，经典微积分...

Diffusion2-能量视角

能量视角参考文献 Papers Implicit Generation and Modeling with Energy-Based Models Maximum Entropy Generators for Energy-Based Models Blogs 能量视角下的GAN模型（三）：生成模型=能量模型能量视角下的GAN模型（二）：GAN＝“分析”＋“采样” 能量视角下的GAN模型（一）：GAN＝“挖坑”＋“跳坑” 从能量视角下的GAN开始能量模型 (EBM) 的定义能量模型将数据样本映射到一个标量“能量”值，它对应于数据的一个非归一化估计密度函数的负对数，即：其中，是归一化常数：最大似然估计的梯度推导训练 EBM 的目标：最大化训练数据的对数似然，这等价于最小化负对数似然是常数现在，我们对参数求梯度：正相负相即：正相负相用生成器替换 MCMC 采样基于能量模型的训练目标通常需要从模型自身的复杂分布中采样（即），由于难以采样，由神经网络参数化的近似分布来替代采样所以训练目标变为：...