ELBO

Created2025-09-25|Updated2025-10-29|经典AI知识

|Post Views:

ELBO

是我们想要计算的边缘似然（Evidence），它表示观测数据出现的概率

引入变分分布，对真实后验分布进行近似
同时将上述的积分式转化为一个可以简单计算的形式

将积分形式转化为期望形式，便于下一步的计算

应用Jensen不等式，将等号变成了大于等于号
就是证据下界（ELBO）

在VAE中，我们的目标就是最大化这个下界（ELBO），因为最大化下界也就意味着我们尽可能地最大化原始似然。这个最大化的过程，同时会优化我们的编码器（Encoder）和解码器（Decoder）

理解ELBO：变分推断

对于任意的，有： 其中：

它表明我们想要计算的边缘似然，可以精确地分解成两部分之和：
- ：变分下界（ELBO），这是我们可以计算和最大化的部分。
- ： 和真实后验分布之间的KL散度，衡量两个分布之间距离

证明如下：

参数化：，在实践中，我们通常参数化来优化，将其定义为一个由参数决定的神经网络
：通过调整的参数，来最大化变分下界。当我们最大化时，我们实际上是在让尽可能地接近真实的后验分布，从而使KL散度项趋近于零
当时，

理解ELBO:ELBO = 重建误差 + 正则项

$重建损失散度正则项$ 证明如下： $重建损失散度正则项$

一般地，我们会让直接地依赖于,即将替换为,所以： $重建损失散度正则项$

第一项：reconstruction error (重建误差)

公式项：
解析：
- 这表示在根据选定潜在变量的情况下，原始数据的对数似然的期望
- 是解码器（Decoder），它接收潜在变量并尝试生成数据 , 衡量了生成的有多大可能等于原始的
- 期望：编码器不是输出一个确定的值，而是根据原始数据输出一个分布，我们对所有可能值，按其概率分布进行加权
- VAE的“自编码”功能体现在这里，我们希望解码器能够从潜在空间中重构出原始数据。因此，最大化这一项就等同于最小化重建误差

第二项：正则项

公式项：
解析：
- ：编码器输出的分布，即在给定输入之后，潜在变量的后验分布
- ：潜在变量的先验分布
- 核心思想：
  - 平滑性（Smoothness）：防止过于尖锐，得到一个狄拉克分布，保证了潜在空间是连续的
  - 确保生成能力：使得潜在空间与先验分布（比如标准正态分布）对齐，那么我们就可以从这个先验分布中随机采样一个值，并将其送入解码器，从而生成全新的数据，也就是说保证学习到的latent space能够与采样空间进行契合

两项之间的平衡

最大化ELBO的过程是同时最大化重建项和最小化KL散度项。
重建项希望编码器能尽可能地保留输入信息，以保证重构质量。
正则项则希望编码器能将这些信息压缩到一个结构化的、简单的潜在空间中
这两者之间存在一个权衡：
- 如果KL散度项的权重过大，模型可能会牺牲重构质量
- 如果重建项的权重过大，模型可能导致潜在空间混乱，失去生成能力
VAE通过一个统一的ELBO目标，巧妙地平衡了数据的压缩表示（Representation）和生成能力（Generation）

ELBO的参数化

将公式中的三个概率分布进行了参数化，以便用神经网络来表示和优化

参数化为
参数化为
参数化为
参数化后的ELBO：

Author: Hongbo Ma

Link: https://ma-hongbo.github.io/2025/09/25/ELBO/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

生成模型 Diffusion VAE

Related Articles

隐变量与隐空间

隐变量与隐空间隐变量就是那些我们无法直接观测，但会影响观测数据的变量。它们存在于模型里，用来解释或生成观测到的数据。用一句话总结：观测不到，但背后起作用的“隐藏因素” 数学表达在概率模型里：观测变量：（我们能看到的数据，比如图片、文本、声音）。隐变量：（不能直接看到的结构，比如图片里的语义标签、风格因子）。联合分布写成：如果我们只关心观测数据，就需要边缘化掉隐变量：对于隐变量的一些基本假设在含有隐变量的概率模型中，一个完整的数据点不只是观测到的，还包括生成它的隐变量，即一个完整的数据点是每个样本对应一个隐变量,即对于观测到的数据，在生成模型里都假设有某个潜在的在起作用我们只能观测到，是观测不到的，通常是数据(比如图片像素), 是抽象的潜在因子（比如姿态、表情、光照）因为对积分往往不可解，直接去优化是困难的所以使用分解：，即观测数据的分布由“给定隐变量的条件分布”与“隐变量的先验”相乘后积分(求和)得到一旦知道了，或者是容易优化的生成模型中的隐变量隐变量在生成模型里起决定性作用。表示“从隐变量到...

Diffusion2-能量视角

能量视角参考文献 Papers Implicit Generation and Modeling with Energy-Based Models Maximum Entropy Generators for Energy-Based Models Blogs 能量视角下的GAN模型（三）：生成模型=能量模型能量视角下的GAN模型（二）：GAN＝“分析”＋“采样” 能量视角下的GAN模型（一）：GAN＝“挖坑”＋“跳坑” 从能量视角下的GAN开始能量模型 (EBM) 的定义能量模型将数据样本映射到一个标量“能量”值，它对应于数据的一个非归一化估计密度函数的负对数，即：其中，是归一化常数：最大似然估计的梯度推导训练 EBM 的目标：最大化训练数据的对数似然，这等价于最小化负对数似然是常数现在，我们对参数求梯度：正相负相即：正相负相用生成器替换 MCMC 采样基于能量模型的训练目标通常需要从模型自身的复杂分布中采样（即），由于难以采样，由神经网络参数化的近似分布来替代采样所以训练目标变为：...

Diffusion3-分数视角

分数视角参考文献 Papers Score-Based Generative Modeling Through Stochastic Differential Equations Generative Modeling by Estimating Gradients of the Data Distribution Sliced Score Matching: A Scalable Approach to Density and Score Estimation A Connection Between Score Matching and Denoising Autoencoders Estimation of Non-Normalized Statistical Models by Score Matching Blogs Generative Modeling by Estimating Gradients of the Data Distribution Sliced Score Matching: A Scalable Approach to Density a...

Diffusion1-DPM与DDPM

Diffusion的数学推导与具体实现参考文献 Denoising Diffusion Probabilistic Models Deep Unsupervised Learning using Nonequilibrium Thermodynamics 1.DPM Diffusion的前向过程(Forward Process) 前向过程是一个固定的马尔可夫链，它逐步向数据中添加高斯噪声，直至数据完全变成纯噪声,即代表的过程用数学公式表示如下：其中，是真实数据样本，是在每个时间步添加的噪声方差，构成一个固定的方差调度表前向过程的关键特性通过重参数化，可以在任意时间步闭式地得到的采样，而无需逐步迭代定义和则对上文公式进行重参数化有：代入的表达式: 继续代入到: 然后根据高斯分布的封闭性以及推导公式，最终高斯分布参数为: 最终可以得到一个简洁的闭式形式：这个公式是训练阶段的核心，它可以直接从原始数据采样出任意时间步的加噪样本 Diffusion的反向过程(Reverse Process) 反向过程是一个由模型学...

VAE的应用以及理论依据

VAE的应用以及理论依据训练后的两种应用 1. 直接生成 (Direct Generation) 如何操作？此时可以抛弃 encoder 从一个先验分布（通常是标准正态分布）中采样 Z 通过解码器（decoder）做一个映射，也就是生成图像为什么可以这样做？因为在 VAE 模型的优化过程中，encoder 的近似后验分布和先验分布已经被拉得比较接近 2. 重构原来的图像 (Reconstruction) 如何操作？此时需要同时使用 encoder 和 decoder 首先，基于 encoder ，对输入图像 X 进行编码，得到潜在表示 Z 然后，基于 decoder ，利用得到的潜在表示 Z，生成重构图像目的？验证 VAE 是否能够学习到对数据的有效压缩和解压表示确保模型能够将输入数据映射到潜在空间，然后再从这个潜在空间中准确地恢复出原始数据，这通常是评估 VAE 训练效果的一个重要指标理论依据高斯分布+CDF逆变换拟合任意分布假设：随机变量服从标准正态分布它的CDF（累积分布函数）记为第一步：高斯...

VAE的概率建模

VAE的概率建模对于一个图像来说，可以认为它对应这一套隐空间中的编码,在确认的时候，对应的分布就是相同的，而就是在这个分布之中采样得到把这个隐空间学好了，就可以对于生成的东西有更好的操控把学好了，可以直接采样,这个分布很容易进行sample，首选还是多维高斯分布建模生成式模型的概念建模方式参数化单个样本 VAE: 这个优化非常困难生成式模型的概念建模本质无数个高斯模型的混合每个图像X，都有一个对应Z编码，再对应一个该图像的分布 sample：为何难以优化 log难以穿过积分号既然难以计算，一种想法是通过蒙特卡罗方法来取近似，即从先验分布中随机采样大量的，然后用来近似这个积分，但是这么做的问题在于：是一个非常简单的分布（如标准正态分布），但能够生成有意义图像的向量，在整个的空间里只占极小的、几乎可以忽略的区域，所以如果随机采样，会采样到大量的噪声直接来 sample ，的概率大多为0，导致模型一直 error 很大，很难拟合样本模型学习不到有意义的东西解决思路：我们要更加有效的，最好使用 ...