隐变量与隐空间

Created2025-09-14|Updated2025-10-29|经典AI知识

|Post Views:

隐变量与隐空间

隐变量就是那些我们无法直接观测，但会影响观测数据的变量。
它们存在于模型里，用来解释或生成观测到的数据。

用一句话总结：观测不到，但背后起作用的“隐藏因素”

数学表达

在概率模型里：

观测变量：（我们能看到的数据，比如图片、文本、声音）。
隐变量：（不能直接看到的结构，比如图片里的语义标签、风格因子）。

联合分布写成：

如果我们只关心观测数据，就需要边缘化掉隐变量：

对于隐变量的一些基本假设

在含有隐变量的概率模型中，一个完整的数据点不只是观测到的，还包括生成它的隐变量，即一个完整的数据点是
每个样本对应一个隐变量,即对于观测到的数据，在生成模型里都假设有某个潜在的在起作用
我们只能观测到，是观测不到的，通常是数据(比如图片像素), 是抽象的潜在因子（比如姿态、表情、光照）
因为对积分往往不可解，直接去优化是困难的
所以使用分解：，即观测数据的分布由“给定隐变量的条件分布”与“隐变量的先验”相乘后积分(求和)得到
一旦知道了，或者是容易优化的

生成模型中的隐变量

隐变量在生成模型里起决定性作用。
表示“从隐变量到观测数据”的生成过程，即先有（潜在因素），再产生（观测结果）
表示了图像中至关重要的本质特征
知道了，整个图像就可以基于 decode 构建出来，可以理解为就是 decoder 所要建模逼近的目标
我们会把当做是对一个 encoding 向量，即在 VAE 里，encoder把输入图片映射到隐变量，相当于提取了抽象的“编码表示”。
生成过程：观测值是基于隐变量的值来生成的：从先验分布中采样一个隐变量，再基于 sample 得到：根据条件分布生成具体的观测样本。根据,说明观测数据的生成过程分为两步：先有隐变量，再生成数据

高斯混合分布

高斯混合分布是一种概率模型，它将一个复杂的数据分布看作是多个简单高斯分布的叠加。

P(X)：我们观察到的数据点的整体概率分布
P(Z)：一个“先验”概率，决定了一个数据点属于哪一个高斯分量(“聚类”)
P(X|Z)：这是“条件概率”，描述了如果一个数据点属于某个特定的高斯分量，它的概率分布是怎样的,在GMM中，这个分布就是一个由自己的均值 () 和协方差 () 定义的高斯分布

采样过程

如何从一个GMM中生成一个新数据点：

第一步，先根据先验概率P(Z)决定在哪个群落落点：假设有K个高斯分量，每个分量都有一个权重（），这些权重的总和为1，首先根据这些权重随机选择一个分量

第二步，再根据局部的似然P(X|Z)采样：选择了某个分量后（比如第k个），就从这个分量所对应的高斯分布中随机生成一个数据点，这个高斯分布由它自己的均值和方差决定

GMM的概率表示与优化

对GMM的参数进行优化，即找到最佳的

直接优化非常困难
- 总的概率是所有高斯分量的加权和：。对这个和取对数 () 在数学上处理起来很复杂，梯度计算也很麻烦，因此直接优化非常困难
引入“隐变量”Z
- 为了简化问题，我们引入一个隐变量（latent variable）Z。Z是一个one-hot向量，它用来表示每个数据点到底属于哪个高斯分量。例如，如果一个数据点属于第二个分量，Z就表示为 (0, 1, 0, …, 0)
利用联合概率来解决问题
- 我们不直接优化，而是考虑联合概率 ，即数据点X和它所属的分量Z同时出现的概率
- 因为Z是one-hot向量，这个公式其实非常简洁：它只会挑出Z所指向的那个高斯分量。例如，如果，那么公式就等于
对联合概率取对数，优化变得容易
- 这个表达式同样因为Z的one-hot特性而变得简单。它把原本对一个“和”取对数的复杂形式，变成了对数之和
- 这种形式的表达式更容易进行优化

VAE和GMM之间的联系

VAE是一个特殊高斯混合模型

假设：定义了 VAE 的先验分布（prior），我们假设潜在变量服从标准正态分布。这就像 GMM 中每个高斯分量都有一个权重，但 VAE 中这个先验分布是连续的
假设：
- 这定义了 VAE 的解码器，表明给定一个潜在变量，我们生成的观测数据服从一个高斯分布。关键在于： 这个高斯分布的均值和协方差 不是固定的，而是由一个神经网络（解码器）根据输入的计算出来的。这意味着，不同的会产生不同的高斯分布
：
- 在 GMM 中，由于是离散的，这个积分变成了求和：
- 在 VAE 中，由于是连续的，我们必须使用积分

因此，VAE 是无数个高斯的混合

Author: Hongbo Ma

Link: https://ma-hongbo.github.io/2025/09/14/%E9%9A%90%E5%8F%98%E9%87%8F%E4%B8%8E%E9%9A%90%E7%A9%BA%E9%97%B4/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

生成模型 Diffusion VAE

Related Articles

ELBO 是我们想要计算的边缘似然（Evidence），它表示观测数据出现的概率引入变分分布，对真实后验分布进行近似同时将上述的积分式转化为一个可以简单计算的形式将积分形式转化为期望形式，便于下一步的计算应用Jensen不等式，将等号变成了大于等于号就是证据下界（ELBO）在VAE中，我们的目标就是最大化这个下界（ELBO），因为最大化下界也就意味着我们尽可能地最大化原始似然。这个最大化的过程，同时会优化我们的编码器（Encoder）和解码器（Decoder）理解ELBO：变分推断对于任意的，有：其中：它表明我们想要计算的边缘似然，可以精确地分解成两部分之和：：变分下界（ELBO），这是我们可以计算和最大化的部分。：和真实后验分布之间的KL散度，衡量两个分布之间距离证明如下：参数化：，在实践中，我们通常参数化来优化，将其定义为一个由参数决定的神经网络：通过调整的参数，来最大化变分下界。当我们最大化时，我们实际上是在让尽可能地接近真实的后验分布，从而使KL散度项趋近...

Diffusion2-能量视角

能量视角参考文献 Papers Implicit Generation and Modeling with Energy-Based Models Maximum Entropy Generators for Energy-Based Models Blogs 能量视角下的GAN模型（三）：生成模型=能量模型能量视角下的GAN模型（二）：GAN＝“分析”＋“采样” 能量视角下的GAN模型（一）：GAN＝“挖坑”＋“跳坑” 从能量视角下的GAN开始能量模型 (EBM) 的定义能量模型将数据样本映射到一个标量“能量”值，它对应于数据的一个非归一化估计密度函数的负对数，即：其中，是归一化常数：最大似然估计的梯度推导训练 EBM 的目标：最大化训练数据的对数似然，这等价于最小化负对数似然是常数现在，我们对参数求梯度：正相负相即：正相负相用生成器替换 MCMC 采样基于能量模型的训练目标通常需要从模型自身的复杂分布中采样（即），由于难以采样，由神经网络参数化的近似分布来替代采样所以训练目标变为：...

Diffusion3-分数视角

分数视角参考文献 Papers Score-Based Generative Modeling Through Stochastic Differential Equations Generative Modeling by Estimating Gradients of the Data Distribution Sliced Score Matching: A Scalable Approach to Density and Score Estimation A Connection Between Score Matching and Denoising Autoencoders Estimation of Non-Normalized Statistical Models by Score Matching Blogs Generative Modeling by Estimating Gradients of the Data Distribution Sliced Score Matching: A Scalable Approach to Density a...

Diffusion1-DPM与DDPM

Diffusion的数学推导与具体实现参考文献 Denoising Diffusion Probabilistic Models Deep Unsupervised Learning using Nonequilibrium Thermodynamics 1.DPM Diffusion的前向过程(Forward Process) 前向过程是一个固定的马尔可夫链，它逐步向数据中添加高斯噪声，直至数据完全变成纯噪声,即代表的过程用数学公式表示如下：其中，是真实数据样本，是在每个时间步添加的噪声方差，构成一个固定的方差调度表前向过程的关键特性通过重参数化，可以在任意时间步闭式地得到的采样，而无需逐步迭代定义和则对上文公式进行重参数化有：代入的表达式: 继续代入到: 然后根据高斯分布的封闭性以及推导公式，最终高斯分布参数为: 最终可以得到一个简洁的闭式形式：这个公式是训练阶段的核心，它可以直接从原始数据采样出任意时间步的加噪样本 Diffusion的反向过程(Reverse Process) 反向过程是一个由模型学...

VAE的应用以及理论依据

VAE的应用以及理论依据训练后的两种应用 1. 直接生成 (Direct Generation) 如何操作？此时可以抛弃 encoder 从一个先验分布（通常是标准正态分布）中采样 Z 通过解码器（decoder）做一个映射，也就是生成图像为什么可以这样做？因为在 VAE 模型的优化过程中，encoder 的近似后验分布和先验分布已经被拉得比较接近 2. 重构原来的图像 (Reconstruction) 如何操作？此时需要同时使用 encoder 和 decoder 首先，基于 encoder ，对输入图像 X 进行编码，得到潜在表示 Z 然后，基于 decoder ，利用得到的潜在表示 Z，生成重构图像目的？验证 VAE 是否能够学习到对数据的有效压缩和解压表示确保模型能够将输入数据映射到潜在空间，然后再从这个潜在空间中准确地恢复出原始数据，这通常是评估 VAE 训练效果的一个重要指标理论依据高斯分布+CDF逆变换拟合任意分布假设：随机变量服从标准正态分布它的CDF（累积分布函数）记为第一步：高斯...

VAE的概率建模

VAE的概率建模对于一个图像来说，可以认为它对应这一套隐空间中的编码,在确认的时候，对应的分布就是相同的，而就是在这个分布之中采样得到把这个隐空间学好了，就可以对于生成的东西有更好的操控把学好了，可以直接采样,这个分布很容易进行sample，首选还是多维高斯分布建模生成式模型的概念建模方式参数化单个样本 VAE: 这个优化非常困难生成式模型的概念建模本质无数个高斯模型的混合每个图像X，都有一个对应Z编码，再对应一个该图像的分布 sample：为何难以优化 log难以穿过积分号既然难以计算，一种想法是通过蒙特卡罗方法来取近似，即从先验分布中随机采样大量的，然后用来近似这个积分，但是这么做的问题在于：是一个非常简单的分布（如标准正态分布），但能够生成有意义图像的向量，在整个的空间里只占极小的、几乎可以忽略的区域，所以如果随机采样，会采样到大量的噪声直接来 sample ，的概率大多为0，导致模型一直 error 很大，很难拟合样本模型学习不到有意义的东西解决思路：我们要更加有效的，最好使用 ...