最大似然估计

假设有一个概率模型(这个是前提),其概率密度函数为

  • 是观测到的数据
  • 是想要估计的模型参数

目标是,找到一组参数值 ,使得观察到现有数据的概率最大

与贝叶斯估计不同的是,我们认为是一个固定但是未知的值

似然函数

存在有一组独立的、同分布(i.i.d.)的观测数据

在给定参数 的条件下,观察到这组数据的联合概率是所有单个观测值概率的乘积: 这个函数 就是似然函数,是一个关于参数 的函数,表示在不同 值下,数据 出现的“可能性”大小

对数似然函数

为了方便计算,对似然函数取自然对数,得到对数似然函数:

由于对数函数是单调递增的,最大化似然函数 等价于最大化对数似然函数

最大化与参数估计

最大似然估计量 就是使对数似然函数达到最大值的那个参数

为了找到这个最大值,计算对数似然函数对参数 的偏导数,也称为得分函数(score function)。 令得分函数等于 0,

求解这个方程,得到的解就是最大似然估计量

局限性

数据量较少时,会存在比较严重的过拟合问题