统计-最大似然原理(Maximum Likelihood Principle)

  • 最大似然原理(Maximum Likelihood Principle)是统计学和机器学习中的一种基本方法,用于从数据中估计模型的参数。它的核心思想是:寻找一组参数,使得在这些参数下,观测到的数据出现的概率最大。

  • 最大似然原理是参数估计的核心思想之一,通过最大化观测数据的概率来确定模型参数。在简单问题中,最大似然估计可以通过代数方法解析求解,而在复杂模型中,则需要借助数值优化方法。

核心思想

  • 假设我们有一个参数化的概率模型 p(xθ) , 其中:
    • x 是观测数据,

    • θ 是需要估计的参数。

  • 最大似然原理的目标是选择参数 θ , 使得给定数据 x 的似然函数 L(θx) 最大化:

θ^=argmaxθL(θx):L(θx)=p(xθ)xθ

在数据集上的应用

  • 如果我们有一个独立同分布(i.i.d.)的数据集 {x1,x2,,xn} , 则似然函数是所有样本的联合概率(似然函数是每个样本概率的乘积):

L(θx1,x2,,xn)=i=1np(xiθ)

为了方便计算, 我们通常取对数, 将似然函数转化为对数似然函数(对数似然函数则是对每个样本对数概率的和):

logL(θx1,x2,,xn)=i=1nlogp(xiθ)

最大似然估计(Maximum Likelihood Estimation, MLE)的目标就是找到参数 θ , 使对数似然函数达到最大值。

举例说明

1. 抛硬币问题

  • 假设我们有一个硬币, 目标是估计硬币正面朝上的概率 θ 。给定观测数据 x={H,T,H,H,T} ,假设硬币的结果服从伯努利分布:

p(xθ)=θk(1θ)nk

其中:

-  k  是正面朝上的次数
-  n  是总实验次数
  • 最大似然估计就是找到 θ , 使得 p(xθ) 最大。取对数后, 目标变为:

logL(θ)=klogθ+(nk)log(1θ)θ,:=>k(1θ)+(nk)(1)11θ=0=>k(1θ)=(nk)11θ=>k(1θ)=(nk)θ=>k=nθ=>θ^=kn,

备注

本示例是直接使用公式算出来。当然算出的结果中参数 k 是和观测数据 x 有关的

2. 高斯分布

  • 假设数据服从正态分布 N(μ,σ2) , 参数为均值 μ 和方差 σ2 。给定数据 {x1,x2,,xn} , 最大似然估计的目标是:

μ^,σ^2=argmaxμ,σ2i=1n12πσ2e(xiμ)22σ2

通过对数变换和推导, 可以得到:

μ^=1ni=1nxiσ^2=1ni=1n(xiμ^)2

优缺点

优点:

直观简单:直接利用数据的概率模型,理论上明确。
统计效率高:在许多情形下,最大似然估计具有良好的统计性质,例如一致性和渐近正态性。
广泛适用:适用于各种分布模型。

局限性:

模型假设敏感:如果模型假设(如分布)不准确,估计结果会失效。
计算复杂:对于复杂模型,最大似然估计可能需要复杂的优化算法。
可能过拟合:特别是当数据量少且参数较多时,容易导致过拟合。