MLE-最大似然估计¶

Maximum Likelihood Estimation
一种统计方法，用于估计模型参数，使其使观测数据的似然函数最大化。

前置知识¶

什么是似然函数¶

似然函数是指在给定一组观测数据的情况下，关于参数的概率分布函数。它表示了在已知观测数据的情况下，参数取值的可能性大小。
核心思想是，在给定一组观测数据的情况下，通过调整模型的参数来使观测数据出现的概率最大化
定义：设 X 是一个随机变量，其概率分布由参数 θ 决定。观测到 X 的值为 x，则在参数 θ 下的似然函数定义为:

$L (θ | x) = P (X = x | θ)$

解释:

似然函数表示，在参数 θ 确定的情况下，观测到数据 x 的可能性。

基本原理¶

假设我们有一个观测数据集 D，其概率分布由参数 θ 决定。MLE 的目标是找到参数 θ 的值，使得观测数据集 D 出现的概率最大化。

数学表达式:

$m a x_{θ} = L (θ | D)$

说明:

L(θ∣D) 表示观测数据集 D 在参数 θ 下的似然函数

求解方法:

直接求解: 直接对似然函数进行求导，找到使导数为零的参数值。
迭代求解: 使用梯度下降法或牛顿法等迭代方法，逐步逼近最优参数值。

优缺点:

优点:
    MLE 是一个直观且易于理解的方法。
    MLE 在很多情况下具有良好的统计性质，例如渐近一致性和效率性。
缺点:
    MLE 对噪声敏感，容易受到异常值的影响。
    MLE 的求解过程可能比较复杂，特别是在参数空间维度较高的情况下。

示例-抛硬币¶

假设我们抛掷一枚硬币 10 次，正面朝上的次数为 6 次。
用 MLE 来估计硬币正面朝上的概率。

似然函数说明¶

硬币正面朝上的概率为 θ，背面朝上的概率为 1−θ。
抛掷 10 次硬币，正面朝上的次数为 6 次的概率为:

$P (10 次有 6 次正面朝上 | θ) = (\binom{10}{6}) θ^{6} (1 - θ)^{4}$

求解 MLE¶

令 L(θ∣D) 表示观测数据的似然函数，则:

$L (θ | D) = (\binom{10}{6}) θ^{6} (1 - θ)^{4}$

对似然函数求导，并令导数为零，得到:

$\frac{d L (θ | D)}{d θ} = 6 (\binom{10}{6}) θ^{5} (1 - θ)^{4} - 4 (\binom{10}{6}) θ^{6} (1 - θ)^{3} = 0$

解得:

$θ = \frac{3}{5}$

结论:

根据 MLE 的估计，硬币正面朝上的概率为 3/5

示例-学生成绩¶

30 名学生参加了考试，考试成绩服从正态分布。我们想知道这个班级的平均成绩是多少。

备注

这个例子有点复杂

数据¶

小明  80
小红  90
张三  75
...

似然函数¶

正态分布的概率密度函数为：

$f (x) = \frac{1}{\sqrt{2 π σ^{2}}} \exp [- \frac{(x - μ)^{2}}{2 σ^{2}}]$

其中，μ 是平均成绩，σ^2是方差。

令 x1, x2, … x30 表示所有学生的考试成绩，则观测数据的似然函数为：

$L (μ, σ^{2}) = \prod_{i = 1}^{30} f (x_{i}) = \prod_{i = 1}^{30} \frac{1}{\sqrt{2 π σ^{2}}} \exp [- \frac{(x_{i} - μ)^{2}}{2 σ^{2}}]$

最大似然估计¶

由于求解含有两个参数的似然函数比较复杂，我们通常先对 σ^2 进行估计。

估计方差¶

对似然函数取对数，并对 σ^2 求导，得到：

$\frac{\partial \log L (μ, σ^{2})}{\partial σ^{2}} = - \frac{n}{2} \log σ^{2} + \frac{1}{2 σ^{4}} \sum_{i = 1}^{n} (x_{i} - μ)^{2}$

令导数为零，得到：

$σ^{2} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - μ)^{2}$

估计平均成绩¶

将估计的方差代入似然函数，得到：

$L (μ) = \prod_{i = 1}^{n} \frac{1}{\sqrt{2 π \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - μ)^{2}}} \exp [- \frac{(x_{i} - μ)^{2}}{2 \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - μ)^{2}}]$

对似然函数取对数，并对 μ 求导，得到：

$\frac{\partial \log L (μ)}{\partial μ} = - \frac{n}{σ^{2}} \sum_{i = 1}^{n} (x_{i} - μ)$

令导数为零，得到：

$μ = \frac{1}{n} \sum_{i = 1}^{n} x_{i}$