MLE-最大似然估计¶
Maximum Likelihood Estimation
一种统计方法,用于估计模型参数,使其使观测数据的似然函数最大化。
前置知识¶
什么是似然函数¶
似然函数是指在给定一组观测数据的情况下,关于参数的概率分布函数。它表示了在已知观测数据的情况下,参数取值的可能性大小。
核心思想是,在给定一组观测数据的情况下,通过调整模型的参数来使观测数据出现的概率最大化
定义:设 X 是一个随机变量,其概率分布由参数 θ 决定。观测到 X 的值为 x,则在参数 θ 下的似然函数定义为:
\(L(\theta|x) = P(X=x|\theta)\)
解释:
似然函数表示,在参数 θ 确定的情况下,观测到数据 x 的可能性。
基本原理¶
假设我们有一个观测数据集 D,其概率分布由参数 θ 决定。MLE 的目标是找到参数 θ 的值,使得观测数据集 D 出现的概率最大化。
数学表达式:
\(max_{\theta} = L(\theta|D)\)
说明:
L(θ∣D) 表示观测数据集 D 在参数 θ 下的似然函数
求解方法:
直接求解: 直接对似然函数进行求导,找到使导数为零的参数值。
迭代求解: 使用梯度下降法或牛顿法等迭代方法,逐步逼近最优参数值。
优缺点:
优点:
MLE 是一个直观且易于理解的方法。
MLE 在很多情况下具有良好的统计性质,例如渐近一致性和效率性。
缺点:
MLE 对噪声敏感,容易受到异常值的影响。
MLE 的求解过程可能比较复杂,特别是在参数空间维度较高的情况下。
示例-抛硬币¶
假设我们抛掷一枚硬币 10 次,正面朝上的次数为 6 次。
用 MLE 来估计硬币正面朝上的概率。
似然函数说明¶
硬币正面朝上的概率为 θ,背面朝上的概率为 1−θ。
抛掷 10 次硬币,正面朝上的次数为 6 次的概率为:
\(P(10次有6次正面朝上 | \theta) = \binom{10}{6} \theta^6 (1-\theta)^4\)
求解 MLE¶
令 L(θ∣D) 表示观测数据的似然函数,则:
\(L(\theta|D) = \binom{10}{6} \theta^6 (1-\theta)^4\)
对似然函数求导,并令导数为零,得到:
\(\frac{dL(\theta|D)}{d\theta} = 6\binom{10}{6} \theta^5 (1-\theta)^4 - 4\binom{10}{6} \theta^6 (1-\theta)^3 = 0\)
解得:
\(\theta = \frac{3}{5}\)
结论:
根据 MLE 的估计,硬币正面朝上的概率为 3/5
示例-学生成绩¶
30 名学生参加了考试,考试成绩服从正态分布。我们想知道这个班级的平均成绩是多少。
备注
这个例子有点复杂
数据¶
小明 80
小红 90
张三 75
...
似然函数¶
正态分布的概率密度函数为:
\(f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left[-\frac{(x-\mu)^2}{2\sigma^2}\right]\)
其中,μ 是平均成绩,σ^2是方差。
令 x1, x2, … x30 表示所有学生的考试成绩,则观测数据的似然函数为:
\(L(\mu, \sigma^2) = \prod_{i=1}^{30} f(x_i) = \prod_{i=1}^{30} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left[-\frac{(x_i-\mu)^2}{2\sigma^2}\right]\)
最大似然估计¶
由于求解含有两个参数的似然函数比较复杂,我们通常先对 σ^2 进行估计。
估计方差¶
对似然函数取对数,并对 σ^2 求导,得到:
\(\frac{\partial \log L(\mu, \sigma^2)}{\partial \sigma^2} = -\frac{n}{2} \log \sigma^2 + \frac{1}{2\sigma^4} \sum_{i=1}^{n}(x_i-\mu)^2\)
令导数为零,得到:
\(\sigma^2 = \frac{1}{n} \sum_{i=1}^{n}(x_i-\mu)^2\)
估计平均成绩¶
将估计的方差代入似然函数,得到:
\(L(\mu) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi \frac{1}{n} \sum_{i=1}^{n}(x_i-\mu)^2}} \exp\left[-\frac{(x_i-\mu)^2}{2 \frac{1}{n} \sum_{i=1}^{n}(x_i-\mu)^2}\right]\)
对似然函数取对数,并对 μ 求导,得到:
\(\frac{\partial \log L(\mu)}{\partial \mu} = -\frac{n}{\sigma^2} \sum_{i=1}^{n}(x_i-\mu)\)
令导数为零,得到:
\(\mu = \frac{1}{n} \sum_{i=1}^{n}x_i\)