统计-最大似然原理(Maximum Likelihood Principle)¶
最大似然原理(Maximum Likelihood Principle)是统计学和机器学习中的一种基本方法,用于从数据中估计模型的参数。它的核心思想是:寻找一组参数,使得在这些参数下,观测到的数据出现的概率最大。
最大似然原理是参数估计的核心思想之一,通过最大化观测数据的概率来确定模型参数。在简单问题中,最大似然估计可以通过代数方法解析求解,而在复杂模型中,则需要借助数值优化方法。
核心思想¶
- 假设我们有一个参数化的概率模型 \(p(x \mid \theta)\) , 其中:
x 是观测数据,
\(\theta\) 是需要估计的参数。
最大似然原理的目标是选择参数 \(\theta\) , 使得给定数据 x 的似然函数 \(L(\theta \mid x)\) 最大化:
在数据集上的应用¶
如果我们有一个独立同分布(i.i.d.)的数据集 \(\left\{x_{1}, x_{2}, \ldots, x_{n}\right\}\) , 则似然函数是所有样本的联合概率(似然函数是每个样本概率的乘积):
为了方便计算, 我们通常取对数, 将似然函数转化为对数似然函数(对数似然函数则是对每个样本对数概率的和):
最大似然估计(Maximum Likelihood Estimation, MLE)的目标就是找到参数 \(\theta\) , 使对数似然函数达到最大值。
举例说明¶
1. 抛硬币问题¶
假设我们有一个硬币, 目标是估计硬币正面朝上的概率 \(\theta\) 。给定观测数据 \(x=\{H, T, H, H, T\}\) ,假设硬币的结果服从伯努利分布:
其中:
- k 是正面朝上的次数
- n 是总实验次数
最大似然估计就是找到 \(\theta\) , 使得 \(p(x \mid \theta)\) 最大。取对数后, 目标变为:
备注
本示例是直接使用公式算出来。当然算出的结果中参数 k
是和观测数据 x
有关的
2. 高斯分布¶
假设数据服从正态分布 \(\mathcal{N}\left(\mu, \sigma^{2}\right)\) , 参数为均值 \(\mu\) 和方差 \(\sigma^{2}\) 。给定数据 \(\left\{x_{1}, x_{2}, \ldots, x_{n}\right\}\) , 最大似然估计的目标是:
通过对数变换和推导, 可以得到:
优缺点¶
优点:
直观简单:直接利用数据的概率模型,理论上明确。
统计效率高:在许多情形下,最大似然估计具有良好的统计性质,例如一致性和渐近正态性。
广泛适用:适用于各种分布模型。
局限性:
模型假设敏感:如果模型假设(如分布)不准确,估计结果会失效。
计算复杂:对于复杂模型,最大似然估计可能需要复杂的优化算法。
可能过拟合:特别是当数据量少且参数较多时,容易导致过拟合。