主页

索引

模块索引

搜索页面

统计-最大似然原理(Maximum Likelihood Principle)

  • 最大似然原理(Maximum Likelihood Principle)是统计学和机器学习中的一种基本方法,用于从数据中估计模型的参数。它的核心思想是:寻找一组参数,使得在这些参数下,观测到的数据出现的概率最大。

  • 最大似然原理是参数估计的核心思想之一,通过最大化观测数据的概率来确定模型参数。在简单问题中,最大似然估计可以通过代数方法解析求解,而在复杂模型中,则需要借助数值优化方法。

核心思想

  • 假设我们有一个参数化的概率模型 \(p(x \mid \theta)\) , 其中:
    • x 是观测数据,

    • \(\theta\) 是需要估计的参数。

  • 最大似然原理的目标是选择参数 \(\theta\) , 使得给定数据 x 的似然函数 \(L(\theta \mid x)\) 最大化:

\[ \begin{align}\begin{aligned}\hat{\theta}=\arg \max _{\theta} L(\theta \mid x)\\\begin{split}其中:\\ L(\theta \mid x)=p(x \mid \theta) \\ 即数据 x 在参数 \theta 下的概率\end{split}\end{aligned}\end{align} \]

在数据集上的应用

  • 如果我们有一个独立同分布(i.i.d.)的数据集 \(\left\{x_{1}, x_{2}, \ldots, x_{n}\right\}\) , 则似然函数是所有样本的联合概率(似然函数是每个样本概率的乘积):

\[L\left(\theta \mid x_{1}, x_{2}, \ldots, x_{n}\right)=\prod_{i=1}^{n} p\left(x_{i} \mid \theta\right)\]

为了方便计算, 我们通常取对数, 将似然函数转化为对数似然函数(对数似然函数则是对每个样本对数概率的和):

\[\log L\left(\theta \mid x_{1}, x_{2}, \ldots, x_{n}\right)=\sum_{i=1}^{n} \log p\left(x_{i} \mid \theta\right)\]

最大似然估计(Maximum Likelihood Estimation, MLE)的目标就是找到参数 \(\theta\) , 使对数似然函数达到最大值。

举例说明

1. 抛硬币问题

  • 假设我们有一个硬币, 目标是估计硬币正面朝上的概率 \(\theta\) 。给定观测数据 \(x=\{H, T, H, H, T\}\) ,假设硬币的结果服从伯努利分布:

\[p(x \mid \theta)=\theta^{k}(1-\theta)^{n-k}\]

其中:

-  k  是正面朝上的次数
-  n  是总实验次数
  • 最大似然估计就是找到 \(\theta\) , 使得 \(p(x \mid \theta)\) 最大。取对数后, 目标变为:

\[ \begin{align}\begin{aligned}\begin{split}\log L(\theta)=k \log \theta+(n-k) \log (1-\theta) \\ 对 \theta 求导并设导数为零, 可以得到: \\ => k(\frac{1}{\theta}) + (n-k)(-1)\frac{1}{1-\theta} =0 \\ => k(\frac{1}{\theta}) = (n-k)\frac{1}{1-\theta} \\ => k(1-\theta) = (n-k)\theta \\ => k = n\theta \\ => \hat{\theta}=\frac{k}{n},\end{split}\\即正面朝上的频率。\end{aligned}\end{align} \]

备注

本示例是直接使用公式算出来。当然算出的结果中参数 k 是和观测数据 x 有关的

2. 高斯分布

  • 假设数据服从正态分布 \(\mathcal{N}\left(\mu, \sigma^{2}\right)\) , 参数为均值 \(\mu\) 和方差 \(\sigma^{2}\) 。给定数据 \(\left\{x_{1}, x_{2}, \ldots, x_{n}\right\}\) , 最大似然估计的目标是:

\[\hat{\mu}, \hat{\sigma}^{2}=\arg \max _{\mu, \sigma^{2}} \prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}}\]

通过对数变换和推导, 可以得到:

\[ \begin{align}\begin{aligned}\begin{split}\hat{\mu}=\frac{1}{n} \sum_{i=1}^{n} x_{i} \\ \hat{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\hat{\mu}\right)^{2}\end{split}\\即均值和方差的样本估计\end{aligned}\end{align} \]

优缺点

优点:

直观简单:直接利用数据的概率模型,理论上明确。
统计效率高:在许多情形下,最大似然估计具有良好的统计性质,例如一致性和渐近正态性。
广泛适用:适用于各种分布模型。

局限性:

模型假设敏感:如果模型假设(如分布)不准确,估计结果会失效。
计算复杂:对于复杂模型,最大似然估计可能需要复杂的优化算法。
可能过拟合:特别是当数据量少且参数较多时,容易导致过拟合。

主页

索引

模块索引

搜索页面