MLE-最大似然估计 ################ * Maximum Likelihood Estimation * 一种统计方法,用于估计模型参数,使其使观测数据的似然函数最大化。 前置知识 ======== 什么是似然函数 -------------- * 似然函数是指在给定一组观测数据的情况下,关于参数的概率分布函数。它表示了在已知观测数据的情况下,参数取值的可能性大小。 * 核心思想是,在给定一组观测数据的情况下,通过调整模型的参数来使观测数据出现的概率最大化 * 定义:设 X 是一个随机变量,其概率分布由参数 θ 决定。观测到 X 的值为 x,则在参数 θ 下的似然函数定义为: :math:`L(\theta|x) = P(X=x|\theta)` 解释:: 似然函数表示,在参数 θ 确定的情况下,观测到数据 x 的可能性。 基本原理 ======== * 假设我们有一个观测数据集 D,其概率分布由参数 θ 决定。MLE 的目标是找到参数 θ 的值,使得观测数据集 D 出现的概率最大化。 数学表达式: :math:`max_{\theta} = L(\theta|D)` 说明:: L(θ∣D) 表示观测数据集 D 在参数 θ 下的似然函数 求解方法:: 直接求解: 直接对似然函数进行求导,找到使导数为零的参数值。 迭代求解: 使用梯度下降法或牛顿法等迭代方法,逐步逼近最优参数值。 优缺点:: 优点: MLE 是一个直观且易于理解的方法。 MLE 在很多情况下具有良好的统计性质,例如渐近一致性和效率性。 缺点: MLE 对噪声敏感,容易受到异常值的影响。 MLE 的求解过程可能比较复杂,特别是在参数空间维度较高的情况下。 示例-抛硬币 =========== * 假设我们抛掷一枚硬币 10 次,正面朝上的次数为 6 次。 * 用 MLE 来估计硬币正面朝上的概率。 似然函数说明 ------------ * 硬币正面朝上的概率为 θ,背面朝上的概率为 1−θ。 * 抛掷 10 次硬币,正面朝上的次数为 6 次的概率为: :math:`P(10次有6次正面朝上 | \theta) = \binom{10}{6} \theta^6 (1-\theta)^4` 求解 MLE -------- 令 L(θ∣D) 表示观测数据的似然函数,则: :math:`L(\theta|D) = \binom{10}{6} \theta^6 (1-\theta)^4` 对似然函数求导,并令导数为零,得到: :math:`\frac{dL(\theta|D)}{d\theta} = 6\binom{10}{6} \theta^5 (1-\theta)^4 - 4\binom{10}{6} \theta^6 (1-\theta)^3 = 0` 解得: :math:`\theta = \frac{3}{5}` 结论: 根据 MLE 的估计,硬币正面朝上的概率为 3/5 示例-学生成绩 ============= * 30 名学生参加了考试,考试成绩服从正态分布。我们想知道这个班级的平均成绩是多少。 .. note:: 这个例子有点复杂 数据 ---- :: 小明 80 小红 90 张三 75 ... 似然函数 -------- 正态分布的概率密度函数为: :math:`f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left[-\frac{(x-\mu)^2}{2\sigma^2}\right]` 其中,μ 是平均成绩,σ^2是方差。 令 x1, x2, ... x30 表示所有学生的考试成绩,则观测数据的似然函数为: :math:`L(\mu, \sigma^2) = \prod_{i=1}^{30} f(x_i) = \prod_{i=1}^{30} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left[-\frac{(x_i-\mu)^2}{2\sigma^2}\right]` 最大似然估计 ------------ 由于求解含有两个参数的似然函数比较复杂,我们通常先对 σ^2 进行估计。 估计方差 ^^^^^^^^ 对似然函数取对数,并对 σ^2 求导,得到: :math:`\frac{\partial \log L(\mu, \sigma^2)}{\partial \sigma^2} = -\frac{n}{2} \log \sigma^2 + \frac{1}{2\sigma^4} \sum_{i=1}^{n}(x_i-\mu)^2` 令导数为零,得到: :math:`\sigma^2 = \frac{1}{n} \sum_{i=1}^{n}(x_i-\mu)^2` 估计平均成绩 ^^^^^^^^^^^^ 将估计的方差代入似然函数,得到: :math:`L(\mu) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi \frac{1}{n} \sum_{i=1}^{n}(x_i-\mu)^2}} \exp\left[-\frac{(x_i-\mu)^2}{2 \frac{1}{n} \sum_{i=1}^{n}(x_i-\mu)^2}\right]` 对似然函数取对数,并对 μ 求导,得到: :math:`\frac{\partial \log L(\mu)}{\partial \mu} = -\frac{n}{\sigma^2} \sum_{i=1}^{n}(x_i-\mu)` 令导数为零,得到: :math:`\mu = \frac{1}{n} \sum_{i=1}^{n}x_i`