统计-似然函数(Likelihood) ######################### * 似然函数是统计学中用于描述模型参数如何影响观测数据的概率分布的一个函数。 * 它在参数估计(例如最大似然估计)中起到核心作用。虽然似然函数形式上与概率密度函数(PDF)或概率质量函数(PMF)相似,但它们的意义有所不同。 .. note:: 为了计算方便,我们通常取似然的对数 定义 ==== * 假设我们有一组观测数据 ``𝑥={𝑥1,𝑥2,…,𝑥𝑛}`` ,它们由一个参数化的概率分布 ``𝑝(𝑥∣𝜃)`` 生成,其中 𝜃 是待估计的参数。 * 似然函数定义为: .. math:: 𝐿(𝜃∣𝑥)=𝑝(𝑥∣𝜃) 即:似然函数将数据视为固定的,而将参数 𝜃 视为变量 .. note:: 似然函数将数据视为固定的,而将参数 𝜃 视为变量 似然函数与概率的区别 ==================== * 概率密度函数(PMF/PDF): 输入:模型的参数 𝜃 和数据 𝑥 问题:给定参数 𝜃,生成 𝑥 的概率是多少? * 似然函数:: 输入:观测数据 𝑥 和模型的参数 𝜃。 问题:给定观测到的数据 𝑥,参数 𝜃 使得数据出现的可能性有多大? .. note:: 直观上,概率描述“已知参数,数据的概率”,而似然描述“已知数据,参数的可能性”。 举例说明 ======== 1. 抛硬币问题 ------------- 2. 高斯分布 ----------- * 假设数据 :math:`x_{1}, x_{2}, \ldots, x_{n}` 服从正态分布 :math:`\mathcal{N}\left(\mu, \sigma^{2}\right)` 。则似然函数为: .. math:: L\left(\mu, \sigma^{2} \mid x\right)=\prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}} 取对数后: .. math:: \ell\left(\mu, \sigma^{2} \mid x\right)=-\frac{n}{2} \log (2 \pi)-\frac{n}{2} \log \sigma^{2}-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2} . 通过对 :math:`\mu` 和 :math:`\sigma^{2}` 求导并令导数为 0 , 可得最大似然估计的解: .. math:: \hat{\mu}=\frac{1}{n} \sum_{i=1}^{n} x_{i} \\ \hat{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\hat{\mu}\right)^{2} 推导过程 ^^^^^^^^ 1. 写出似然函数 """"""""""""""" 正态分布的概率密度函数为: .. math:: p\left(x_{i} \mid \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}}} . 由于 :math:`x_{1}, x_{2}, \ldots, x_{n}` 是独立同分布的, 联合概率为: .. math:: L\left(\mu, \sigma^{2} \mid x_{1}, x_{2}, \ldots, x_{n}\right)=\prod_{i=1}^{n} p\left(x_{i} \mid \mu, \sigma^{2}\right) . 将每个样本的概率代入, 得到似然函数: .. math:: L\left(\mu, \sigma^{2} \mid x\right)=\prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{-\frac{\left(i_{i}-\mu\right)^{2}}{2 \sigma^{2}}} 2. 取对数简化计算 """"""""""""""""" 由于对数函数是单调递增的,最大化对数似然函数与最大化似然函数是等价的。取对数后得到对数似然函数: .. math:: \ell\left(\mu, \sigma^{2} \mid x\right)=\log L\left(\mu, \sigma^{2} \mid x\right)=\sum_{i=1}^{n} \log \frac{1}{\sqrt{2 \pi \sigma^{2}}}-\frac{\left(x_{i}-\mu\right)^{2}}{2 \sigma^{2}} . 分解后: .. math:: \ell\left(\mu, \sigma^{2} \mid x\right)=-\frac{n}{2} \log (2 \pi)-\frac{n}{2} \log \sigma^{2}-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2} . 对数似然函数的结构中, 第一项 :math:`-\frac{n}{2} \log (2 \pi)` 是常数, 对优化无影响, 我们专注于剩下两项。 3. 对 :math:`\mu` 求导 """""""""""""""""""""""" * 我们固定 :math:`\sigma^{2} , 对 \ell\left(\mu, \sigma^{2} \mid x\right) 关于 \mu` 求偏导: .. math:: \frac{\partial \ell}{\partial \mu}=-\frac{1}{2 \sigma^{2}} \cdot 2 \sum_{i=1}^{n}\left(x_{i}-\mu\right) \cdot(-1) . 化简后: .. math:: \frac{\partial \ell}{\partial \mu}=\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right) 令导数为零: .. math:: \frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)=0 进一步化简: .. math:: \sum_{i=1}^{n} x_{i}-n \mu=0 . 解得: .. math:: \hat{\mu}=\frac{1}{n} \sum_{i=1}^{n} x_{i} . 这表明, 样本的均值是 :math:`\mu` 的最大似然估计。 4. 对 :math:`\sigma^{2}` 求导 """"""""""""""""""""""""""""""" 固定 \mu , 对 \ell\left(\mu, \sigma^{2} \mid x\right) 关于 \sigma^{2} 求偏导: \frac{\partial \ell}{\partial \sigma^{2}}=-\frac{n}{2 \sigma^{2}}+\frac{1}{2 \sigma^{4}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2} 令导数为零: -\frac{n}{2 \sigma^{2}}+\frac{1}{2 \sigma^{4}} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}=0 乘以 2 \sigma^{4} 化简: -n \sigma^{2}+\sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2}=0 . 解得: \hat{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2} 这表明, 样本的方差是 \sigma^{2} 的最大似然估计。 5. 总结结果 """"""""""" * 通过最大似然估计, 我们得到正态分布参数的估计值为: * 1. 均值的最大似然估计: .. math:: \hat{\mu}=\frac{1}{n} \sum_{i=1}^{n} x_{i} . * 2. 方差的最大似然估计: .. math:: \hat{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\hat{\mu}\right)^{2}