主页

索引

模块索引

搜索页面

统计-中心极限定理(Central Limit Theorem, CLT)

  • 统计学中最重要的理论之一。

  • 它描述了在一定条件下,大量独立同分布的随机变量之和(或平均值)会趋近于正态分布,即使这些随机变量本身的分布并不一定是正态分布。

核心思想

  • 当样本量足够大时:

  • 不论总体分布如何,样本均值的分布都会接近正态分布。

  • 样本的总和或均值的分布的期望值为总体的期望值,方差为总体方差除以样本数量。

  • 本质是:混乱中有秩序。虽然个体结果可能很随机,但多个样本的平均值会展现出令人惊讶的规律性。

备注

有一个大的数据集(可能不是正态分布),如果我们随机(独立同分布)取n个数据( \(1<=n<=\infty\) ),则取出的这n个数据的样本平均值服从正态分布 \((\mu, \frac{\sigma^2}{n})\) 也就是说,n越大,平均值的波动越小,这个样本的平均值和总体的平均值。单个样本误差的方差 \(\sigma^2\) ,表示单次模型预测错误的波动; 样本均值(平均误差) 的方差 \(\frac{\sigma^2}{n}\) ,表示 n 个样本误差均值的波动。

数学表述

  • \(X_{1}, X_{2}, \ldots, X_{n}\) 是来自同一分布的独立随机变量, 其期望为 \(\mu\) , 方差为 \(\sigma^{2}\)

  • 定义样本均值为: \(\bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i}\)

  • \(n \rightarrow \infty\) 时, 样本均值的分布近似为: \(\bar{X} \sim N\left(\mu, \frac{\sigma^{2}}{n}\right)\)

  • 标准化后: \(\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \rightarrow N(0,1)\)

应用举例

  • 质量检测:从大量产品中随机抽样,计算平均值,分析是否符合标准。

  • 金融分析:对股票日收益的随机波动进行建模和预测。

  • A/B 测试:在网页优化中,比较两组用户行为差异的显著性。

  • 考试成绩分析:学生的单次考试分数可能波动很大,但多次测验的平均分趋于稳定,且分布接近正态。

  • 工厂产品质量:某个零件的重量会有细微差异,但随机抽样很多个零件后,平均重量符合正态分布。

  • 股票市场:单日股票价格波动很随机,但一周或一个月的平均收益通常符合正态分布。

应用到测试误差估计

1) 将CLT应用到模型误差估计

  • 在机器学习中, 模型在测试集上的误差 \(\epsilon_{\mathcal\{D\}}(f)\) 本质上是多个独立随机变量的均值:

\[\epsilon_{\mathcal{D}}(f)=\frac{1}{n} \sum_{i=1}^{n} \mathbf{1}\left(f\left(\mathbf{x}^{(i)}\right) \neq y^{(i)}\right)\]
  • 其中 \(\mathbf{1}(f(\mathbf{x}^{(i)}) \neq y^{(i)})\) 表示第 i 个样本是否预测错误, 值为 0 或 1

  • 这相当于 n 个 Bernoulli随机变量的均值, 满足中心极限定理的条件。

  • 最终结论:

\[ \begin{align}\begin{aligned}\epsilon_{\mathcal{D}}(f) \sim N\left(\epsilon(f), \frac{\sigma^{2}}{n}\right)\\其中 \epsilon(f) 是总体误差,即真实误差。\end{aligned}\end{align} \]

2) 方差如何计算

  • Bernoulli 分布的方差计算公式为:

\[\sigma^{2}=\epsilon(f)(1-\epsilon(f))\]
  • 在最坏情况下, \(\epsilon(f) = 0.5\) 时,方差最大:

\[\sigma_{\max }^{2}=0.25\]

小样本限制

  • 样本量较小时,中心极限定理可能不适用,需考虑总体分布或使用其他方法(如t分布)。

直观理解

  • 即使单个球的数字分布是随机且复杂的,但 多个独立抽样的平均值分布最终趋向于正态分布

  • 这就像将许多不规则的小石头倒进一个袋子里,虽然每块石头形状不同,但袋子里石头堆积的高度呈正态分布。

示例

抽奖箱里的乒乓球

  • 场景:假设有一个抽奖箱,里面有很多乒乓球,上面标着不同的数字。数字范围从 1 到 100,但分布不均匀,有些数字多一些,有些少一些。

  • 目标:我们想知道,如果每次随机抽取一个乒乓球,重复抽取很多次后,抽出的数字的平均值会是什么样子。

步骤 1: 单次抽取的分布:

抽奖箱里的球,数字分布可能是不规则的。
如果只抽 1 次,可能抽到 5,也可能抽到 100。这个结果是不确定的,分布看起来很复杂。

步骤 2:多次抽取,计算平均值:

现在假设我们抽 10 个球,每次记录数字并计算平均值:
    第一次抽 10 个球,平均值可能是 52
    第二次抽 10 个球,平均值可能是 60
    第三次抽 10 个球,平均值可能是 55
每次抽取 10 个球,平均值都会稍有不同,但这些平均值不会偏离太远。

步骤 3:增加抽取次数:

如果我们每次抽 50 个球、100 个球,计算平均值,会发现:
    抽的越多,平均值越接近一个固定的数字,比如 53.7。
抽 1000 次后,所有平均值的分布逐渐接近正态分布,即钟形曲线。

主页

索引

模块索引

搜索页面