统计-中心极限定理(Central Limit Theorem, CLT)

  • 统计学中最重要的理论之一。

  • 它描述了在一定条件下,大量独立同分布的随机变量之和(或平均值)会趋近于正态分布,即使这些随机变量本身的分布并不一定是正态分布。

核心思想

  • 当样本量足够大时:

  • 不论总体分布如何,样本均值的分布都会接近正态分布。

  • 样本的总和或均值的分布的期望值为总体的期望值,方差为总体方差除以样本数量。

  • 本质是:混乱中有秩序。虽然个体结果可能很随机,但多个样本的平均值会展现出令人惊讶的规律性。

备注

有一个大的数据集(可能不是正态分布),如果我们随机(独立同分布)取n个数据( 1<=n<= ),则取出的这n个数据的样本平均值服从正态分布 (μ,σ2n) 也就是说,n越大,平均值的波动越小,这个样本的平均值和总体的平均值。单个样本误差的方差 σ2 ,表示单次模型预测错误的波动; 样本均值(平均误差) 的方差 σ2n ,表示 n 个样本误差均值的波动。

数学表述

  • X1,X2,,Xn 是来自同一分布的独立随机变量, 其期望为 μ , 方差为 σ2

  • 定义样本均值为: X¯=1ni=1nXi

  • n 时, 样本均值的分布近似为: X¯N(μ,σ2n)

  • 标准化后: X¯μσ/nN(0,1)

应用举例

  • 质量检测:从大量产品中随机抽样,计算平均值,分析是否符合标准。

  • 金融分析:对股票日收益的随机波动进行建模和预测。

  • A/B 测试:在网页优化中,比较两组用户行为差异的显著性。

  • 考试成绩分析:学生的单次考试分数可能波动很大,但多次测验的平均分趋于稳定,且分布接近正态。

  • 工厂产品质量:某个零件的重量会有细微差异,但随机抽样很多个零件后,平均重量符合正态分布。

  • 股票市场:单日股票价格波动很随机,但一周或一个月的平均收益通常符合正态分布。

应用到测试误差估计

1) 将CLT应用到模型误差估计

  • 在机器学习中, 模型在测试集上的误差 ϵ{D}(f) 本质上是多个独立随机变量的均值:

ϵD(f)=1ni=1n1(f(x(i))y(i))
  • 其中 1(f(x(i))y(i)) 表示第 i 个样本是否预测错误, 值为 0 或 1

  • 这相当于 n 个 Bernoulli随机变量的均值, 满足中心极限定理的条件。

  • 最终结论:

ϵD(f)N(ϵ(f),σ2n)ϵ(f)

2) 方差如何计算

  • Bernoulli 分布的方差计算公式为:

σ2=ϵ(f)(1ϵ(f))
  • 在最坏情况下, ϵ(f)=0.5 时,方差最大:

σmax2=0.25

小样本限制

  • 样本量较小时,中心极限定理可能不适用,需考虑总体分布或使用其他方法(如t分布)。

直观理解

  • 即使单个球的数字分布是随机且复杂的,但 多个独立抽样的平均值分布最终趋向于正态分布

  • 这就像将许多不规则的小石头倒进一个袋子里,虽然每块石头形状不同,但袋子里石头堆积的高度呈正态分布。

示例

抽奖箱里的乒乓球

  • 场景:假设有一个抽奖箱,里面有很多乒乓球,上面标着不同的数字。数字范围从 1 到 100,但分布不均匀,有些数字多一些,有些少一些。

  • 目标:我们想知道,如果每次随机抽取一个乒乓球,重复抽取很多次后,抽出的数字的平均值会是什么样子。

步骤 1: 单次抽取的分布:

抽奖箱里的球,数字分布可能是不规则的。
如果只抽 1 次,可能抽到 5,也可能抽到 100。这个结果是不确定的,分布看起来很复杂。

步骤 2:多次抽取,计算平均值:

现在假设我们抽 10 个球,每次记录数字并计算平均值:
    第一次抽 10 个球,平均值可能是 52
    第二次抽 10 个球,平均值可能是 60
    第三次抽 10 个球,平均值可能是 55
每次抽取 10 个球,平均值都会稍有不同,但这些平均值不会偏离太远。

步骤 3:增加抽取次数:

如果我们每次抽 50 个球、100 个球,计算平均值,会发现:
    抽的越多,平均值越接近一个固定的数字,比如 53.7。
抽 1000 次后,所有平均值的分布逐渐接近正态分布,即钟形曲线。