统计-中心极限定理(Central Limit Theorem, CLT)¶
统计学中最重要的理论之一。
它描述了在一定条件下,大量独立同分布的随机变量之和(或平均值)会趋近于正态分布,即使这些随机变量本身的分布并不一定是正态分布。
核心思想¶
当样本量足够大时:
不论总体分布如何,样本均值的分布都会接近正态分布。
样本的总和或均值的分布的期望值为总体的期望值,方差为总体方差除以样本数量。
本质是:混乱中有秩序。虽然个体结果可能很随机,但多个样本的平均值会展现出令人惊讶的规律性。
备注
有一个大的数据集(可能不是正态分布),如果我们随机(独立同分布)取n个数据( \(1<=n<=\infty\) ),则取出的这n个数据的样本平均值服从正态分布 \((\mu, \frac{\sigma^2}{n})\) 也就是说,n越大,平均值的波动越小,这个样本的平均值和总体的平均值。单个样本误差的方差 \(\sigma^2\) ,表示单次模型预测错误的波动; 样本均值(平均误差) 的方差 \(\frac{\sigma^2}{n}\) ,表示 n 个样本误差均值的波动。
数学表述¶
设 \(X_{1}, X_{2}, \ldots, X_{n}\) 是来自同一分布的独立随机变量, 其期望为 \(\mu\) , 方差为 \(\sigma^{2}\) 。
定义样本均值为: \(\bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i}\)
当 \(n \rightarrow \infty\) 时, 样本均值的分布近似为: \(\bar{X} \sim N\left(\mu, \frac{\sigma^{2}}{n}\right)\)
标准化后: \(\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \rightarrow N(0,1)\)
应用举例¶
质量检测:从大量产品中随机抽样,计算平均值,分析是否符合标准。
金融分析:对股票日收益的随机波动进行建模和预测。
A/B 测试:在网页优化中,比较两组用户行为差异的显著性。
考试成绩分析:学生的单次考试分数可能波动很大,但多次测验的平均分趋于稳定,且分布接近正态。
工厂产品质量:某个零件的重量会有细微差异,但随机抽样很多个零件后,平均重量符合正态分布。
股票市场:单日股票价格波动很随机,但一周或一个月的平均收益通常符合正态分布。
应用到测试误差估计¶
1) 将CLT应用到模型误差估计¶
在机器学习中, 模型在测试集上的误差 \(\epsilon_{\mathcal\{D\}}(f)\) 本质上是多个独立随机变量的均值:
其中 \(\mathbf{1}(f(\mathbf{x}^{(i)}) \neq y^{(i)})\) 表示第 i 个样本是否预测错误, 值为 0 或 1
这相当于 n 个 Bernoulli随机变量的均值, 满足中心极限定理的条件。
最终结论:
2) 方差如何计算¶
Bernoulli 分布的方差计算公式为:
在最坏情况下, \(\epsilon(f) = 0.5\) 时,方差最大:
小样本限制¶
样本量较小时,中心极限定理可能不适用,需考虑总体分布或使用其他方法(如t分布)。
直观理解¶
即使单个球的数字分布是随机且复杂的,但 多个独立抽样的平均值分布最终趋向于正态分布
这就像将许多不规则的小石头倒进一个袋子里,虽然每块石头形状不同,但袋子里石头堆积的高度呈正态分布。
示例¶
抽奖箱里的乒乓球¶
场景:假设有一个抽奖箱,里面有很多乒乓球,上面标着不同的数字。数字范围从 1 到 100,但分布不均匀,有些数字多一些,有些少一些。
目标:我们想知道,如果每次随机抽取一个乒乓球,重复抽取很多次后,抽出的数字的平均值会是什么样子。
步骤 1: 单次抽取的分布:
抽奖箱里的球,数字分布可能是不规则的。
如果只抽 1 次,可能抽到 5,也可能抽到 100。这个结果是不确定的,分布看起来很复杂。
步骤 2:多次抽取,计算平均值:
现在假设我们抽 10 个球,每次记录数字并计算平均值:
第一次抽 10 个球,平均值可能是 52
第二次抽 10 个球,平均值可能是 60
第三次抽 10 个球,平均值可能是 55
每次抽取 10 个球,平均值都会稍有不同,但这些平均值不会偏离太远。
步骤 3:增加抽取次数:
如果我们每次抽 50 个球、100 个球,计算平均值,会发现:
抽的越多,平均值越接近一个固定的数字,比如 53.7。
抽 1000 次后,所有平均值的分布逐渐接近正态分布,即钟形曲线。