统计-中心极限定理(Central Limit Theorem, CLT) ############################################# * 统计学中最重要的理论之一。 * 它描述了在一定条件下,大量独立同分布的随机变量之和(或平均值)会趋近于正态分布,即使这些随机变量本身的分布并不一定是正态分布。 核心思想 ======== * 当样本量足够大时: * 不论总体分布如何,样本均值的分布都会接近正态分布。 * 样本的总和或均值的分布的期望值为总体的期望值,方差为总体方差除以样本数量。 * 本质是:混乱中有秩序。虽然个体结果可能很随机,但多个样本的平均值会展现出令人惊讶的规律性。 .. note:: 有一个大的数据集(可能不是正态分布),如果我们随机(独立同分布)取n个数据( :math:`1<=n<=\infty` ),则取出的这n个数据的样本平均值服从正态分布 :math:`(\mu, \frac{\sigma^2}{n})` 也就是说,n越大,平均值的波动越小,这个样本的平均值和总体的平均值。单个样本误差的方差 :math:`\sigma^2` ,表示单次模型预测错误的波动; **样本均值(平均误差)** 的方差 :math:`\frac{\sigma^2}{n}` ,表示 n 个样本误差均值的波动。 数学表述 ======== * 设 :math:`X_{1}, X_{2}, \ldots, X_{n}` 是来自同一分布的独立随机变量, 其期望为 :math:`\mu` , 方差为 :math:`\sigma^{2}` 。 * 定义样本均值为: :math:`\bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i}` * 当 :math:`n \rightarrow \infty` 时, 样本均值的分布近似为: :math:`\bar{X} \sim N\left(\mu, \frac{\sigma^{2}}{n}\right)` * 标准化后: :math:`\frac{\bar{X}-\mu}{\sigma / \sqrt{n}} \rightarrow N(0,1)` 应用举例 ======== * 质量检测:从大量产品中随机抽样,计算平均值,分析是否符合标准。 * 金融分析:对股票日收益的随机波动进行建模和预测。 * A/B 测试:在网页优化中,比较两组用户行为差异的显著性。 * 考试成绩分析:学生的单次考试分数可能波动很大,但多次测验的平均分趋于稳定,且分布接近正态。 * 工厂产品质量:某个零件的重量会有细微差异,但随机抽样很多个零件后,平均重量符合正态分布。 * 股票市场:单日股票价格波动很随机,但一周或一个月的平均收益通常符合正态分布。 应用到测试误差估计 ------------------ 1) 将CLT应用到模型误差估计 ^^^^^^^^^^^^^^^^^^^^^^^^^^ * 在机器学习中, 模型在测试集上的误差 :math:`\epsilon_{\mathcal\{D\}}(f)` 本质上是多个独立随机变量的均值: .. math:: \epsilon_{\mathcal{D}}(f)=\frac{1}{n} \sum_{i=1}^{n} \mathbf{1}\left(f\left(\mathbf{x}^{(i)}\right) \neq y^{(i)}\right) - 其中 :math:`\mathbf{1}(f(\mathbf{x}^{(i)}) \neq y^{(i)})` 表示第 i 个样本是否预测错误, 值为 0 或 1 - 这相当于 n 个 Bernoulli随机变量的均值, 满足中心极限定理的条件。 - 最终结论: .. math:: \epsilon_{\mathcal{D}}(f) \sim N\left(\epsilon(f), \frac{\sigma^{2}}{n}\right) 其中 \epsilon(f) 是总体误差,即真实误差。 2) 方差如何计算 ^^^^^^^^^^^^^^^ - Bernoulli 分布的方差计算公式为: .. math:: \sigma^{2}=\epsilon(f)(1-\epsilon(f)) - 在最坏情况下, :math:`\epsilon(f) = 0.5` 时,方差最大: .. math:: \sigma_{\max }^{2}=0.25 小样本限制 ========== * 样本量较小时,中心极限定理可能不适用,需考虑总体分布或使用其他方法(如t分布)。 直观理解 ======== * 即使单个球的数字分布是随机且复杂的,但 **多个独立抽样的平均值分布最终趋向于正态分布** * 这就像将许多不规则的小石头倒进一个袋子里,虽然每块石头形状不同,但袋子里石头堆积的高度呈正态分布。 示例 ==== 抽奖箱里的乒乓球 ---------------- * 场景:假设有一个抽奖箱,里面有很多乒乓球,上面标着不同的数字。数字范围从 1 到 100,但分布不均匀,有些数字多一些,有些少一些。 * 目标:我们想知道,如果每次随机抽取一个乒乓球,重复抽取很多次后,抽出的数字的平均值会是什么样子。 步骤 1: 单次抽取的分布:: 抽奖箱里的球,数字分布可能是不规则的。 如果只抽 1 次,可能抽到 5,也可能抽到 100。这个结果是不确定的,分布看起来很复杂。 步骤 2:多次抽取,计算平均值:: 现在假设我们抽 10 个球,每次记录数字并计算平均值: 第一次抽 10 个球,平均值可能是 52 第二次抽 10 个球,平均值可能是 60 第三次抽 10 个球,平均值可能是 55 每次抽取 10 个球,平均值都会稍有不同,但这些平均值不会偏离太远。 步骤 3:增加抽取次数:: 如果我们每次抽 50 个球、100 个球,计算平均值,会发现: 抽的越多,平均值越接近一个固定的数字,比如 53.7。 抽 1000 次后,所有平均值的分布逐渐接近正态分布,即钟形曲线。