方差/标准差¶
方差¶
用于衡量一组数据的离散程度或分散程度。它反映了数据点与其均值之间的偏差程度。具体而言,方差越大,数据的分布越分散;方差越小,数据越集中。
公式¶
总体方差(适用于整个人群或完整数据集)
\[ \begin{align}\begin{aligned}\sigma^2 = \frac{1}{N}\sum_{i=1}{N}(x_i - \mu)^2\\\begin{split}N: 数据点总数 \\
\mu: 总体均值\end{split}\end{aligned}\end{align} \]
样本方差(用于估计总体的离散程度)
\[ \begin{align}\begin{aligned}s^2 = \frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2\\\begin{split}n: 样本数据点总数 \\
\bar{x}: 样本均值 \\
样本方差中分母为 𝑛−1 是为了校正偏差,这一调整被称为 贝塞尔校正。\end{split}\end{aligned}\end{align} \]
意义¶
衡量离散程度:方差为零意味着所有数据点都相等,完全没有分散性。方差越大,数据分布越宽,偏离均值的程度越高。
分析数据的分布特性:在数据建模中,方差可以帮助理解数据的波动性,进而指导优化模型或做出预测。
标准差的基础:方差的平方根即为 标准差(Standard Deviation, 𝜎 或 𝑠),它是与数据离散性相关的另一个常用指标。
标准差¶
标准差(Standard Deviation)是统计学中用来衡量数据分布离散程度的指标之一,它是方差的平方根。与方差相比,标准差的单位与原始数据相同,因此更直观地反映了数据的波动情况。
公式¶
总体标准差(适用于整个人群或完整数据集):
\[ \begin{align}\begin{aligned}\sigma = \sqrt{\frac{1}{N}\sum_{i=1}{N}(x_i - \mu)^2}\\σ:总体标准差
𝑁:数据点总数
𝜇:总体均值
𝑥_𝑖 :第 𝑖 个数据点\end{aligned}\end{align} \]
样本标准差(用于从样本估计总体标准差):
\[ \begin{align}\begin{aligned}s = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}\\\begin{split}s:样本标准差 \\
n: 样本数据点总数 \\
\bar{x}: 样本均值 \\
𝑥_𝑖 :第 𝑖 个数据点\end{split}\end{aligned}\end{align} \]