方差/标准差
###########


方差
====

* 用于衡量一组数据的离散程度或分散程度。它反映了数据点与其均值之间的偏差程度。具体而言,方差越大,数据的分布越分散;方差越小,数据越集中。
* 方差(Variance)是统计学和概率论中用于度量一组数值分散程度的重要指标。它衡量的是这些数值相对于其平均值的离散程度,即数据点与平均值之间的差异有多大。方差越大,表示数据点分布越广;方差越小,则表示数据点更紧密地聚集在平均值周围。




定义
----

总体方差
^^^^^^^^


对于一个随机变量 X,其方差通常记作 Var(X) 或 σ^2 ,定义为:

.. math::

    \begin{array}{l}
    \operatorname{Var}(X)=E\left[(X-\mu)^{2}\right] \\
    这里: \\
    -  E[\cdot]  表示期望值(即平均值或均值) \\
    -  \mu=E[X]  是随机变量  X  的期望值 \\
    -  X-\mu  是每个观测值与平均值之差, 也称为偏差 \\
    -  (X-\mu)^{2}  是偏差的平方, 确保了所有偏差都是正数, 并且放大了较大偏差的影响 \\
    \end{array}

* 总体方差(适用于整个人群或完整数据集)

.. math::

    \begin{array}{l}
    \sigma^2 = \frac{1}{N}\sum_{i=1}{N}(x_i - \mu)^2
    \\
    N: 数据点总数 \\
    \mu: 总体均值 \\
    \end{array}


样本方差
^^^^^^^^


* 样本方差(用于估计总体的离散程度)

.. math::

    \begin{array}{l}
    s^2 = \frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2 \\
    \\
    n: 样本数据点总数 \\
    \bar{x}: 样本均值 \\
    样本方差中分母为 𝑛−1 是为了校正偏差,这一调整被称为 贝塞尔校正。 \\
    \end{array}



意义
----

* 衡量离散程度:方差为零意味着所有数据点都相等,完全没有分散性。方差越大,数据分布越宽,偏离均值的程度越高。

* 分析数据的分布特性:在数据建模中,方差可以帮助理解数据的波动性,进而指导优化模型或做出预测。

* 标准差的基础:方差的平方根即为 标准差(Standard Deviation, 𝜎 或 𝑠),它是与数据离散性相关的另一个常用指标。


标准差
======


* 标准差(Standard Deviation)是统计学中用来衡量数据分布离散程度的指标之一,它是方差的平方根。与方差相比,标准差的单位与原始数据相同,因此更直观地反映了数据的波动情况。


公式
----

* 总体标准差(适用于整个人群或完整数据集):

.. math::

    \sigma = \sqrt{\frac{1}{N}\sum_{i=1}{N}(x_i - \mu)^2}

    σ:总体标准差
    𝑁:数据点总数
    𝜇:总体均值
    𝑥_𝑖 :第 𝑖 个数据点


* 样本标准差(用于从样本估计总体标准差):


.. math::

    s = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}

    s:样本标准差 \\
    n: 样本数据点总数 \\
    \bar{x}: 样本均值 \\
    𝑥_𝑖 :第 𝑖 个数据点