分布-二项分布
#############

* 二项分布是一种离散概率分布，用于描述在 𝑛 次独立重复试验中，事件成功的次数 𝑋。每次试验只有两个可能结果（例如“成功”或“失败”），且成功的概率为 𝑝，失败的概率为 1−𝑝。


定义
====

* 随机变量 𝑋 表示 𝑛 次独立试验中成功的次数。
* 如果 𝑋X 服从二项分布，则记为：

.. math:: 𝑋∼Binomial(𝑛,𝑝)

说明::

    𝑛：试验的总次数（正整数）
    𝑝：单次试验成功的概率（0≤𝑝≤10≤p≤1）
    1−𝑝：单次试验失败的概率


概率质量函数
============


.. math::

    P(X=k)=\binom{n}{k} p^{k}(1-p)^{n-k}, \quad k \in\{0,1, \ldots, n\}

    表示在  n  次试验中成功  k  次的概率。

图形特性
========

对称性::

    当 𝑝=0.5 时，二项分布是对称的。
    当 𝑝≠0.5 时，分布向成功概率较高的一侧倾斜

收敛性::

    当 𝑛→∞ 且 𝑝 固定时，二项分布逐渐趋近于正态分布。


与其他分布的关系
================

伯努利分布::

    伯努利分布是二项分布的特例。
    当 𝑛=1 时，Binomial(𝑛=1,𝑝)=Bernoulli(𝑝)

正态分布(大样本近似)
--------------------

::

    当 𝑛→∞ 且成功的概率 p 不接近于 0 或 1 时，二项分布可以用正态分布近似： N(μ,σ)

.. math::

    𝑋 ∼ \mathcal{𝑁}(𝑛𝑝,\sqrt{𝑛𝑝(1−𝑝)}) \\ 
    其中: \\
    μ=np \\
    σ=\sqrt{𝑛𝑝(1−𝑝)}

方差的计算过程
^^^^^^^^^^^^^^

* 一个伯努利随机变量 Yi 只有两个可能的结果：成功（通常记为1）或失败（通常记为0）。设成功的概率为 p，则失败的概率为 1−p。
* 单个 Yi 的期望值::

    E[Yi]=1⋅p+0⋅(1−p)=p
    说明:
    如果 Yi 成功，则它的贡献为 1(概率p)
    如果 Yi 失败，则它的贡献为 0(概率1−p)
    因此总期望值为 p

* 单个 Yi 的方差::

    因为 Yi  的取值只能是 0 或 1，所以 Yi^2=Yi
    因此

.. math::

    E[Y_i^2]=E[Y_i]=p


* 使用方差的公式

.. math::

    \begin{array}{l}
    \operatorname{Var}(Y_i)=E\left[(Y_i-\mu)^{2}\right] \\
                           =E\left[(Y_i-p)^{2}\right] \\
    \end{array}

* 由于 Yi 是一个伯努利随机变量，它只有两个可能的取值：0 或 1。
* 我们可以分别计算这两种情况下的 :math:`(Yi−p)^2`  的期望值，然后加权求和。

.. math::

    当 Yi=1 时，(Y_i−p)^2=(1−p)^2 ，这种情况发生的概率是 p \\
    当 Yi=0 时，(Y_i−p)^2=(−p)2=p^2，这种情况发生的概率是 1−p \\
    因此 \\
    E\left[(Y_i-p)^{2}\right] = p(1-p)^2 + (1-p)*p^2 \\
        = p(1-2p+p^2) + (1-p)p^2 \\
        = p-2p^2+p^3+p^2-p^3 \\
        = p-p^2 \\
        = p(1-p) \\
    所以 \\
    \operatorname{Var}(Y_i)=E\left[(Y_i-p)^{2}\right]
        = p(1-p)


* 使用以下性质：
    * 对于两个独立的随机变量 A 和 B，它们和的方差等于各自方差之和，即 ``Var(A+B)=Var(A)+Var(B)`` 
    * 如果 X 是 n 个独立同分布的伯努利随机变量 Yi 的和，那么 ``X=Y1+Y2+...+Yn`` ，并且每个 Yi 的方差是 ``p(1−p)``

::

    二项分布 X 的方差 Var(X) 可以表示为：
    Var(X)=Var(Y1+Y2+...+Yn)
          =Var(Y1)+Var(Y2)+...+Var(Yn)
    由于所有 Yi 都有相同的方差 p(1−p) ，我们得到：
    Var(X)=n⋅p(1−p)

    这就是二项分布的方差公式：Var(X)=np(1−p)


直观理解
^^^^^^^^

* 从直观上讲，方差 np(1−p) 反映了成功的不确定性。
* 当 p=0.5 时，不确定性最大，因为成功和失败的可能性相等；而当 p 接近 0 或 1 时，不确定性减小，因为结果更倾向于一边倒。


泊松分布(稀疏事件近似)
----------------------


::

    当 𝑛→∞ 且 𝑝→0 且 𝑛𝑝=𝜆 为常数时，二项分布可以用泊松分布近似：𝑋∼Poisson(𝜆)X∼Poisson(λ)