# 分布-二项分布 * 二项分布是一种离散概率分布,用于描述在 𝑛 次独立重复试验中,事件成功的次数 𝑋。每次试验只有两个可能结果(例如“成功”或“失败”),且成功的概率为 𝑝,失败的概率为 1−𝑝。 ## 定义 * 随机变量 𝑋 表示 𝑛 次独立试验中成功的次数。 * 如果 𝑋X 服从二项分布,则记为: .. math:: 𝑋∼Binomial(𝑛,𝑝) 说明 ``` 𝑛:试验的总次数(正整数) 𝑝:单次试验成功的概率(0≤𝑝≤10≤p≤1) 1−𝑝:单次试验失败的概率 ``` ## 概率质量函数 ```math P(X=k)=\binom{n}{k} p^{k}(1-p)^{n-k}, \quad k \in\{0,1, \ldots, n\} ``` 表示在 n 次试验中成功 k 次的概率。 ## 图形特性 对称性 ``` 当 𝑝=0.5 时,二项分布是对称的。 当 𝑝≠0.5 时,分布向成功概率较高的一侧倾斜 ``` 收敛性 ``` 当 𝑛→∞ 且 𝑝 固定时,二项分布逐渐趋近于正态分布。 ``` ## 与其他分布的关系 伯努利分布 ``` 伯努利分布是二项分布的特例。 当 𝑛=1 时,Binomial(𝑛=1,𝑝)=Bernoulli(𝑝) ``` ### 正态分布(大样本近似) :: 当 𝑛→∞ 且成功的概率 p 不接近于 0 或 1 时,二项分布可以用正态分布近似: N(μ,σ) ```math 𝑋 ∼ \mathcal{𝑁}(𝑛𝑝,\sqrt{𝑛𝑝(1−𝑝)}) \\ 其中: \\ μ=np \\ σ=\sqrt{𝑛𝑝(1−𝑝)} ``` #### 方差的计算过程 * 一个伯努利随机变量 Yi 只有两个可能的结果:成功(通常记为1)或失败(通常记为0)。设成功的概率为 p,则失败的概率为 1−p。 * 单个 Yi 的期望值 ``` E[Yi]=1⋅p+0⋅(1−p)=p 说明: 如果 Yi 成功,则它的贡献为 1(概率p) 如果 Yi 失败,则它的贡献为 0(概率1−p) 因此总期望值为 p ``` * 单个 Yi 的方差 ``` 因为 Yi 的取值只能是 0 或 1,所以 Yi^2=Yi 因此 ``` ```math E[Y_i^2]=E[Y_i]=p ``` * 使用方差的公式 ```math \begin{array}{l} \operatorname{Var}(Y_i)=E\left[(Y_i-\mu)^{2}\right] \\ =E\left[(Y_i-p)^{2}\right] \\ \end{array} ``` * 由于 Yi 是一个伯努利随机变量,它只有两个可能的取值:0 或 1。 * 我们可以分别计算这两种情况下的 $(Yi−p)^2$ 的期望值,然后加权求和。 ```math 当 Yi=1 时,(Y_i−p)^2=(1−p)^2 ,这种情况发生的概率是 p \\ 当 Yi=0 时,(Y_i−p)^2=(−p)2=p^2,这种情况发生的概率是 1−p \\ 因此 \\ E\left[(Y_i-p)^{2}\right] = p(1-p)^2 + (1-p)*p^2 \\ = p(1-2p+p^2) + (1-p)p^2 \\ = p-2p^2+p^3+p^2-p^3 \\ = p-p^2 \\ = p(1-p) \\ 所以 \\ \operatorname{Var}(Y_i)=E\left[(Y_i-p)^{2}\right] = p(1-p) ``` * 使用以下性质: * 对于两个独立的随机变量 A 和 B,它们和的方差等于各自方差之和,即 ``Var(A+B)=Var(A)+Var(B)`` * 如果 X 是 n 个独立同分布的伯努利随机变量 Yi 的和,那么 ``X=Y1+Y2+...+Yn`` ,并且每个 Yi 的方差是 ``p(1−p)`` :: 二项分布 X 的方差 Var(X) 可以表示为: Var(X)=Var(Y1+Y2+...+Yn) =Var(Y1)+Var(Y2)+...+Var(Yn) 由于所有 Yi 都有相同的方差 p(1−p) ,我们得到: Var(X)=n⋅p(1−p) 这就是二项分布的方差公式:Var(X)=np(1−p) #### 直观理解 * 从直观上讲,方差 np(1−p) 反映了成功的不确定性。 * 当 p=0.5 时,不确定性最大,因为成功和失败的可能性相等;而当 p 接近 0 或 1 时,不确定性减小,因为结果更倾向于一边倒。 ### 泊松分布(稀疏事件近似) :: 当 𝑛→∞ 且 𝑝→0 且 𝑛𝑝=𝜆 为常数时,二项分布可以用泊松分布近似:𝑋∼Poisson(𝜆)X∼Poisson(λ)