分布-二项分布¶
二项分布是一种离散概率分布,用于描述在 𝑛 次独立重复试验中,事件成功的次数 𝑋。每次试验只有两个可能结果(例如“成功”或“失败”),且成功的概率为 𝑝,失败的概率为 1−𝑝。
定义¶
随机变量 𝑋 表示 𝑛 次独立试验中成功的次数。
如果 𝑋X 服从二项分布,则记为:
\[𝑋∼Binomial(𝑛,𝑝)\]
说明:
𝑛:试验的总次数(正整数)
𝑝:单次试验成功的概率(0≤𝑝≤10≤p≤1)
1−𝑝:单次试验失败的概率
概率质量函数¶
\[ \begin{align}\begin{aligned}P(X=k)=\binom{n}{k} p^{k}(1-p)^{n-k}, \quad k \in\{0,1, \ldots, n\}\\表示在 n 次试验中成功 k 次的概率。\end{aligned}\end{align} \]
图形特性¶
对称性:
当 𝑝=0.5 时,二项分布是对称的。
当 𝑝≠0.5 时,分布向成功概率较高的一侧倾斜
收敛性:
当 𝑛→∞ 且 𝑝 固定时,二项分布逐渐趋近于正态分布。
与其他分布的关系¶
伯努利分布:
伯努利分布是二项分布的特例。
当 𝑛=1 时,Binomial(𝑛=1,𝑝)=Bernoulli(𝑝)
正态分布(大样本近似)¶
当 𝑛→∞ 且成功的概率 p 不接近于 0 或 1 时,二项分布可以用正态分布近似: N(μ,σ)
\[\begin{split}𝑋 ∼ \mathcal{𝑁}(𝑛𝑝,\sqrt{𝑛𝑝(1−𝑝)}) \\
其中: \\
μ=np \\
σ=\sqrt{𝑛𝑝(1−𝑝)}\end{split}\]
方差的计算过程¶
一个伯努利随机变量 Yi 只有两个可能的结果:成功(通常记为1)或失败(通常记为0)。设成功的概率为 p,则失败的概率为 1−p。
单个 Yi 的期望值:
E[Yi]=1⋅p+0⋅(1−p)=p 说明: 如果 Yi 成功,则它的贡献为 1(概率p) 如果 Yi 失败,则它的贡献为 0(概率1−p) 因此总期望值为 p
单个 Yi 的方差:
因为 Yi 的取值只能是 0 或 1,所以 Yi^2=Yi 因此
\[E[Y_i^2]=E[Y_i]=p\]
使用方差的公式
\[\begin{split}\begin{array}{l}
\operatorname{Var}(Y_i)=E\left[(Y_i-\mu)^{2}\right] \\
=E\left[(Y_i-p)^{2}\right] \\
\end{array}\end{split}\]
由于 Yi 是一个伯努利随机变量,它只有两个可能的取值:0 或 1。
我们可以分别计算这两种情况下的 \((Yi−p)^2\) 的期望值,然后加权求和。
\[\begin{split}当 Yi=1 时,(Y_i−p)^2=(1−p)^2 ,这种情况发生的概率是 p \\
当 Yi=0 时,(Y_i−p)^2=(−p)2=p^2,这种情况发生的概率是 1−p \\
因此 \\
E\left[(Y_i-p)^{2}\right] = p(1-p)^2 + (1-p)*p^2 \\
= p(1-2p+p^2) + (1-p)p^2 \\
= p-2p^2+p^3+p^2-p^3 \\
= p-p^2 \\
= p(1-p) \\
所以 \\
\operatorname{Var}(Y_i)=E\left[(Y_i-p)^{2}\right]
= p(1-p)\end{split}\]
- 使用以下性质:
对于两个独立的随机变量 A 和 B,它们和的方差等于各自方差之和,即
Var(A+B)=Var(A)+Var(B)
如果 X 是 n 个独立同分布的伯努利随机变量 Yi 的和,那么
X=Y1+Y2+...+Yn
,并且每个 Yi 的方差是p(1−p)
二项分布 X 的方差 Var(X) 可以表示为:
Var(X)=Var(Y1+Y2+...+Yn)
=Var(Y1)+Var(Y2)+...+Var(Yn)
由于所有 Yi 都有相同的方差 p(1−p) ,我们得到:
Var(X)=n⋅p(1−p)
这就是二项分布的方差公式:Var(X)=np(1−p)
直观理解¶
从直观上讲,方差 np(1−p) 反映了成功的不确定性。
当 p=0.5 时,不确定性最大,因为成功和失败的可能性相等;而当 p 接近 0 或 1 时,不确定性减小,因为结果更倾向于一边倒。
泊松分布(稀疏事件近似)¶
当 𝑛→∞ 且 𝑝→0 且 𝑛𝑝=𝜆 为常数时,二项分布可以用泊松分布近似:𝑋∼Poisson(𝜆)X∼Poisson(λ)