分布-二项分布

  • 二项分布是一种离散概率分布,用于描述在 𝑛 次独立重复试验中,事件成功的次数 𝑋。每次试验只有两个可能结果(例如“成功”或“失败”),且成功的概率为 𝑝,失败的概率为 1−𝑝。

定义

  • 随机变量 𝑋 表示 𝑛 次独立试验中成功的次数。

  • 如果 𝑋X 服从二项分布,则记为:

𝑋Binomial(𝑛,𝑝)

说明:

𝑛:试验的总次数(正整数)
𝑝:单次试验成功的概率(0≤𝑝≤10≤p≤1)
1−𝑝:单次试验失败的概率

概率质量函数

P(X=k)=(nk)pk(1p)nk,k{0,1,,n}nk

图形特性

对称性:

当 𝑝=0.5 时,二项分布是对称的。
当 𝑝≠0.5 时,分布向成功概率较高的一侧倾斜

收敛性:

当 𝑛→∞ 且 𝑝 固定时,二项分布逐渐趋近于正态分布。

与其他分布的关系

伯努利分布:

伯努利分布是二项分布的特例。
当 𝑛=1 时,Binomial(𝑛=1,𝑝)=Bernoulli(𝑝)

正态分布(大样本近似)

当 𝑛→∞ 且成功的概率 p 不接近于 0 或 1 时,二项分布可以用正态分布近似: N(μ,σ)
𝑋𝑁(𝑛𝑝,𝑛𝑝(1𝑝)):μ=npσ=𝑛𝑝(1𝑝)

方差的计算过程

  • 一个伯努利随机变量 Yi 只有两个可能的结果:成功(通常记为1)或失败(通常记为0)。设成功的概率为 p,则失败的概率为 1−p。

  • 单个 Yi 的期望值:

    E[Yi]=1⋅p+0⋅(1−p)=p
    说明:
    如果 Yi 成功,则它的贡献为 1(概率p)
    如果 Yi 失败,则它的贡献为 0(概率1−p)
    因此总期望值为 p
    
  • 单个 Yi 的方差:

    因为 Yi  的取值只能是 0 或 1,所以 Yi^2=Yi
    因此
    
E[Yi2]=E[Yi]=p
  • 使用方差的公式

Var(Yi)=E[(Yiμ)2]=E[(Yip)2]
  • 由于 Yi 是一个伯努利随机变量,它只有两个可能的取值:0 或 1。

  • 我们可以分别计算这两种情况下的 (Yip)2 的期望值,然后加权求和。

Yi=1(Yip)2=(1p)2pYi=0(Yip)2=(p)2=p21pE[(Yip)2]=p(1p)2+(1p)p2=p(12p+p2)+(1p)p2=p2p2+p3+p2p3=pp2=p(1p)Var(Yi)=E[(Yip)2]=p(1p)
  • 使用以下性质:
    • 对于两个独立的随机变量 A 和 B,它们和的方差等于各自方差之和,即 Var(A+B)=Var(A)+Var(B)

    • 如果 X 是 n 个独立同分布的伯努利随机变量 Yi 的和,那么 X=Y1+Y2+...+Yn ,并且每个 Yi 的方差是 p(1−p)

二项分布 X 的方差 Var(X) 可以表示为:
Var(X)=Var(Y1+Y2+...+Yn)
      =Var(Y1)+Var(Y2)+...+Var(Yn)
由于所有 Yi 都有相同的方差 p(1−p) ,我们得到:
Var(X)=n⋅p(1−p)

这就是二项分布的方差公式:Var(X)=np(1−p)

直观理解

  • 从直观上讲,方差 np(1−p) 反映了成功的不确定性。

  • 当 p=0.5 时,不确定性最大,因为成功和失败的可能性相等;而当 p 接近 0 或 1 时,不确定性减小,因为结果更倾向于一边倒。

泊松分布(稀疏事件近似)

当 𝑛→∞ 且 𝑝→0 且 𝑛𝑝=𝜆 为常数时,二项分布可以用泊松分布近似:𝑋∼Poisson(𝜆)X∼Poisson(λ)