分布-二项分布 ############# * 二项分布是一种离散概率分布,用于描述在 𝑛 次独立重复试验中,事件成功的次数 𝑋。每次试验只有两个可能结果(例如“成功”或“失败”),且成功的概率为 𝑝,失败的概率为 1−𝑝。 定义 ==== * 随机变量 𝑋 表示 𝑛 次独立试验中成功的次数。 * 如果 𝑋X 服从二项分布,则记为: .. math:: 𝑋∼Binomial(𝑛,𝑝) 说明:: 𝑛:试验的总次数(正整数) 𝑝:单次试验成功的概率(0≤𝑝≤10≤p≤1) 1−𝑝:单次试验失败的概率 概率质量函数 ============ .. math:: P(X=k)=\binom{n}{k} p^{k}(1-p)^{n-k}, \quad k \in\{0,1, \ldots, n\} 表示在 n 次试验中成功 k 次的概率。 图形特性 ======== 对称性:: 当 𝑝=0.5 时,二项分布是对称的。 当 𝑝≠0.5 时,分布向成功概率较高的一侧倾斜 收敛性:: 当 𝑛→∞ 且 𝑝 固定时,二项分布逐渐趋近于正态分布。 与其他分布的关系 ================ 伯努利分布:: 伯努利分布是二项分布的特例。 当 𝑛=1 时,Binomial(𝑛=1,𝑝)=Bernoulli(𝑝) 正态分布(大样本近似) -------------------- :: 当 𝑛→∞ 且成功的概率 p 不接近于 0 或 1 时,二项分布可以用正态分布近似: N(μ,σ) .. math:: 𝑋 ∼ \mathcal{𝑁}(𝑛𝑝,\sqrt{𝑛𝑝(1−𝑝)}) \\ 其中: \\ μ=np \\ σ=\sqrt{𝑛𝑝(1−𝑝)} 方差的计算过程 ^^^^^^^^^^^^^^ * 一个伯努利随机变量 Yi 只有两个可能的结果:成功(通常记为1)或失败(通常记为0)。设成功的概率为 p,则失败的概率为 1−p。 * 单个 Yi 的期望值:: E[Yi]=1⋅p+0⋅(1−p)=p 说明: 如果 Yi 成功,则它的贡献为 1(概率p) 如果 Yi 失败,则它的贡献为 0(概率1−p) 因此总期望值为 p * 单个 Yi 的方差:: 因为 Yi 的取值只能是 0 或 1,所以 Yi^2=Yi 因此 .. math:: E[Y_i^2]=E[Y_i]=p * 使用方差的公式 .. math:: \begin{array}{l} \operatorname{Var}(Y_i)=E\left[(Y_i-\mu)^{2}\right] \\ =E\left[(Y_i-p)^{2}\right] \\ \end{array} * 由于 Yi 是一个伯努利随机变量,它只有两个可能的取值:0 或 1。 * 我们可以分别计算这两种情况下的 :math:`(Yi−p)^2` 的期望值,然后加权求和。 .. math:: 当 Yi=1 时,(Y_i−p)^2=(1−p)^2 ,这种情况发生的概率是 p \\ 当 Yi=0 时,(Y_i−p)^2=(−p)2=p^2,这种情况发生的概率是 1−p \\ 因此 \\ E\left[(Y_i-p)^{2}\right] = p(1-p)^2 + (1-p)*p^2 \\ = p(1-2p+p^2) + (1-p)p^2 \\ = p-2p^2+p^3+p^2-p^3 \\ = p-p^2 \\ = p(1-p) \\ 所以 \\ \operatorname{Var}(Y_i)=E\left[(Y_i-p)^{2}\right] = p(1-p) * 使用以下性质: * 对于两个独立的随机变量 A 和 B,它们和的方差等于各自方差之和,即 ``Var(A+B)=Var(A)+Var(B)`` * 如果 X 是 n 个独立同分布的伯努利随机变量 Yi 的和,那么 ``X=Y1+Y2+...+Yn`` ,并且每个 Yi 的方差是 ``p(1−p)`` :: 二项分布 X 的方差 Var(X) 可以表示为: Var(X)=Var(Y1+Y2+...+Yn) =Var(Y1)+Var(Y2)+...+Var(Yn) 由于所有 Yi 都有相同的方差 p(1−p) ,我们得到: Var(X)=n⋅p(1−p) 这就是二项分布的方差公式:Var(X)=np(1−p) 直观理解 ^^^^^^^^ * 从直观上讲,方差 np(1−p) 反映了成功的不确定性。 * 当 p=0.5 时,不确定性最大,因为成功和失败的可能性相等;而当 p 接近 0 或 1 时,不确定性减小,因为结果更倾向于一边倒。 泊松分布(稀疏事件近似) ---------------------- :: 当 𝑛→∞ 且 𝑝→0 且 𝑛𝑝=𝜆 为常数时,二项分布可以用泊松分布近似:𝑋∼Poisson(𝜆)X∼Poisson(λ)