← 返回模块
2.1.1.2beta 可读 · 未来免费校验通过内容版本 2026-05-26

条件概率与独立性

2.1.1 · 概率论基础 · 数学与统计能力

某私募的合规体检流程里有一项强制 HIV 筛查:某种检测试剂的灵敏度(sensitivity)99%、特异度(specificity)95%。一个员工拿到阳性报告,推门进来问"我得病的概率是不是 99%?"——医生告诉他大约 17%。表面上反直觉的差距,根源在于他混淆了两个量:P(阳性患病)P(\text{阳性} \mid \text{患病})P(患病阳性)P(\text{患病} \mid \text{阳性})。这一节把条件概率与贝叶斯公式这两件"信息更新"的核心工具讲清楚,顺手澄清"独立性"远比"互不影响"要严格的几个细节。

一、条件概率与乘法公式

A,BA, B 是同一样本空间 Ω\Omega 上的事件且 P(B)>0P(B) > 0。"在已知 BB 发生的条件下 AA 发生"的概率定义为

P(AB)=P(AB)P(B)P(A \mid B) = \dfrac{P(A \cap B)}{P(B)}

直观上,知道 BB 后,样本空间从 Ω\Omega 收缩到 BB,概率需要按 P(B)P(B) 重新标准化。一个关键事实:对任意固定的 BB,函数 AP(AB)A \mapsto P(A \mid B) 本身就是 Ω\Omega 上的一个概率测度——三条 Kolmogorov 公理逐条都能验证。

把定义两边乘以 P(B)P(B) 立刻得到​​乘法公式​​:

P(AB)=P(B)P(AB)P(A \cap B) = P(B) \cdot P(A \mid B)

更一般地,链式版本:P(A1A2An)=P(A1)P(A2A1)P(A3A1A2)P(AnA1An1)P(A_1 \cap A_2 \cap \cdots \cap A_n) = P(A_1) \cdot P(A_2 \mid A_1) \cdot P(A_3 \mid A_1 \cap A_2) \cdots P(A_n \mid A_1 \cap \cdots \cap A_{n-1})

二、全概率公式与贝叶斯公式

{B1,B2,,Bk}\{B_1, B_2, \ldots, B_k\}Ω\Omega 的一个​​有限划分​​(两两不相交且并起来为 Ω\Omega),每个 P(Bi)>0P(B_i) > 0。任何事件 AA 都被划分诱导拆开 A=i(ABi)A = \bigcup_i (A \cap B_i),再用乘法公式得到

P(A)=i=1kP(ABi)P(Bi)P(A) = \sum_{i=1}^{k} P(A \mid B_i)\,P(B_i)

这就是​​全概率公式​​(law of total probability)。读法:用每个"情境" BiB_iAA 的条件概率,按情境本身的概率加权求和。

把乘法公式和全概率公式凑在一起,就能反向回答"已知 AA 发生,BjB_j 的概率是多少"。由 P(BjA)P(A)=P(BjA)=P(ABj)P(Bj)P(B_j \mid A) \cdot P(A) = P(B_j \cap A) = P(A \mid B_j) \cdot P(B_j):

P(BjA)=P(ABj)P(Bj)iP(ABi)P(Bi)P(B_j \mid A) = \dfrac{P(A \mid B_j)\,P(B_j)}{\sum_{i} P(A \mid B_i)\,P(B_i)}

这就是​​贝叶斯公式​​。分子是"似然(likelihood) ×\times 先验(prior)",分母是全概率公式给出的归一化常数。

三、贝叶斯实战:筛查阳性的真实含义

回到开头的体检场景。记 DD 为"患病",TT 为"检测阳性"。已知:患病率 P(D)=0.01P(D) = 0.01;灵敏度 P(TD)=0.99P(T \mid D) = 0.99;特异度 P(TcDc)=0.95P(T^c \mid D^c) = 0.95,故假阳性率 P(TDc)=0.05P(T \mid D^c) = 0.05。求​​阳性预测值​​(positive predictive value, PPV)P(DT)P(D \mid T):

P(DT)=P(TD)P(D)P(TD)P(D)+P(TDc)P(Dc)=0.990.010.990.01+0.050.99=0.00990.05940.167.\begin{aligned} P(D \mid T) &= \frac{P(T \mid D)\,P(D)}{P(T \mid D)\,P(D) + P(T \mid D^c)\,P(D^c)} \\ &= \frac{0.99 \cdot 0.01}{0.99 \cdot 0.01 + 0.05 \cdot 0.99} = \frac{0.0099}{0.0594} \approx 0.167. \end{aligned}

阳性后实际患病的概率约 16.7%——不是 99%。低​​基础发生率​​(base rate)把后验拉了下来:在 100 个真患者里检出 99 例阳性,但同一批 9 900 个健康人里也会有 495 例假阳性,后者数量级远高于前者。

四、独立性:两两独立 \neq 相互独立

两事件 A,BA, B ​独立​​的定义是 P(AB)=P(A)P(B)P(A \cap B) = P(A) \cdot P(B);在 P(B)>0P(B) > 0 时,等价于 P(AB)=P(A)P(A \mid B) = P(A),即"知道 BBAA 的概率无影响"。

把独立性推到三个及以上事件,情况立即微妙。事件集合 {A1,,An}\{A_1, \ldots, A_n\} 称为​​相互独立​​(mutually / jointly independent),当且仅当对任意 k2k \geq 2 个事件的子集都满足乘积法则。仅"两两独立"是严格更弱的条件。

​经典反例​​:抛两枚公平硬币得 X,Y{0,1}X, Y \in \{0, 1\},定义 Z=XYZ = X \oplus Y(异或)。三事件 A={X=1}A = \{X = 1\}B={Y=1}B = \{Y = 1\}C={Z=1}C = \{Z = 1\} 各自概率 1/21/2,任两个的交概率均为 1/4=(1/2)21/4 = (1/2)^2——​​两两独立​​。但 ABC=A \cap B \cap C = \varnothing(若 X=Y=1X = Y = 1Z=0Z = 0),其概率为 0(1/2)30 \neq (1/2)^3——三者​​不相互独立​​。同济概率书里这条原文是"X,Y,ZX, Y, Z 两两独立但不相互独立"。

五、检察官谬误:把条件方向搞反

回到开头那位员工的困惑——他把 P(TD)=99%P(T \mid D) = 99\% 当成了 P(DT)=99%P(D \mid T) = 99\%,这正是​​检察官谬误​​(prosecutor's fallacy)。司法领域里,把"如果嫌疑人无罪,出现该证据的概率是百万分之一"误读为"嫌疑人有罪的概率是 999999/1000000",是同一类错误。两者的关系由贝叶斯公式严格给出,差一个先验:若先验本就极低(罕见病、嫌疑人为大基数人群之一),后验仍可能很小。任何时候要交换条件方向,你都欠贝叶斯一道乘法。

六、练习

Exercise

一个袋里装 2 枚公平硬币和 1 枚两面都是"正"的偏心硬币。你随机摸出一枚,连掷两次,都得正面。求这枚硬币是偏心硬币的概率。

提示
设事件 BB 为"摸到偏心硬币",AA 为"两次都正"。先验 P(B)=1/3P(B) = 1/3;条件概率 P(AB)=1P(A \mid B) = 1,而 P(ABc)=1/4P(A \mid B^c) = 1/4。剩下的就是套贝叶斯公式。
提示
分母 P(A)=11/3+1/42/3=1/3+1/6=1/2P(A) = 1 \cdot 1/3 + 1/4 \cdot 2/3 = 1/3 + 1/6 = 1/2;分子 P(AB)P(B)=1/3P(A \mid B)P(B) = 1/3。故所求概率 P(BA)=(1/3)/(1/2)=2/3P(B \mid A) = (1/3)/(1/2) = 2/3

七、通往下一节

至此你掌握了"信息到达后概率如何更新"这一最核心的算法,以及独立性比直觉所暗示的要严格的事实。下一节把视角从事件转到​​随机变量​​(random variable):不再问"事件 AA 是否发生",而是问"数值 XX 取了多少"。你将看到为什么把样本空间映成实数后,Bernoulli、Binomial、Poisson、Normal 这一组命名分布会自然涌现——后续模块用它们建模一切,从沪深300 日收益的近似正态,到信用违约事件的泊松到达。