某私募的合规体检流程里有一项强制 HIV 筛查:某种检测试剂的灵敏度(sensitivity)99%、特异度(specificity)95%。一个员工拿到阳性报告,推门进来问"我得病的概率是不是 99%?"——医生告诉他大约 17%。表面上反直觉的差距,根源在于他混淆了两个量:P(阳性∣患病) 与 P(患病∣阳性)。这一节把条件概率与贝叶斯公式这两件"信息更新"的核心工具讲清楚,顺手澄清"独立性"远比"互不影响"要严格的几个细节。
一、条件概率与乘法公式
设 A,B 是同一样本空间 Ω 上的事件且 P(B)>0。"在已知 B 发生的条件下 A 发生"的概率定义为
P(A∣B)=P(B)P(A∩B)
直观上,知道 B 后,样本空间从 Ω 收缩到 B,概率需要按 P(B) 重新标准化。一个关键事实:对任意固定的 B,函数 A↦P(A∣B) 本身就是 Ω 上的一个概率测度——三条 Kolmogorov 公理逐条都能验证。
把定义两边乘以 P(B) 立刻得到乘法公式:
P(A∩B)=P(B)⋅P(A∣B)
更一般地,链式版本:P(A1∩A2∩⋯∩An)=P(A1)⋅P(A2∣A1)⋅P(A3∣A1∩A2)⋯P(An∣A1∩⋯∩An−1)。
二、全概率公式与贝叶斯公式
设 {B1,B2,…,Bk} 是 Ω 的一个有限划分(两两不相交且并起来为 Ω),每个 P(Bi)>0。任何事件 A 都被划分诱导拆开 A=⋃i(A∩Bi),再用乘法公式得到
P(A)=i=1∑kP(A∣Bi)P(Bi)
这就是全概率公式(law of total probability)。读法:用每个"情境" Bi 下 A 的条件概率,按情境本身的概率加权求和。
把乘法公式和全概率公式凑在一起,就能反向回答"已知 A 发生,Bj 的概率是多少"。由 P(Bj∣A)⋅P(A)=P(Bj∩A)=P(A∣Bj)⋅P(Bj):
P(Bj∣A)=∑iP(A∣Bi)P(Bi)P(A∣Bj)P(Bj)
这就是贝叶斯公式。分子是"似然(likelihood) × 先验(prior)",分母是全概率公式给出的归一化常数。
三、贝叶斯实战:筛查阳性的真实含义
回到开头的体检场景。记 D 为"患病",T 为"检测阳性"。已知:患病率 P(D)=0.01;灵敏度 P(T∣D)=0.99;特异度 P(Tc∣Dc)=0.95,故假阳性率 P(T∣Dc)=0.05。求阳性预测值(positive predictive value, PPV)P(D∣T):
P(D∣T)=P(T∣D)P(D)+P(T∣Dc)P(Dc)P(T∣D)P(D)=0.99⋅0.01+0.05⋅0.990.99⋅0.01=0.05940.0099≈0.167.
阳性后实际患病的概率约 16.7%——不是 99%。低基础发生率(base rate)把后验拉了下来:在 100 个真患者里检出 99 例阳性,但同一批 9 900 个健康人里也会有 495 例假阳性,后者数量级远高于前者。
四、独立性:两两独立 = 相互独立
两事件 A,B 独立的定义是 P(A∩B)=P(A)⋅P(B);在 P(B)>0 时,等价于 P(A∣B)=P(A),即"知道 B 对 A 的概率无影响"。
把独立性推到三个及以上事件,情况立即微妙。事件集合 {A1,…,An} 称为相互独立(mutually / jointly independent),当且仅当对任意 k≥2 个事件的子集都满足乘积法则。仅"两两独立"是严格更弱的条件。
经典反例:抛两枚公平硬币得 X,Y∈{0,1},定义 Z=X⊕Y(异或)。三事件 A={X=1}、B={Y=1}、C={Z=1} 各自概率 1/2,任两个的交概率均为 1/4=(1/2)2——两两独立。但 A∩B∩C=∅(若 X=Y=1 则 Z=0),其概率为 0=(1/2)3——三者不相互独立。同济概率书里这条原文是"X,Y,Z 两两独立但不相互独立"。
五、检察官谬误:把条件方向搞反
回到开头那位员工的困惑——他把 P(T∣D)=99% 当成了 P(D∣T)=99%,这正是检察官谬误(prosecutor's fallacy)。司法领域里,把"如果嫌疑人无罪,出现该证据的概率是百万分之一"误读为"嫌疑人有罪的概率是 999999/1000000",是同一类错误。两者的关系由贝叶斯公式严格给出,差一个先验:若先验本就极低(罕见病、嫌疑人为大基数人群之一),后验仍可能很小。任何时候要交换条件方向,你都欠贝叶斯一道乘法。
六、练习
Exercise
一个袋里装 2 枚公平硬币和 1 枚两面都是"正"的偏心硬币。你随机摸出一枚,连掷两次,都得正面。求这枚硬币是偏心硬币的概率。
提示
设事件
B 为"摸到偏心硬币",
A 为"两次都正"。先验
P(B)=1/3;条件概率
P(A∣B)=1,而
P(A∣Bc)=1/4。剩下的就是套贝叶斯公式。
提示
分母
P(A)=1⋅1/3+1/4⋅2/3=1/3+1/6=1/2;分子
P(A∣B)P(B)=1/3。故所求概率
P(B∣A)=(1/3)/(1/2)=2/3。
七、通往下一节
至此你掌握了"信息到达后概率如何更新"这一最核心的算法,以及独立性比直觉所暗示的要严格的事实。下一节把视角从事件转到随机变量(random variable):不再问"事件 A 是否发生",而是问"数值 X 取了多少"。你将看到为什么把样本空间映成实数后,Bernoulli、Binomial、Poisson、Normal 这一组命名分布会自然涌现——后续模块用它们建模一切,从沪深300 日收益的近似正态,到信用违约事件的泊松到达。