条件概率与独立性 — 概率论基础

某私募的合规体检流程里有一项强制 HIV 筛查:某种检测试剂的灵敏度(sensitivity)99%、特异度(specificity)95%。一个员工拿到阳性报告,推门进来问"我得病的概率是不是 99%?"——医生告诉他大约 17%。表面上反直觉的差距,根源在于他混淆了两个量: $P(\text{阳性} \mid \text{患病})$ 与 $P(\text{患病} \mid \text{阳性})$ 。这一节把条件概率与贝叶斯公式这两件"信息更新"的核心工具讲清楚,顺手澄清"独立性"远比"互不影响"要严格的几个细节。

一、条件概率与乘法公式

设 $A, B$ 是同一样本空间 $\Omega$ 上的事件且 $P(B) > 0$ 。"在已知 $B$ 发生的条件下 $A$ 发生"的概率定义为

P(A \mid B) = \dfrac{P(A \cap B)}{P(B)}

直观上,知道 $B$ 后,样本空间从 $\Omega$ 收缩到 $B$ ,概率需要按 $P(B)$ 重新标准化。一个关键事实:对任意固定的 $B$ ,函数 $A \mapsto P(A \mid B)$ 本身就是 $\Omega$ 上的一个概率测度——三条 Kolmogorov 公理逐条都能验证。

把定义两边乘以 $P(B)$ 立刻得到乘法公式:

$P(A \cap B) = P(B) \cdot P(A \mid B)$

更一般地,链式版本: $P(A_1 \cap A_2 \cap \cdots \cap A_n) = P(A_1) \cdot P(A_2 \mid A_1) \cdot P(A_3 \mid A_1 \cap A_2) \cdots P(A_n \mid A_1 \cap \cdots \cap A_{n-1})$ 。

二、全概率公式与贝叶斯公式

设 $\{B_1, B_2, \ldots, B_k\}$ 是 $\Omega$ 的一个有限划分(两两不相交且并起来为 $\Omega$ ),每个 $P(B_i) > 0$ 。任何事件 $A$ 都被划分诱导拆开 $A = \bigcup_i (A \cap B_i)$ ,再用乘法公式得到

P(A) = \sum_{i=1}^{k} P(A \mid B_i)\,P(B_i)

这就是全概率公式(law of total probability)。读法:用每个"情境" $B_i$ 下 $A$ 的条件概率,按情境本身的概率加权求和。

把乘法公式和全概率公式凑在一起,就能反向回答"已知 $A$ 发生, $B_j$ 的概率是多少"。由 $P(B_j \mid A) \cdot P(A) = P(B_j \cap A) = P(A \mid B_j) \cdot P(B_j)$ :

P(B_j \mid A) = \dfrac{P(A \mid B_j)\,P(B_j)}{\sum_{i} P(A \mid B_i)\,P(B_i)}

这就是贝叶斯公式。分子是"似然(likelihood) $\times$ 先验(prior)",分母是全概率公式给出的归一化常数。

三、贝叶斯实战:筛查阳性的真实含义

回到开头的体检场景。记 $D$ 为"患病", $T$ 为"检测阳性"。已知:患病率 $P(D) = 0.01$ ;灵敏度 $P(T \mid D) = 0.99$ ;特异度 $P(T^c \mid D^c) = 0.95$ ,故假阳性率 $P(T \mid D^c) = 0.05$ 。求阳性预测值(positive predictive value, PPV) $P(D \mid T)$ :

\begin{aligned} P(D \mid T) &= \frac{P(T \mid D)\,P(D)}{P(T \mid D)\,P(D) + P(T \mid D^c)\,P(D^c)} \\ &= \frac{0.99 \cdot 0.01}{0.99 \cdot 0.01 + 0.05 \cdot 0.99} = \frac{0.0099}{0.0594} \approx 0.167. \end{aligned}

阳性后实际患病的概率约 16.7%——不是 99%。低基础发生率(base rate)把后验拉了下来:在 100 个真患者里检出 99 例阳性,但同一批 9 900 个健康人里也会有 495 例假阳性,后者数量级远高于前者。

四、独立性:两两独立 $\neq$ 相互独立

两事件 $A, B$ 独立的定义是 $P(A \cap B) = P(A) \cdot P(B)$ ;在 $P(B) > 0$ 时,等价于 $P(A \mid B) = P(A)$ ,即"知道 $B$ 对 $A$ 的概率无影响"。

把独立性推到三个及以上事件,情况立即微妙。事件集合 $\{A_1, \ldots, A_n\}$ 称为相互独立(mutually / jointly independent),当且仅当对任意 $k \geq 2$ 个事件的子集都满足乘积法则。仅"两两独立"是严格更弱的条件。

经典反例:抛两枚公平硬币得 $X, Y \in \{0, 1\}$ ,定义 $Z = X \oplus Y$ (异或)。三事件 $A = \{X = 1\}$ 、 $B = \{Y = 1\}$ 、 $C = \{Z = 1\}$ 各自概率 $1/2$ ,任两个的交概率均为 $1/4 = (1/2)^2$ ——两两独立。但 $A \cap B \cap C = \varnothing$ (若 $X = Y = 1$ 则 $Z = 0$ ),其概率为 $0 \neq (1/2)^3$ ——三者不相互独立。同济概率书里这条原文是" $X, Y, Z$ 两两独立但不相互独立"。

五、检察官谬误:把条件方向搞反

回到开头那位员工的困惑——他把 $P(T \mid D) = 99\%$ 当成了 $P(D \mid T) = 99\%$ ,这正是检察官谬误(prosecutor's fallacy)。司法领域里,把"如果嫌疑人无罪,出现该证据的概率是百万分之一"误读为"嫌疑人有罪的概率是 999999/1000000",是同一类错误。两者的关系由贝叶斯公式严格给出,差一个先验:若先验本就极低(罕见病、嫌疑人为大基数人群之一),后验仍可能很小。任何时候要交换条件方向,你都欠贝叶斯一道乘法。

六、练习

Exercise

一个袋里装 2 枚公平硬币和 1 枚两面都是"正"的偏心硬币。你随机摸出一枚,连掷两次,都得正面。求这枚硬币是偏心硬币的概率。

提示

设事件

B

为"摸到偏心硬币",

A

为"两次都正"。先验

P(B) = 1/3

;条件概率

P(A \mid B) = 1

,而

P(A \mid B^c) = 1/4

。剩下的就是套贝叶斯公式。

提示

分母

P(A) = 1 \cdot 1/3 + 1/4 \cdot 2/3 = 1/3 + 1/6 = 1/2

;分子

P(A \mid B)P(B) = 1/3

。故所求概率

P(B \mid A) = (1/3)/(1/2) = 2/3

。

七、通往下一节

至此你掌握了"信息到达后概率如何更新"这一最核心的算法,以及独立性比直觉所暗示的要严格的事实。下一节把视角从事件转到随机变量(random variable):不再问"事件 $A$ 是否发生",而是问"数值 $X$ 取了多少"。你将看到为什么把样本空间映成实数后,Bernoulli、Binomial、Poisson、Normal 这一组命名分布会自然涌现——后续模块用它们建模一切,从沪深300 日收益的近似正态,到信用违约事件的泊松到达。