条件分布与随机变量的独立性 — 条件分布与联合分布

某宏观对冲基金的量化研究员盯着一张散点图:横轴是沪深300 ETF 的日收益率,纵轴是 50ETF 隐含波动率指数的日变动。两个边缘分布他已经会读了——沪深300 日收益大致呈钟形,IV 指数日变动则厚尾且偏负。他真正想问的却是条件问题:当沪深300 刚刚打出 -2% 的盘面之后,IV 指数变动的分布长什么样?这个对象既不是边缘 X 的分布,也不是边缘 Y 的分布,它是一个真正新的对象——条件分布(conditional distribution)。这一节把 2.1.1 模块里以事件为单位的条件概率,提升到以随机变量为单位的条件分布;把独立性正式定义在它该在的位置——联合分布的水平上;并给你一条以密度形式写出的贝叶斯公式(Bayes' rule),它是后续模块里每一个参数化贝叶斯模型的底层引擎,包括上证 50ETF 期权链每天估出的条件收益率密度与一切下游经验密度推断。

一、离散情形:条件分布律即两个分布律之比

设 $(X, Y)$ 是离散随机变量, $p_Y(y) > 0$ ,条件分布律(conditional pmf)定义为

p_{X \mid Y}(x \mid y) = \dfrac{p_{X,Y}(x, y)}{p_Y(y)}

固定 $y$ ,把 $x \mapsto p_{X \mid Y}(x \mid y)$ 视为关于 $x$ 的函数:它本身就是一个合格的分布律——非负且和为 1,因为 $\sum_x p_{X,Y}(x, y) = p_Y(y)$ 正是边缘化。分母 $p_Y(y)$ 只是一个规范化常数,把"联合分布在 $Y = y$ 这一切片上的那部分质量"重新归一回 1。

两骰子例,继续。沿用第 1 节: $X$ 表示第一颗骰子点数, $Y$ 表示两骰子之和。在 $Y = 7$ 的条件下求 $X$ 的条件分布律。联合表告诉你哪些 $(x, 7)$ 格子有质量 $1/36$ : $(1, 7), (2, 7), (3, 7), (4, 7), (5, 7), (6, 7)$ ——共六个,因为对任一第一颗 $x \in \{1, \dots, 6\}$ ,第二颗必须落在 $7 - x \in \{1, \dots, 6\}$ 。所以 $p_Y(7) = 6/36 = 1/6$ ,

$p_{X \mid Y}(x \mid 7) = \dfrac{1/36}{1/6} = \tfrac{1}{6},\quad x = 1, \dots, 6.$

在两骰子和为 7 的条件下,第一颗骰子仍均匀分布在 $\{1, \dots, 6\}$ 上——这与直觉一致,因为 7 恰好是任何第一颗取值都能"被另一颗补齐"达到的对称中点。

二、连续情形:条件密度即两个密度之比

设 $(X, Y)$ 是连续随机变量, $f_Y(y) > 0$ ,条件密度(conditional pdf)定义为

f_{X \mid Y}(x \mid y) = \dfrac{f_{X,Y}(x, y)}{f_Y(y)}

连续情形需要一句警示:事件 $\{Y = y\}$ 在连续随机变量上概率为零,因此事件级公式 $P(A \mid B) = P(A \cap B) / P(B)$ 字面上无法直接套用。我们改为定义 "条件密度即联合密度除以边缘密度",并验证两条性质:(i) 非负,因为 $f_{X,Y} \geq 0$ ;(ii) 固定 $y$ ,在 $x$ 上的积分为 1——

$\int f_{X \mid Y}(x \mid y)\, dx = \int \dfrac{f_{X,Y}(x, y)}{f_Y(y)}\, dx = \dfrac{f_Y(y)}{f_Y(y)} = 1.$

直觉上的极限论证(把条件取为 $\{y \leq Y \leq y + dy\}$ ,再让 $dy \to 0$ )说明此定义为何"对"。完全严格的测度论解决方案——正则条件概率(regular conditional probability)——留到高等概率论,本节不展开。

三、密度的乘法公式与贝叶斯公式

把条件密度的定义两端乘以 $f_Y(y)$ ,即得密度的乘法公式,两个对称形式:

f_{X,Y}(x, y) = f_{X \mid Y}(x \mid y)\,f_Y(y) = f_{Y \mid X}(y \mid x)\,f_X(x)

将右边两式相等,两边除以 $f_Y(y) > 0$ ,得密度形式的贝叶斯公式:

f_{X \mid Y}(x \mid y) = \dfrac{f_{Y \mid X}(y \mid x)\,f_X(x)}{\int f_{Y \mid X}(y \mid x')\,f_X(x')\,dx'}

分母是边缘证据(marginal evidence) $f_Y(y)$ ,由对潜变量 $x'$ 积分得到。它与你在 2.1.1 模块里见到的事件级 Bayes 在结构上完全相同——只是把概率换成了密度,把求和换成了积分。

四、随机变量的独立性

独立性最干净的定义放在联合分布函数水平上:

F_{X,Y}(x, y) = F_X(x)\,F_Y(y)\ \text{对所有 } (x, y),\quad\text{等价地}\quad f_{X,Y}(x, y) = f_X(x)\,f_Y(y)

等价性来自对 CDF 恒等式在 $x, y$ 上分别求偏导得到密度的乘积分解;离散版即 $p_{X,Y}(x, y) = p_X(x)\,p_Y(y)$ 。注意立即推出的事实:独立条件下, $f_{X \mid Y}(x \mid y) = f_{X,Y}(x, y)/f_Y(y) = f_X(x)\,f_Y(y)/f_Y(y) = f_X(x)$ ——条件密度退化为边缘密度,正是"知道 $Y$ 对 $X$ 一无所获"的精确数学表达。

独立性的定义自然推广到 $n$ 个变量: $X_1, \dots, X_n$ 相互独立 当且仅当联合分解为边缘乘积, $f_{X_1, \dots, X_n}(x_1, \dots, x_n) = \prod_{i=1}^n f_{X_i}(x_i)$ 。注意"相互独立"严格强于 2.1.1 模块第 2 节里事件水平的"两两独立"。此外独立性在函数变换下保持:若 $X$ 与 $Y$ 独立,则对任意可测函数 $g, h$ , $g(X)$ 与 $h(Y)$ 也独立,因为 $g(X)$ 只是 $X$ 的函数,不携带关于 $Y$ 的任何信息。

一条重要警示,下节正式展开。独立性严格强于不相关性 $\mathrm{Cov}(X, Y) = 0$ 。存在 $(X, Y)$ 满足协方差为零却仍然存在确定性函数关系——经典反例为 $X \sim U(-1, 1)$ , $Y = X^2$ ,此时 $E[XY] = E[X^3] = 0$ (由 $X$ 的对称性),故 $\mathrm{Cov}(X, Y) = 0$ ,但 $Y$ 完全由 $X$ 决定。独立 $\Rightarrow$ 不相关;不相关 $\not\Rightarrow$ 独立。第 3 节会把这一不对称性彻底拆开;此处只需记:课本里说的"独立"指联合分解,而不是协方差为零这一弱条件。

五、贝叶斯推断例题:指数先验 + 泊松观测

本节的高潮例题是 Gamma-Poisson 共轭对(conjugate pair),在 Casella & Berger Example 4.4.1 与茆诗松《概率论与数理统计教程》中均有原型。设 $X \sim \mathrm{Exponential}(\lambda)$ 为先验(prior, $\lambda$ 已知),其密度为 $f_X(x) = \lambda e^{-\lambda x}$ , $x > 0$ 。给定 $X = x$ ,观测 $Y \sim \mathrm{Poisson}(x)$ : $p_{Y \mid X}(y \mid x) = x^y e^{-x} / y!$ , $y = 0, 1, 2, \dots$ 。已观测到单次 $Y = y$ ,求后验 $X \mid Y = y$ 的分布。

联合密度: $f_{X,Y}(x, y) = f_{Y \mid X}(y \mid x)\,f_X(x) = \dfrac{x^y e^{-x}}{y!} \cdot \lambda e^{-\lambda x} = \dfrac{\lambda}{y!}\,x^y e^{-(\lambda + 1) x}$ , $x > 0$ 。
应用 Bayes: $f_{X \mid Y}(x \mid y) \propto f_{X,Y}(x, y) \propto x^y e^{-(\lambda + 1) x}$ , $x > 0$ 。这是 Gamma 核(Gamma kernel),形状参数 $y + 1$ ,率参数 $\lambda + 1$ 。
归一化:Gamma $(y + 1, \lambda + 1)$ 密度为 $f(x) = \dfrac{(\lambda + 1)^{y+1}}{y!} x^{y} e^{-(\lambda + 1) x}$ ,故后验恰为

$f_{X \mid Y = y}(x) = \dfrac{(\lambda + 1)^{y+1}}{y!}\,x^{y} e^{-(\lambda + 1) x},\quad x > 0.$

即 $X \mid Y = y \sim \mathrm{Gamma}(y + 1,\ \lambda + 1)$ 。这正是 Gamma-Poisson 共轭对:指数(它是形状参数为 1 的 Gamma 的特例)先验作用在 Poisson 率上,后验仍属 Gamma 族。整个推导套路——写出联合,丢掉归一化常数,识别核——是后续 2.2.1 模块"估计与检验"中所有共轭先验计算的统一配方。多次观测、后验预测、可信区间等下游扩展也都从这里出发。

六、练习

Exercise

设 $(X, Y)$ 的联合密度为 $f_{X,Y}(x, y) = 6 x y^2$ 在 $0 \le x \le 1$ , $0 \le y \le 1$ 上,其余处为 0。求 $Y$ 的边缘密度;对 $0 \lt y \le 1$ 求条件密度 $f_{X|Y}(x|y)$ ;并判断 $X$ 与 $Y$ 是否独立。

提示

边缘:对

x

从 0 到 1 积分,

f_Y(y) = \int_0^1 6 x y^2 \, dx

。

y^2

在

x

上为常数,

\int_0^1 6 x \, dx = 3

。

提示

故

f_Y(y) = 3 y^2

0 \le y \le 1

;条件密度

f_{X|Y}(x|y) = (6 x y^2) / (3 y^2) = 2x

0 \le x \le 1

,与

y

无关。由于

f_{X,Y}

可写为

(2x)(3y^2) = f_X(x) f_Y(y)

,故

X

与

Y

独立。

七、通往下一节

至此你拥有了条件分布、密度乘法公式、密度版 Bayes,以及独立性的联合分解定义。下一个自然问题是联合分布的摘要统计量:不用写出整个联合,如何度量两变量间的依赖?第 3 节正是为此而设——协方差、相关系数、它们成立的双线性结构,以及一条关键警示:Pearson 相关系数只捕捉线性依赖(上面 $(X, X^2)$ 反例正是甲证)。第 4 节再引入条件期望(conditional expectation) $E[X|Y]$ ,但不是作为一个数,而是作为一个随机变量;再加上多元正态分布,以及把两者钉到一起的核心公式——二元正态条件均值是 $Y$ 的线性函数,这正是沪深300 与 300ETF 数据上线性回归之所以无处不在的总体理论依据。把 Gamma-Poisson 后验记牢,共轭先验范式将在 2.2.1 模块重新出现。