← 返回模块
2.1.2.2beta 可读 · 未来付费校验通过内容版本 2026-05-24

条件分布与随机变量的独立性

2.1.2 · 条件分布与联合分布 · 数学与统计能力

某宏观对冲基金的量化研究员盯着一张散点图:横轴是沪深300 ETF 的日收益率,纵轴是 50ETF 隐含波动率指数的日变动。两个边缘分布他已经会读了——沪深300 日收益大致呈钟形,IV 指数日变动则厚尾且偏负。他真正想问的却是​​条件​​问题:​​当​​沪深300 刚刚打出 -2% 的盘面​​之后​​,IV 指数变动的分布长什么样?这个对象既不是边缘 X 的分布,也不是边缘 Y 的分布,它是一个真正新的对象——条件分布(conditional distribution)。这一节把 2.1.1 模块里以事件为单位的条件概率,提升到以随机变量为单位的条件分布;把独立性正式定义在它该在的位置——联合分布的水平上;并给你一条以密度形式写出的贝叶斯公式(Bayes' rule),它是后续模块里每一个参数化贝叶斯模型的底层引擎,包括上证 50ETF 期权链每天估出的条件收益率密度与一切下游经验密度推断。

一、离散情形:条件分布律即两个分布律之比

(X,Y)(X, Y) 是离散随机变量,pY(y)>0p_Y(y) > 0,​​条件分布律​​(conditional pmf)定义为

pXY(xy)=pX,Y(x,y)pY(y)p_{X \mid Y}(x \mid y) = \dfrac{p_{X,Y}(x, y)}{p_Y(y)}

固定 yy,把 xpXY(xy)x \mapsto p_{X \mid Y}(x \mid y) 视为关于 xx 的函数:它本身就是一个合格的分布律——非负且和为 1,因为 xpX,Y(x,y)=pY(y)\sum_x p_{X,Y}(x, y) = p_Y(y) 正是边缘化。分母 pY(y)p_Y(y) 只是一个规范化常数,把"联合分布在 Y=yY = y 这一切片上的那部分质量"重新归一回 1。

​两骰子例,继续​​。沿用第 1 节:XX 表示第一颗骰子点数,YY 表示两骰子之和。在 Y=7Y = 7 的条件下求 XX 的条件分布律。联合表告诉你哪些 (x,7)(x, 7) 格子有质量 1/361/36:(1,7),(2,7),(3,7),(4,7),(5,7),(6,7)(1, 7), (2, 7), (3, 7), (4, 7), (5, 7), (6, 7) ——共六个,因为对任一第一颗 x{1,,6}x \in \{1, \dots, 6\},第二颗必须落在 7x{1,,6}7 - x \in \{1, \dots, 6\}。所以 pY(7)=6/36=1/6p_Y(7) = 6/36 = 1/6,

pXY(x7)=1/361/6=16,x=1,,6.p_{X \mid Y}(x \mid 7) = \dfrac{1/36}{1/6} = \tfrac{1}{6},\quad x = 1, \dots, 6.

在两骰子和为 7 的条件下,第一颗骰子仍均匀分布在 {1,,6}\{1, \dots, 6\} 上——这与直觉一致,因为 7 恰好是任何第一颗取值都能"被另一颗补齐"达到的对称中点。

二、连续情形:条件密度即两个密度之比

(X,Y)(X, Y) 是连续随机变量,fY(y)>0f_Y(y) > 0,​​条件密度​​(conditional pdf)定义为

fXY(xy)=fX,Y(x,y)fY(y)f_{X \mid Y}(x \mid y) = \dfrac{f_{X,Y}(x, y)}{f_Y(y)}

连续情形需要一句警示:事件 {Y=y}\{Y = y\} 在连续随机变量上概率为零,因此事件级公式 P(AB)=P(AB)/P(B)P(A \mid B) = P(A \cap B) / P(B) 字面上无法直接套用。我们改为​​定义​ "条件密度即联合密度除以边缘密度",并验证两条性质:(i) 非负,因为 fX,Y0f_{X,Y} \geq 0;(ii) 固定 yy,在 xx 上的积分为 1——

fXY(xy)dx=fX,Y(x,y)fY(y)dx=fY(y)fY(y)=1.\int f_{X \mid Y}(x \mid y)\, dx = \int \dfrac{f_{X,Y}(x, y)}{f_Y(y)}\, dx = \dfrac{f_Y(y)}{f_Y(y)} = 1.

直觉上的极限论证(把条件取为 {yYy+dy}\{y \leq Y \leq y + dy\},再让 dy0dy \to 0)说明此定义为何"对"。完全严格的测度论解决方案——正则条件概率(regular conditional probability)——留到高等概率论,本节不展开。

三、密度的乘法公式与贝叶斯公式

把条件密度的定义两端乘以 fY(y)f_Y(y),即得​​密度的乘法公式​​,两个对称形式:

fX,Y(x,y)=fXY(xy)fY(y)=fYX(yx)fX(x)f_{X,Y}(x, y) = f_{X \mid Y}(x \mid y)\,f_Y(y) = f_{Y \mid X}(y \mid x)\,f_X(x)

将右边两式相等,两边除以 fY(y)>0f_Y(y) > 0,得​​密度形式的贝叶斯公式​​:

fXY(xy)=fYX(yx)fX(x)fYX(yx)fX(x)dxf_{X \mid Y}(x \mid y) = \dfrac{f_{Y \mid X}(y \mid x)\,f_X(x)}{\int f_{Y \mid X}(y \mid x')\,f_X(x')\,dx'}

分母是​​边缘证据​​(marginal evidence)fY(y)f_Y(y),由对潜变量 xx' 积分得到。它与你在 2.1.1 模块里见到的事件级 Bayes 在结构上完全相同——只是把概率换成了密度,把求和换成了积分。

四、随机变量的独立性

独立性最干净的定义放在联合分布函数水平上:

FX,Y(x,y)=FX(x)FY(y) 对所有 (x,y),等价地fX,Y(x,y)=fX(x)fY(y)F_{X,Y}(x, y) = F_X(x)\,F_Y(y)\ \text{对所有 } (x, y),\quad\text{等价地}\quad f_{X,Y}(x, y) = f_X(x)\,f_Y(y)

等价性来自对 CDF 恒等式在 x,yx, y 上分别求偏导得到密度的乘积分解;离散版即 pX,Y(x,y)=pX(x)pY(y)p_{X,Y}(x, y) = p_X(x)\,p_Y(y)。注意立即推出的事实:独立条件下,fXY(xy)=fX,Y(x,y)/fY(y)=fX(x)fY(y)/fY(y)=fX(x)f_{X \mid Y}(x \mid y) = f_{X,Y}(x, y)/f_Y(y) = f_X(x)\,f_Y(y)/f_Y(y) = f_X(x) ——条件密度退化为边缘密度,正是"知道 YYXX 一无所获"的精确数学表达。

独立性的定义自然推广到 nn 个变量:X1,,XnX_1, \dots, X_n ​相互独立​ 当且仅当联合分解为边缘乘积,fX1,,Xn(x1,,xn)=i=1nfXi(xi)f_{X_1, \dots, X_n}(x_1, \dots, x_n) = \prod_{i=1}^n f_{X_i}(x_i)。注意"相互独立"严格强于 2.1.1 模块第 2 节里事件水平的"两两独立"。此外独立性在函数变换下保持:若 XXYY 独立,则对任意可测函数 g,hg, h,g(X)g(X)h(Y)h(Y) 也独立,因为 g(X)g(X) 只是 XX 的函数,不携带关于 YY 的任何信息。

​一条重要警示,下节正式展开​​。独立性严格强于不相关性 Cov(X,Y)=0\mathrm{Cov}(X, Y) = 0。存在 (X,Y)(X, Y) 满足协方差为零却仍然存在确定性函数关系——经典反例为 XU(1,1)X \sim U(-1, 1),Y=X2Y = X^2,此时 E[XY]=E[X3]=0E[XY] = E[X^3] = 0 (由 XX 的对称性),故 Cov(X,Y)=0\mathrm{Cov}(X, Y) = 0,但 YY 完全由 XX 决定。独立 \Rightarrow 不相关;不相关 ⇏\not\Rightarrow 独立。第 3 节会把这一不对称性彻底拆开;此处只需记:课本里说的"独立"指联合分解,而不是协方差为零这一弱条件。

五、贝叶斯推断例题:指数先验 + 泊松观测

本节的高潮例题是 Gamma-Poisson 共轭对(conjugate pair),在 Casella & Berger Example 4.4.1 与 茆诗松《概率论与数理统计教程》中均有原型。设 XExponential(λ)X \sim \mathrm{Exponential}(\lambda) 为​​先验​​(prior,λ\lambda 已知),其密度为 fX(x)=λeλxf_X(x) = \lambda e^{-\lambda x},x>0x > 0。给定 X=xX = x,观测 YPoisson(x)Y \sim \mathrm{Poisson}(x):pYX(yx)=xyex/y!p_{Y \mid X}(y \mid x) = x^y e^{-x} / y!,y=0,1,2,y = 0, 1, 2, \dots。已观测到单次 Y=yY = y,求​​后验​ XY=yX \mid Y = y 的分布。

  1. 联合密度:fX,Y(x,y)=fYX(yx)fX(x)=xyexy!λeλx=λy!xye(λ+1)xf_{X,Y}(x, y) = f_{Y \mid X}(y \mid x)\,f_X(x) = \dfrac{x^y e^{-x}}{y!} \cdot \lambda e^{-\lambda x} = \dfrac{\lambda}{y!}\,x^y e^{-(\lambda + 1) x},x>0x > 0
  2. 应用 Bayes:fXY(xy)fX,Y(x,y)xye(λ+1)xf_{X \mid Y}(x \mid y) \propto f_{X,Y}(x, y) \propto x^y e^{-(\lambda + 1) x},x>0x > 0。这是 Gamma 核(Gamma kernel),形状参数 y+1y + 1,率参数 λ+1\lambda + 1
  3. 归一化:Gamma(y+1,λ+1)(y + 1, \lambda + 1) 密度为 f(x)=(λ+1)y+1y!xye(λ+1)xf(x) = \dfrac{(\lambda + 1)^{y+1}}{y!} x^{y} e^{-(\lambda + 1) x},故后验恰为

fXY=y(x)=(λ+1)y+1y!xye(λ+1)x,x>0.f_{X \mid Y = y}(x) = \dfrac{(\lambda + 1)^{y+1}}{y!}\,x^{y} e^{-(\lambda + 1) x},\quad x > 0.

XY=yGamma(y+1, λ+1)X \mid Y = y \sim \mathrm{Gamma}(y + 1,\ \lambda + 1)。这正是 ​Gamma-Poisson 共轭对​​:指数(它是形状参数为 1 的 Gamma 的特例)先验作用在 Poisson 率上,后验仍属 Gamma 族。整个推导套路——写出联合,丢掉归一化常数,识别核——是后续 2.2.1 模块"估计与检验"中所有共轭先验计算的统一配方。多次观测、后验预测、可信区间等下游扩展也都从这里出发。

六、练习

Exercise

(X,Y)(X, Y) 的联合密度为 fX,Y(x,y)=6xy2f_{X,Y}(x, y) = 6 x y^20x10 \le x \le 1, 0y10 \le y \le 1 上,其余处为 0。求 YY 的边缘密度;对 0<y10 \lt y \le 1 求条件密度 fXY(xy)f_{X|Y}(x|y);并判断 XXYY 是否独立。

提示
边缘:对 xx 从 0 到 1 积分,fY(y)=016xy2dxf_Y(y) = \int_0^1 6 x y^2 \, dxy2y^2xx 上为常数,016xdx=3\int_0^1 6 x \, dx = 3
提示
fY(y)=3y2f_Y(y) = 3 y^2,0y10 \le y \le 1;条件密度 fXY(xy)=(6xy2)/(3y2)=2xf_{X|Y}(x|y) = (6 x y^2) / (3 y^2) = 2x,0x10 \le x \le 1,与 yy 无关。由于 fX,Yf_{X,Y} 可写为 (2x)(3y2)=fX(x)fY(y)(2x)(3y^2) = f_X(x) f_Y(y),故 XXYY 独立。

七、通往下一节

至此你拥有了条件分布、密度乘法公式、密度版 Bayes,以及独立性的联合分解定义。下一个自然问题是联合分布的​​摘要统计量​​:不用写出整个联合,如何度量两变量间的依赖?第 3 节正是为此而设——协方差、相关系数、它们成立的双线性结构,以及一条关键警示:Pearson 相关系数只捕捉​​线性​​依赖(上面 (X,X2)(X, X^2) 反例正是甲证)。第 4 节再引入​​条件期望​​(conditional expectation)E[XY]E[X|Y],但不是作为一个数,而是作为一个​​随机变量​​;再加上多元正态分布,以及把两者钉到一起的核心公式——二元正态条件均值是 YY 的线性函数,这正是沪深300 与 300ETF 数据上线性回归之所以无处不在的总体理论依据。把 Gamma-Poisson 后验记牢,共轭先验范式将在 2.2.1 模块重新出现。