某宏观对冲基金的量化研究员盯着一张散点图:横轴是沪深300 ETF 的日收益率,纵轴是 50ETF 隐含波动率指数的日变动。两个边缘分布他已经会读了——沪深300 日收益大致呈钟形,IV 指数日变动则厚尾且偏负。他真正想问的却是条件问题:当沪深300 刚刚打出 -2% 的盘面之后,IV 指数变动的分布长什么样?这个对象既不是边缘 X 的分布,也不是边缘 Y 的分布,它是一个真正新的对象——条件分布(conditional distribution)。这一节把 2.1.1 模块里以事件为单位的条件概率,提升到以随机变量为单位的条件分布;把独立性正式定义在它该在的位置——联合分布的水平上;并给你一条以密度形式写出的贝叶斯公式(Bayes' rule),它是后续模块里每一个参数化贝叶斯模型的底层引擎,包括上证 50ETF 期权链每天估出的条件收益率密度与一切下游经验密度推断。
一、离散情形:条件分布律即两个分布律之比
设 (X,Y) 是离散随机变量,pY(y)>0,条件分布律(conditional pmf)定义为
pX∣Y(x∣y)=pY(y)pX,Y(x,y)
固定 y,把 x↦pX∣Y(x∣y) 视为关于 x 的函数:它本身就是一个合格的分布律——非负且和为 1,因为 ∑xpX,Y(x,y)=pY(y) 正是边缘化。分母 pY(y) 只是一个规范化常数,把"联合分布在 Y=y 这一切片上的那部分质量"重新归一回 1。
两骰子例,继续。沿用第 1 节:X 表示第一颗骰子点数,Y 表示两骰子之和。在 Y=7 的条件下求 X 的条件分布律。联合表告诉你哪些 (x,7) 格子有质量 1/36:(1,7),(2,7),(3,7),(4,7),(5,7),(6,7) ——共六个,因为对任一第一颗 x∈{1,…,6},第二颗必须落在 7−x∈{1,…,6}。所以 pY(7)=6/36=1/6,
pX∣Y(x∣7)=1/61/36=61,x=1,…,6.
在两骰子和为 7 的条件下,第一颗骰子仍均匀分布在 {1,…,6} 上——这与直觉一致,因为 7 恰好是任何第一颗取值都能"被另一颗补齐"达到的对称中点。
二、连续情形:条件密度即两个密度之比
设 (X,Y) 是连续随机变量,fY(y)>0,条件密度(conditional pdf)定义为
fX∣Y(x∣y)=fY(y)fX,Y(x,y)
连续情形需要一句警示:事件 {Y=y} 在连续随机变量上概率为零,因此事件级公式 P(A∣B)=P(A∩B)/P(B) 字面上无法直接套用。我们改为定义 "条件密度即联合密度除以边缘密度",并验证两条性质:(i) 非负,因为 fX,Y≥0;(ii) 固定 y,在 x 上的积分为 1——
∫fX∣Y(x∣y)dx=∫fY(y)fX,Y(x,y)dx=fY(y)fY(y)=1.
直觉上的极限论证(把条件取为 {y≤Y≤y+dy},再让 dy→0)说明此定义为何"对"。完全严格的测度论解决方案——正则条件概率(regular conditional probability)——留到高等概率论,本节不展开。
三、密度的乘法公式与贝叶斯公式
把条件密度的定义两端乘以 fY(y),即得密度的乘法公式,两个对称形式:
fX,Y(x,y)=fX∣Y(x∣y)fY(y)=fY∣X(y∣x)fX(x)
将右边两式相等,两边除以 fY(y)>0,得密度形式的贝叶斯公式:
fX∣Y(x∣y)=∫fY∣X(y∣x′)fX(x′)dx′fY∣X(y∣x)fX(x)
分母是边缘证据(marginal evidence)fY(y),由对潜变量 x′ 积分得到。它与你在 2.1.1 模块里见到的事件级 Bayes 在结构上完全相同——只是把概率换成了密度,把求和换成了积分。
四、随机变量的独立性
独立性最干净的定义放在联合分布函数水平上:
FX,Y(x,y)=FX(x)FY(y) 对所有 (x,y),等价地fX,Y(x,y)=fX(x)fY(y)
等价性来自对 CDF 恒等式在 x,y 上分别求偏导得到密度的乘积分解;离散版即 pX,Y(x,y)=pX(x)pY(y)。注意立即推出的事实:独立条件下,fX∣Y(x∣y)=fX,Y(x,y)/fY(y)=fX(x)fY(y)/fY(y)=fX(x) ——条件密度退化为边缘密度,正是"知道 Y 对 X 一无所获"的精确数学表达。
独立性的定义自然推广到 n 个变量:X1,…,Xn 相互独立 当且仅当联合分解为边缘乘积,fX1,…,Xn(x1,…,xn)=∏i=1nfXi(xi)。注意"相互独立"严格强于 2.1.1 模块第 2 节里事件水平的"两两独立"。此外独立性在函数变换下保持:若 X 与 Y 独立,则对任意可测函数 g,h,g(X) 与 h(Y) 也独立,因为 g(X) 只是 X 的函数,不携带关于 Y 的任何信息。
一条重要警示,下节正式展开。独立性严格强于不相关性 Cov(X,Y)=0。存在 (X,Y) 满足协方差为零却仍然存在确定性函数关系——经典反例为 X∼U(−1,1),Y=X2,此时 E[XY]=E[X3]=0 (由 X 的对称性),故 Cov(X,Y)=0,但 Y 完全由 X 决定。独立 ⇒ 不相关;不相关 ⇒ 独立。第 3 节会把这一不对称性彻底拆开;此处只需记:课本里说的"独立"指联合分解,而不是协方差为零这一弱条件。
五、贝叶斯推断例题:指数先验 + 泊松观测
本节的高潮例题是 Gamma-Poisson 共轭对(conjugate pair),在 Casella & Berger Example 4.4.1 与 茆诗松《概率论与数理统计教程》中均有原型。设 X∼Exponential(λ) 为先验(prior,λ 已知),其密度为 fX(x)=λe−λx,x>0。给定 X=x,观测 Y∼Poisson(x):pY∣X(y∣x)=xye−x/y!,y=0,1,2,…。已观测到单次 Y=y,求后验 X∣Y=y 的分布。
- 联合密度:fX,Y(x,y)=fY∣X(y∣x)fX(x)=y!xye−x⋅λe−λx=y!λxye−(λ+1)x,x>0。
- 应用 Bayes:fX∣Y(x∣y)∝fX,Y(x,y)∝xye−(λ+1)x,x>0。这是 Gamma 核(Gamma kernel),形状参数 y+1,率参数 λ+1。
- 归一化:Gamma(y+1,λ+1) 密度为 f(x)=y!(λ+1)y+1xye−(λ+1)x,故后验恰为
fX∣Y=y(x)=y!(λ+1)y+1xye−(λ+1)x,x>0.
即 X∣Y=y∼Gamma(y+1, λ+1)。这正是 Gamma-Poisson 共轭对:指数(它是形状参数为 1 的 Gamma 的特例)先验作用在 Poisson 率上,后验仍属 Gamma 族。整个推导套路——写出联合,丢掉归一化常数,识别核——是后续 2.2.1 模块"估计与检验"中所有共轭先验计算的统一配方。多次观测、后验预测、可信区间等下游扩展也都从这里出发。
六、练习
Exercise
设 (X,Y) 的联合密度为 fX,Y(x,y)=6xy2 在 0≤x≤1, 0≤y≤1 上,其余处为 0。求 Y 的边缘密度;对 0<y≤1 求条件密度 fX∣Y(x∣y);并判断 X 与 Y 是否独立。
提示
边缘:对
x 从 0 到 1 积分,
fY(y)=∫016xy2dx。
y2 在
x 上为常数,
∫016xdx=3。
提示
故
fY(y)=3y2,
0≤y≤1;条件密度
fX∣Y(x∣y)=(6xy2)/(3y2)=2x,
0≤x≤1,与
y 无关。由于
fX,Y 可写为
(2x)(3y2)=fX(x)fY(y),故
X 与
Y 独立。
七、通往下一节
至此你拥有了条件分布、密度乘法公式、密度版 Bayes,以及独立性的联合分解定义。下一个自然问题是联合分布的摘要统计量:不用写出整个联合,如何度量两变量间的依赖?第 3 节正是为此而设——协方差、相关系数、它们成立的双线性结构,以及一条关键警示:Pearson 相关系数只捕捉线性依赖(上面 (X,X2) 反例正是甲证)。第 4 节再引入条件期望(conditional expectation)E[X∣Y],但不是作为一个数,而是作为一个随机变量;再加上多元正态分布,以及把两者钉到一起的核心公式——二元正态条件均值是 Y 的线性函数,这正是沪深300 与 300ETF 数据上线性回归之所以无处不在的总体理论依据。把 Gamma-Poisson 后验记牢,共轭先验范式将在 2.2.1 模块重新出现。