某股票多空策略私募的信号研究员每天跑一条回归:下周收益对动量因子的回归。他把拟合直线写为 r_hat = a + b * signal。在抽样之前,这条直线是什么?它就是 (收益, 信号) 的联合分布下的总体条件期望(population conditional expectation)E[X∣Y] ——而在沪深300 因子收益满足联合正态(joint normal)的工作假设下,这个条件期望恰好是 Y 的仿射函数。这一节是本模块的高潮。它引入两大对象:(i) 条件期望作为随机变量(而不只是一个数),配上重期望公式 E[E[X∣Y]]=E[X] 与全方差公式;(ii) 多元正态分布(multivariate normal, MVN)MVN(μ,Σ),它是唯一一个联合分布,对它而言 (μ,Σ) 是充分的、不相关等价于独立、且条件期望真正是条件变量的线性函数。二者合在一起构成了线性回归的总体级支撑——后续你在每一对 沪深300 因子、每一条 IF 主力对 50ETF 的残差研究、以及每一个联合正态假设下的盘面模型里都将依赖的同一根脊柱。
一、条件期望:数 vs 随机变量
对固定的 Y 取值 y,X 在 Y=y 条件下 的条件期望定义为
E[X∣Y=y]=∫−∞∞xfX∣Y(x∣y)dx
(连续情形;离散情形为求和形式)。这是一个数,它依赖于参数 y。现在做概念跃迁:设 g(y)=E[X∣Y=y],并定义 E[X∣Y]=g(Y)——亦即条件期望作为随机变量,它是函数 g 在随机变量 Y 上的取值。把类型签名写明:
- E[X∣Y=y] 是一个数(依赖于参数 y)。
- E[X∣Y] 是一个随机变量(Y 的函数)。
- E[X] 是一个数(无条件期望)。
把三者混淆是初次接触条件期望时最常见的困惑源头,也是研究生水平概率论里每一个"这不就是一个数吗"瞬间的根因。
二、重期望公式与全方差公式
本章最有用的恒等式只有一条——重期望公式(tower property / law of iterated expectation):
E[E[X∣Y]]=E[X]
离散情形的证明:E[E[X∣Y]]=∑yE[X∣Y=y]pY(y)=∑y(∑xxpX∣Y(x∣y))pY(y)=∑x,yxpX,Y(x,y)=E[X],第三步用到了 pX∣Y(x∣y)pY(y)=pX,Y(x,y)。连续情形把求和换成积分,陈述完全相同。重期望公式之所以有用,是因为它告诉你:可以先按一个有用的 Y 做条件,再对 Y 平均,从而把许多原本难算的 E[X] 化为一行计算。
配套恒等式是全方差公式(law of total variance):
Var(X)=E[Var(X∣Y)]+Var(E[X∣Y])
总方差分解为组内方差(within-group variance,E[Var(X∣Y)]——给定 Y 后的平均残差散布)加上组间方差(between-group variance,Var(E[X∣Y])——条件均值随 Y 变化的散布)。这是 ANOVA 方差分解的总体版。
混合分布例。设 Z∼Bernoulli(1/2),条件分布为 X∣Z=0∼N(0,1),X∣Z=1∼N(2,4)。
- 由重期望公式:E[X]=E[E[X∣Z]]=(1/2)(0)+(1/2)(2)=1。
- 条件方差:Var(X∣Z=0)=1,Var(X∣Z=1)=4,故 E[Var(X∣Z)]=(1/2)(1)+(1/2)(4)=2.5。
- 条件均值:E[X∣Z=0]=0,E[X∣Z=1]=2,故 Var(E[X∣Z]) 是 {0,2} 上 50/50 混合的方差,(1/2)(0−1)2+(1/2)(2−1)2=1。
- 合计:Var(X)=2.5+1=3.5。
组内方差(2.5)加组间方差(1)等于无条件方差(3.5)——正是 ANOVA 方差分解。
三、多元正态分布
多元正态分布(multivariate normal)最有用的定义同时也是最干净的:随机向量 X∈Rn 服从 MVN(μ,Σ),当且仅当对任意 a∈Rn,线性组合 aTX 均服从一维正态分布。当协方差矩阵 Σ 正定(positive definite,即严格半正定且无零特征值)时,X 具有显式联合密度
fX(x)=(2π)−n/2(detΣ)−1/2exp(−21(x−μ)TΣ−1(x−μ))
四条值得背熟的刻画性质:
- 任意线性组合 aTX 均为一维正态——按定义。
- 分布由 (μ,Σ) 唯一决定——两个均值、协方差相同的 MVN 向量同分布。
- 仿射映射保正态性:Y=AX+b 服从 MVN(Aμ+b, AΣAT)。结合第 3 节的线性变换协方差恒等式——代数完全相同,但现在你还免费拿到了"它仍是正态"这一结论。
- 边缘仍是 MVN:从 X 中删去第 i 个坐标,等价于从 μ 中删第 i 行、从 Σ 中删第 i 行第 i 列,剩下的子向量仍服从 MVN。
一条只有 MVN 才有的赠送性质:不相关蕴涵独立。第 3 节里 (X,X2) 反例在 (X,Y) 联合正态下不可能发生。这就是"高斯"(Gaussian)分布之所以特殊的精确意义:仅靠二阶矩信息(协方差矩阵)已足以刻画所有依赖结构——不存在任何隐藏的非线性结构会被相关系数漏掉。
四、二元正态的条件分布
特殊化到二元情形:(X,Y) 服从 MVN,均值 (μX,μY),方差 (σX2,σY2),相关系数 ρ∈(−1,1)。由 MVN 边缘性质,Y∼N(μY,σY2)。条件分布 X∣Y=y 的导出方法是:写出联合密度,除以 Y 的边缘密度,然后在 x 上配方(complete the square)。经过整理(详见 同济《概率论与数理统计》第三章 第七节):
X∣Y=y∼N(μX+ρσYσX(y−μY), σX2(1−ρ2))
读这条公式。条件均值 μX+ρ(σX/σY)(y−μY) 是 y 的仿射函数,斜率 ρσX/σY,截距取得恰好令 E[X∣Y=μY]=μX。条件方差 σX2(1−ρ2),是无条件方差被收缩了一个因子 (1−ρ2),而 ρ2 正是 Y 所"解释掉"的方差比例(总体 R2)。同时,条件方差不依赖 y 的取值——同方差(homoscedastic),又一条只有 MVN 才有的特性。
Formula Explorer
mu_x + rho * (sigma_x / sigma_y) * (y - mu_y)
把条件均值用前面构造的"作为随机变量"提法重新写出:E[X∣Y]=μX+ρ(σX/σY)(Y−μY)——条件期望就是 Y 的线性函数。这就是联合正态数据下"线性回归是正确工具"的深层原因:总体回归直线真的就是总体条件均值,而非任意"最佳拟合"选择。
五、练习
Exercise
设 (X,Y) 服从二元正态分布,μX=0,μY=0,σX=1,σY=2,相关系数 ρ=0.6。用二元正态条件公式,计算 E[X∣Y=3] 与 Var(X∣Y=3),并写出条件分布。
提示
代入条件均值公式:
μX+ρ⋅(σX/σY)⋅(y−μY)=0+0.6⋅(1/2)⋅(3−0)。代入条件方差公式:
σX2⋅(1−ρ2)=1⋅(1−0.36)。
提示
可得
E[X∣Y=3]=0.9,
Var(X∣Y=3)=0.64。故
X∣Y=3∼N(0.9,0.64),即均值
0.9、标准差
0.8 的正态分布。条件方差不依赖
y,这是联合正态的标志性特性。
六、模块回顾与通往下游
至此你已掌握二元与多元概率的完整基础:联合分布、条件分布、独立性、协方差与相关系数、作为随机变量的条件期望、以及一切机制最完美工作的典型联合分布——多元正态(MVN, 协方差矩阵 Σ 半正定)。三条下游线索直接接续。(i) 2.2.1 模块"估计与检验" 处理样本对应物——样本协方差、样本相关系数、ρ=0 的假设检验、多元中心极限定理,并把第 2 节的 Gamma-Poisson 共轭对扩展为完整的共轭先验目录。(ii) 2.2.2 模块"回归与 GLM" 用有限样本估计总体条件均值 E[X∣Y]——OLS 斜率 β^=Cov(X,Y)/Var(Y) 正是上面推得的 ρσX/σY 的样本对应物。(iii) 2.7.1 模块"布朗运动与伊藤" 把多元正态推广到无穷维,并以条件期望的塔结构作为鞅论(martingale theory)的根基。下游你会一次次重逢这四条 MVN 刻画性质——在 CFFEX 国债期货曲面上、在 SSE 因子收益序列上、在每一个跑在量化交易盘面上的 Kalman 滤波器内部。