← 返回模块
2.1.2.4beta 可读 · 未来付费校验通过内容版本 2026-05-24

条件期望与多元正态分布

2.1.2 · 条件分布与联合分布 · 数学与统计能力

某股票多空策略私募的信号研究员每天跑一条回归:下周收益对动量因子的回归。他把拟合直线写为 r_hat = a + b * signal。在抽样之前,这条直线是什么?它就是 (收益, 信号) 的联合分布下的​​总体条件期望​​(population conditional expectation)E[XY]E[X \mid Y] ——而在沪深300 因子收益满足联合正态(joint normal)的工作假设下,这个条件期望恰好是 YY 的仿射函数。这一节是本模块的高潮。它引入两大对象:(i) 条件期望作为​​随机变量​​(而不只是一个数),配上重期望公式 E[E[XY]]=E[X]E[E[X \mid Y]] = E[X] 与全方差公式;(ii) ​多元正态分布​​(multivariate normal, MVN)MVN(μ,Σ)\mathrm{MVN}(\mu, \Sigma),它是唯一一个联合分布,对它而言 (μ,Σ)(\mu, \Sigma) 是充分的、不相关等价于独立、且条件期望真正是条件变量的线性函数。二者合在一起构成了线性回归的总体级支撑——后续你在每一对 沪深300 因子、每一条 IF 主力对 50ETF 的残差研究、以及每一个联合正态假设下的盘面模型里都将依赖的同一根脊柱。

一、条件期望:数 vs 随机变量

对固定的 YY 取值 yy,XX ​在 Y=yY = y 条件下​ 的条件期望定义为

E[XY=y]=xfXY(xy)dxE[X \mid Y = y] = \int_{-\infty}^{\infty} x\,f_{X \mid Y}(x \mid y)\,dx

(连续情形;离散情形为求和形式)。这是一个​​数​​,它依赖于参数 yy。现在做概念跃迁:设 g(y)=E[XY=y]g(y) = E[X \mid Y = y],并定义 E[XY]=g(Y)E[X \mid Y] = g(Y)——亦即条件期望​​作为随机变量​​,它是函数 gg 在随机变量 YY 上的取值。把类型签名写明:

  • E[XY=y]E[X \mid Y = y] 是​​一个数​​(依赖于参数 yy)。
  • E[XY]E[X \mid Y] 是​​一个随机变量​​(YY 的函数)。
  • E[X]E[X] 是​​一个数​​(无条件期望)。

把三者混淆是初次接触条件期望时最常见的困惑源头,也是研究生水平概率论里每一个"这不就是一个数吗"瞬间的根因。

二、重期望公式与全方差公式

本章最有用的恒等式只有一条——​​重期望公式​​(tower property / law of iterated expectation):

E[E[XY]]=E[X]E[E[X \mid Y]] = E[X]

离散情形的证明:E[E[XY]]=yE[XY=y]pY(y)=y(xxpXY(xy))pY(y)=x,yxpX,Y(x,y)=E[X]E[E[X \mid Y]] = \sum_y E[X \mid Y = y]\,p_Y(y) = \sum_y \left(\sum_x x\,p_{X \mid Y}(x \mid y)\right) p_Y(y) = \sum_{x, y} x\,p_{X,Y}(x, y) = E[X],第三步用到了 pXY(xy)pY(y)=pX,Y(x,y)p_{X \mid Y}(x \mid y) p_Y(y) = p_{X,Y}(x, y)。连续情形把求和换成积分,陈述完全相同。重期望公式之所以有用,是因为它告诉你:可以先按一个有用的 YY 做条件,再对 YY 平均,从而把许多原本难算的 E[X]E[X] 化为一行计算。

配套恒等式是​​全方差公式​​(law of total variance):

Var(X)=E[Var(XY)]+Var(E[XY])\mathrm{Var}(X) = E[\mathrm{Var}(X \mid Y)] + \mathrm{Var}(E[X \mid Y])

总方差分解为组内方差(within-group variance,E[Var(XY)]E[\mathrm{Var}(X \mid Y)]——给定 YY 后的平均残差散布)加上组间方差(between-group variance,Var(E[XY])\mathrm{Var}(E[X \mid Y])——条件均值随 YY 变化的散布)。这是 ANOVA 方差分解的总体版。

​混合分布例​​。设 ZBernoulli(1/2)Z \sim \mathrm{Bernoulli}(1/2),条件分布为 XZ=0N(0,1)X \mid Z = 0 \sim \mathcal{N}(0, 1),XZ=1N(2,4)X \mid Z = 1 \sim \mathcal{N}(2, 4)

  1. 由重期望公式:E[X]=E[E[XZ]]=(1/2)(0)+(1/2)(2)=1E[X] = E[E[X \mid Z]] = (1/2)(0) + (1/2)(2) = 1
  2. 条件方差:Var(XZ=0)=1\mathrm{Var}(X \mid Z = 0) = 1,Var(XZ=1)=4\mathrm{Var}(X \mid Z = 1) = 4,故 E[Var(XZ)]=(1/2)(1)+(1/2)(4)=2.5E[\mathrm{Var}(X \mid Z)] = (1/2)(1) + (1/2)(4) = 2.5
  3. 条件均值:E[XZ=0]=0E[X \mid Z = 0] = 0,E[XZ=1]=2E[X \mid Z = 1] = 2,故 Var(E[XZ])\mathrm{Var}(E[X \mid Z]){0,2}\{0, 2\} 上 50/50 混合的方差,(1/2)(01)2+(1/2)(21)2=1(1/2)(0 - 1)^2 + (1/2)(2 - 1)^2 = 1
  4. 合计:Var(X)=2.5+1=3.5\mathrm{Var}(X) = 2.5 + 1 = 3.5

组内方差(2.5)加组间方差(1)等于无条件方差(3.5)——正是 ANOVA 方差分解。

三、多元正态分布

​多元正态分布​​(multivariate normal)最有用的定义同时也是最干净的:随机向量 XRnX \in \mathbb{R}^n 服从 ​​MVN(μ,Σ)\mathrm{MVN}(\mu, \Sigma)​​​,当且仅当对任意 aRna \in \mathbb{R}^n,线性组合 aTXa^T X 均服从一维正态分布。当协方差矩阵 Σ\Sigma 正定(positive definite,即严格半正定且无零特征值)时,XX 具有显式联合密度

fX(x)=(2π)n/2(detΣ)1/2exp ⁣(12(xμ)TΣ1(xμ))f_X(x) = (2\pi)^{-n/2} (\det \Sigma)^{-1/2} \exp\!\left(-\tfrac{1}{2}(x - \mu)^{T} \Sigma^{-1} (x - \mu)\right)

四条值得背熟的刻画性质:

  1. ​任意线性组合 aTXa^T X 均为一维正态​​——按定义。
  2. ​分布由 (μ,Σ)(\mu, \Sigma) 唯一决定​​——两个均值、协方差相同的 MVN 向量同分布。
  3. ​仿射映射保正态性​​:Y=AX+bY = AX + b 服从 MVN(Aμ+b, AΣAT)\mathrm{MVN}(A\mu + b,\ A \Sigma A^T)。结合第 3 节的线性变换协方差恒等式——代数完全相同,但现在你还免费拿到了"它仍是正态"这一结论。
  4. ​边缘仍是 MVN​​:从 XX 中删去第 ii 个坐标,等价于从 μ\mu 中删第 ii 行、从 Σ\Sigma 中删第 ii 行第 ii 列,剩下的子向量仍服从 MVN。

一条只有 MVN 才有的赠送性质:​​不相关蕴涵独立​​。第 3 节里 (X,X2)(X, X^2) 反例在 (X,Y)(X, Y) 联合正态下不可能发生。这就是"高斯"(Gaussian)分布之所以特殊的精确意义:仅靠二阶矩信息(协方差矩阵)已足以刻画所有依赖结构——不存在任何隐藏的非线性结构会被相关系数漏掉。

四、二元正态的条件分布

特殊化到二元情形:(X,Y)(X, Y) 服从 MVN\mathrm{MVN},均值 (μX,μY)(\mu_X, \mu_Y),方差 (σX2,σY2)(\sigma_X^2, \sigma_Y^2),相关系数 ρ(1,1)\rho \in (-1, 1)。由 MVN 边缘性质,YN(μY,σY2)Y \sim \mathcal{N}(\mu_Y, \sigma_Y^2)。条件分布 XY=yX \mid Y = y 的导出方法是:写出联合密度,除以 YY 的边缘密度,然后​​在 xx 上配方​​(complete the square)。经过整理(详见 同济《概率论与数理统计》第三章 第七节):

XY=yN ⁣(μX+ρσXσY(yμY), σX2(1ρ2))X \mid Y = y \sim \mathcal{N}\!\left(\mu_X + \rho\,\dfrac{\sigma_X}{\sigma_Y}(y - \mu_Y),\ \sigma_X^{2}(1 - \rho^{2})\right)

读这条公式。​​条件均值​ μX+ρ(σX/σY)(yμY)\mu_X + \rho (\sigma_X / \sigma_Y)(y - \mu_Y)yy 的仿射函数,斜率 ρσX/σY\rho \sigma_X / \sigma_Y,截距取得恰好令 E[XY=μY]=μXE[X \mid Y = \mu_Y] = \mu_X。​​条件方差​ σX2(1ρ2)\sigma_X^2 (1 - \rho^2),是无条件方差被收缩了一个因子 (1ρ2)(1 - \rho^2),而 ρ2\rho^2 正是 YY 所"解释掉"的方差比例(总体 R2R^2)。同时,​​条件方差不依赖 yy 的取值​​——同方差(homoscedastic),又一条只有 MVN 才有的特性。

Formula Explorer

mu_x + rho * (sigma_x / sigma_y) * (y - mu_y)

把条件均值用前面构造的"作为随机变量"提法重新写出:E[XY]=μX+ρ(σX/σY)(YμY)E[X \mid Y] = \mu_X + \rho (\sigma_X / \sigma_Y)(Y - \mu_Y)——条件期望​​就是 YY 的线性函数​​。这就是联合正态数据下"线性回归是正确工具"的深层原因:总体回归直线真的就是总体条件均值,而非任意"最佳拟合"选择。

五、练习

Exercise

(X,Y)(X, Y) 服从二元正态分布,μX=0\mu_X = 0,μY=0\mu_Y = 0,σX=1\sigma_X = 1,σY=2\sigma_Y = 2,相关系数 ρ=0.6\rho = 0.6。用二元正态条件公式,计算 E[XY=3]E[X \mid Y = 3]Var(XY=3)\mathrm{Var}(X \mid Y = 3),并写出条件分布。

提示
代入条件均值公式:μX+ρ(σX/σY)(yμY)=0+0.6(1/2)(30)\mu_X + \rho \cdot (\sigma_X / \sigma_Y) \cdot (y - \mu_Y) = 0 + 0.6 \cdot (1/2) \cdot (3 - 0)。代入条件方差公式:σX2(1ρ2)=1(10.36)\sigma_X^2 \cdot (1 - \rho^2) = 1 \cdot (1 - 0.36)
提示
可得 E[XY=3]=0.9E[X \mid Y = 3] = 0.9,Var(XY=3)=0.64\mathrm{Var}(X \mid Y = 3) = 0.64。故 XY=3N(0.9,0.64)X \mid Y = 3 \sim \mathcal{N}(0.9, 0.64),即均值 0.90.9、标准差 0.80.8 的正态分布。条件方差不依赖 yy,这是联合正态的标志性特性。

六、模块回顾与通往下游

至此你已掌握二元与多元概率的完整基础:联合分布、条件分布、独立性、协方差与相关系数、作为随机变量的条件期望、以及一切机制最完美工作的典型联合分布——多元正态(MVN, 协方差矩阵 Σ\Sigma 半正定)。三条下游线索直接接续。(i) ​2.2.1 模块"估计与检验"​ 处理样本对应物——样本协方差、样本相关系数、ρ=0\rho = 0 的假设检验、多元中心极限定理,并把第 2 节的 Gamma-Poisson 共轭对扩展为完整的共轭先验目录。(ii) ​2.2.2 模块"回归与 GLM"​ 用有限样本估计总体条件均值 E[XY]E[X \mid Y]——OLS 斜率 β^=Cov(X,Y)/Var(Y)\hat\beta = \mathrm{Cov}(X, Y) / \mathrm{Var}(Y) 正是上面推得的 ρσX/σY\rho \sigma_X / \sigma_Y 的样本对应物。(iii) ​2.7.1 模块"布朗运动与伊藤"​ 把多元正态推广到无穷维,并以条件期望的塔结构作为鞅论(martingale theory)的根基。下游你会一次次重逢这四条 MVN 刻画性质——在 CFFEX 国债期货曲面上、在 SSE 因子收益序列上、在每一个跑在量化交易盘面上的 Kalman 滤波器内部。