条件期望与多元正态分布 — 条件分布与联合分布

某股票多空策略私募的信号研究员每天跑一条回归:下周收益对动量因子的回归。他把拟合直线写为 r_hat = a + b * signal。在抽样之前,这条直线是什么?它就是 (收益, 信号) 的联合分布下的总体条件期望(population conditional expectation) $E[X \mid Y]$ ——而在沪深300 因子收益满足联合正态(joint normal)的工作假设下,这个条件期望恰好是 $Y$ 的仿射函数。这一节是本模块的高潮。它引入两大对象:(i) 条件期望作为随机变量(而不只是一个数),配上重期望公式 $E[E[X \mid Y]] = E[X]$ 与全方差公式;(ii) 多元正态分布(multivariate normal, MVN) $\mathrm{MVN}(\mu, \Sigma)$ ,它是唯一一个联合分布,对它而言 $(\mu, \Sigma)$ 是充分的、不相关等价于独立、且条件期望真正是条件变量的线性函数。二者合在一起构成了线性回归的总体级支撑——后续你在每一对沪深300 因子、每一条 IF 主力对 50ETF 的残差研究、以及每一个联合正态假设下的盘面模型里都将依赖的同一根脊柱。

一、条件期望:数 vs 随机变量

对固定的 $Y$ 取值 $y$ , $X$ 在 $Y = y$ 条件下 的条件期望定义为

E[X \mid Y = y] = \int_{-\infty}^{\infty} x\,f_{X \mid Y}(x \mid y)\,dx

(连续情形;离散情形为求和形式)。这是一个数,它依赖于参数 $y$ 。现在做概念跃迁:设 $g(y) = E[X \mid Y = y]$ ,并定义 $E[X \mid Y] = g(Y)$ ——亦即条件期望作为随机变量,它是函数 $g$ 在随机变量 $Y$ 上的取值。把类型签名写明:

$E[X \mid Y = y]$ 是一个数(依赖于参数 $y$ )。
$E[X \mid Y]$ 是一个随机变量( $Y$ 的函数)。
$E[X]$ 是一个数(无条件期望)。

把三者混淆是初次接触条件期望时最常见的困惑源头,也是研究生水平概率论里每一个"这不就是一个数吗"瞬间的根因。

二、重期望公式与全方差公式

本章最有用的恒等式只有一条——重期望公式(tower property / law of iterated expectation):

E[E[X \mid Y]] = E[X]

离散情形的证明: $E[E[X \mid Y]] = \sum_y E[X \mid Y = y]\,p_Y(y) = \sum_y \left(\sum_x x\,p_{X \mid Y}(x \mid y)\right) p_Y(y) = \sum_{x, y} x\,p_{X,Y}(x, y) = E[X]$ ,第三步用到了 $p_{X \mid Y}(x \mid y) p_Y(y) = p_{X,Y}(x, y)$ 。连续情形把求和换成积分,陈述完全相同。重期望公式之所以有用,是因为它告诉你:可以先按一个有用的 $Y$ 做条件,再对 $Y$ 平均,从而把许多原本难算的 $E[X]$ 化为一行计算。

配套恒等式是全方差公式(law of total variance):

\mathrm{Var}(X) = E[\mathrm{Var}(X \mid Y)] + \mathrm{Var}(E[X \mid Y])

总方差分解为组内方差(within-group variance, $E[\mathrm{Var}(X \mid Y)]$ ——给定 $Y$ 后的平均残差散布)加上组间方差(between-group variance, $\mathrm{Var}(E[X \mid Y])$ ——条件均值随 $Y$ 变化的散布)。这是 ANOVA 方差分解的总体版。

混合分布例。设 $Z \sim \mathrm{Bernoulli}(1/2)$ ,条件分布为 $X \mid Z = 0 \sim \mathcal{N}(0, 1)$ , $X \mid Z = 1 \sim \mathcal{N}(2, 4)$ 。

由重期望公式: $E[X] = E[E[X \mid Z]] = (1/2)(0) + (1/2)(2) = 1$ 。
条件方差: $\mathrm{Var}(X \mid Z = 0) = 1$ , $\mathrm{Var}(X \mid Z = 1) = 4$ ,故 $E[\mathrm{Var}(X \mid Z)] = (1/2)(1) + (1/2)(4) = 2.5$ 。
条件均值: $E[X \mid Z = 0] = 0$ , $E[X \mid Z = 1] = 2$ ,故 $\mathrm{Var}(E[X \mid Z])$ 是 $\{0, 2\}$ 上 50/50 混合的方差, $(1/2)(0 - 1)^2 + (1/2)(2 - 1)^2 = 1$ 。
合计: $\mathrm{Var}(X) = 2.5 + 1 = 3.5$ 。

组内方差(2.5)加组间方差(1)等于无条件方差(3.5)——正是 ANOVA 方差分解。

三、多元正态分布

多元正态分布(multivariate normal)最有用的定义同时也是最干净的:随机向量 $X \in \mathbb{R}^n$ 服从  $\mathrm{MVN}(\mu, \Sigma)$ ,当且仅当对任意 $a \in \mathbb{R}^n$ ,线性组合 $a^T X$ 均服从一维正态分布。当协方差矩阵 $\Sigma$ 正定(positive definite,即严格半正定且无零特征值)时, $X$ 具有显式联合密度

f_X(x) = (2\pi)^{-n/2} (\det \Sigma)^{-1/2} \exp\!\left(-\tfrac{1}{2}(x - \mu)^{T} \Sigma^{-1} (x - \mu)\right)

四条值得背熟的刻画性质:

任意线性组合 $a^T X$ 均为一维正态——按定义。
分布由 $(\mu, \Sigma)$ 唯一决定——两个均值、协方差相同的 MVN 向量同分布。
仿射映射保正态性: $Y = AX + b$ 服从 $\mathrm{MVN}(A\mu + b,\ A \Sigma A^T)$ 。结合第 3 节的线性变换协方差恒等式——代数完全相同,但现在你还免费拿到了"它仍是正态"这一结论。
边缘仍是 MVN:从 $X$ 中删去第 $i$ 个坐标,等价于从 $\mu$ 中删第 $i$ 行、从 $\Sigma$ 中删第 $i$ 行第 $i$ 列,剩下的子向量仍服从 MVN。

一条只有 MVN 才有的赠送性质:不相关蕴涵独立。第 3 节里 $(X, X^2)$ 反例在 $(X, Y)$ 联合正态下不可能发生。这就是"高斯"(Gaussian)分布之所以特殊的精确意义:仅靠二阶矩信息(协方差矩阵)已足以刻画所有依赖结构——不存在任何隐藏的非线性结构会被相关系数漏掉。

四、二元正态的条件分布

特殊化到二元情形: $(X, Y)$ 服从 $\mathrm{MVN}$ ,均值 $(\mu_X, \mu_Y)$ ,方差 $(\sigma_X^2, \sigma_Y^2)$ ,相关系数 $\rho \in (-1, 1)$ 。由 MVN 边缘性质, $Y \sim \mathcal{N}(\mu_Y, \sigma_Y^2)$ 。条件分布 $X \mid Y = y$ 的导出方法是:写出联合密度,除以 $Y$ 的边缘密度,然后在 $x$ 上配方(complete the square)。经过整理(详见同济《概率论与数理统计》第三章第七节):

X \mid Y = y \sim \mathcal{N}\!\left(\mu_X + \rho\,\dfrac{\sigma_X}{\sigma_Y}(y - \mu_Y),\ \sigma_X^{2}(1 - \rho^{2})\right)

读这条公式。条件均值 $\mu_X + \rho (\sigma_X / \sigma_Y)(y - \mu_Y)$ 是 $y$ 的仿射函数,斜率 $\rho \sigma_X / \sigma_Y$ ,截距取得恰好令 $E[X \mid Y = \mu_Y] = \mu_X$ 。条件方差 $\sigma_X^2 (1 - \rho^2)$ ,是无条件方差被收缩了一个因子 $(1 - \rho^2)$ ,而 $\rho^2$ 正是 $Y$ 所"解释掉"的方差比例(总体 $R^2$ )。同时,条件方差不依赖 $y$ 的取值——同方差(homoscedastic),又一条只有 MVN 才有的特性。

Formula Explorer

mu_x + rho * (sigma_x / sigma_y) * (y - mu_y)

把条件均值用前面构造的"作为随机变量"提法重新写出: $E[X \mid Y] = \mu_X + \rho (\sigma_X / \sigma_Y)(Y - \mu_Y)$ ——条件期望就是 $Y$ 的线性函数。这就是联合正态数据下"线性回归是正确工具"的深层原因:总体回归直线真的就是总体条件均值,而非任意"最佳拟合"选择。

五、练习

Exercise

设 $(X, Y)$ 服从二元正态分布, $\mu_X = 0$ , $\mu_Y = 0$ , $\sigma_X = 1$ , $\sigma_Y = 2$ ,相关系数 $\rho = 0.6$ 。用二元正态条件公式,计算 $E[X \mid Y = 3]$ 与 $\mathrm{Var}(X \mid Y = 3)$ ,并写出条件分布。

提示

代入条件均值公式:

\mu_X + \rho \cdot (\sigma_X / \sigma_Y) \cdot (y - \mu_Y) = 0 + 0.6 \cdot (1/2) \cdot (3 - 0)

。代入条件方差公式:

\sigma_X^2 \cdot (1 - \rho^2) = 1 \cdot (1 - 0.36)

。

提示

可得

E[X \mid Y = 3] = 0.9

\mathrm{Var}(X \mid Y = 3) = 0.64

。故

X \mid Y = 3 \sim \mathcal{N}(0.9, 0.64)

,即均值

0.9

、标准差

0.8

的正态分布。条件方差不依赖

y

,这是联合正态的标志性特性。

六、模块回顾与通往下游

至此你已掌握二元与多元概率的完整基础:联合分布、条件分布、独立性、协方差与相关系数、作为随机变量的条件期望、以及一切机制最完美工作的典型联合分布——多元正态(MVN, 协方差矩阵 $\Sigma$ 半正定)。三条下游线索直接接续。(i) 2.2.1 模块"估计与检验" 处理样本对应物——样本协方差、样本相关系数、 $\rho = 0$ 的假设检验、多元中心极限定理,并把第 2 节的 Gamma-Poisson 共轭对扩展为完整的共轭先验目录。(ii) 2.2.2 模块"回归与 GLM" 用有限样本估计总体条件均值 $E[X \mid Y]$ ——OLS 斜率 $\hat\beta = \mathrm{Cov}(X, Y) / \mathrm{Var}(Y)$ 正是上面推得的 $\rho \sigma_X / \sigma_Y$ 的样本对应物。(iii) 2.7.1 模块"布朗运动与伊藤" 把多元正态推广到无穷维,并以条件期望的塔结构作为鞅论(martingale theory)的根基。下游你会一次次重逢这四条 MVN 刻画性质——在 CFFEX 国债期货曲面上、在 SSE 因子收益序列上、在每一个跑在量化交易盘面上的 Kalman 滤波器内部。