协方差、相关系数与联合矩 — 条件分布与联合分布

某多策略基金的风控官想要一个数:在已经持有一个长久期债券账户的组合里,再叠加一个沪深300 多头股票账户,会增加多少方差?答案不是"沪深300 方差加债券方差",而是"沪深300 方差加债券方差再加两倍协方差"——而这个协方差,正是上证日盘与 CFFEX 国债期货市场每天联动着送上来的统计量。要拿到这一个数,把整个联合分布全写出来是大材小用;风控官真正做的是把联合分布压缩成两阶矩与一项交叉矩——协方差(covariance)。这一节定义协方差与 Pearson 相关系数,通过多元 LOTUS 证明它们的核心代数恒等式,并把整套工具推广到随机向量:协方差矩阵(covariance matrix) $\Sigma$ 、它的半正定(positive semidefinite, PSD)结构、以及驱动一切下游线性因子模型的"方差变换恒等式" $\mathrm{Cov}(AX + b) = A \Sigma A^T$ 。

一、多元 LOTUS

关于联合分布最有用的一条事实:任何形如 $E[g(X, Y)]$ 的期望都可以直接从联合分布律或联合密度算出,无需先推导 $g(X, Y)$ 的分布:

E[g(X, Y)] = \sum_{x,y} g(x, y)\,p_{X,Y}(x, y)\quad\text{(离散)},\qquad E[g(X, Y)] = \iint g(x, y)\,f_{X,Y}(x, y)\,dx\,dy\quad\text{(连续)}

这就是多元的 LOTUS(multivariate law of the unconscious statistician),单变量版的直接推广(见 2.1.1 模块第 4 节)。把它应用到两骰子例的 $g(x, y) = xy$ : $X$ 为第一颗骰子, $Y$ 为两颗骰子之和, $E[XY] = \sum_{x = 1}^{6} \sum_{y} x \cdot y \cdot p_{X,Y}(x, y)$ 。每个非零格 $(x, x + k)$ , $k = 1, \dots, 6$ ,质量 $1/36$ ,故 $E[XY] = (1/36) \sum_{x=1}^{6} \sum_{k=1}^{6} x(x + k) = (1/36)[\sum_x 6x^2 + \sum_x x \sum_k k] = (1/36)[6 \cdot 91 + 21 \cdot 21] = (546 + 441)/36 = 27.4167$ 。线性性给 $E[Y] = E[X_1] + E[X_2] = 7$ 与 $E[X] = 3.5$ ,所以 $E[X] E[Y] = 24.5$ 。

期望的线性性向量形式即 $E[\sum_i a_i X_i] = \sum_i a_i E[X_i]$ ,对任意常数 $a_i$ 成立,无需独立假设——与单变量情形一致。这条恒等式是后续每一个协方差计算的代数引擎。

二、协方差:定义与计算公式

$X$ 与 $Y$ 的协方差度量两者偏离各自均值的共变程度:

$\mathrm{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])].$

展开乘积并应用线性性:

\mathrm{Cov}(X, Y) = E[XY] - E[X]\,E[Y]

此计算公式通常更省力:用多元 LOTUS 算 $E[XY]$ ,再减 $E[X] E[Y]$ 。代入上面两骰子情形: $\mathrm{Cov}(X, Y) = 27.4167 - 24.5 = 2.9167 = 35/12$ 。验证一下: $Y = X + X_2$ ,其中 $X_2$ 是与 $X$ 独立的第二颗骰子,所以 $\mathrm{Cov}(X, Y) = \mathrm{Cov}(X, X) + \mathrm{Cov}(X, X_2) = \mathrm{Var}(X) + 0 = 35/12$ ,与直接计算一致。

两条恒等式将频繁使用。(i) $\mathrm{Cov}(X, X) = E[X^2] - (E[X])^2 = \mathrm{Var}(X)$ ——方差是协方差的特例。(ii) 双线性 / 缩放: $\mathrm{Cov}(aX + b, cY + d) = ac\,\mathrm{Cov}(X, Y)$ ,因为常数加项不影响"偏离均值"的部分。直接推论是方差求和恒等式:

\mathrm{Var}\!\left(\sum_{i=1}^{n} X_i\right) = \sum_{i=1}^{n} \mathrm{Var}(X_i) + 2 \sum_{i < j} \mathrm{Cov}(X_i, X_j)

当 $X_i$ 两两不相关时,所有交叉项消失,塌缩回教科书里"方差可加"的特例。但在真实组合里, $X_i$ 间相关才是常态,而非例外——这些交叉项正是分散化(diversification)论证试图量化的对象。

三、独立蕴涵不相关;反向不成立

设 $X$ 与 $Y$ 独立,则联合分解: $f_{X,Y}(x, y) = f_X(x) f_Y(y)$ (见第 2 节)。把 LOTUS 应用到 $g(x, y) = xy$ :

$E[XY] = \iint xy\,f_X(x)\,f_Y(y)\,dx\,dy = \left(\int x\,f_X(x)\,dx\right)\left(\int y\,f_Y(y)\,dy\right) = E[X]\,E[Y].$

故 $\mathrm{Cov}(X, Y) = 0$ :独立 $\Rightarrow$ 不相关。反向不成立,经典反例值得完整写一遍。

反例: $X \sim U(-1, 1)$ , $Y = X^2$ 。由 $X$ 的对称性 $E[X] = 0$ ,而 $E[XY] = E[X \cdot X^2] = E[X^3] = 0$ (对称区间上的奇函数积分),故 $\mathrm{Cov}(X, Y) = E[XY] - E[X] E[Y] = 0 - 0 = 0$ 。但 $Y$ 是 $X$ 的确定性函数:知道 $X = 0.5$ 即知 $Y = 0.25$ 精确无误。两者最大限度地相关却完全不相关(指 Pearson 协方差为零)。结论:相关系数只捕获依赖的线性成分。 $(X, X^2)$ 之间的关系是纯二次的,交叉矩 $E[XY]$ 对它视而不见。这句话经常被压缩为同济教材里的标准表述:" $X$ 与 $Y$ 不相关但不独立"。

四、Pearson 相关系数

Pearson 相关系数把协方差归一化为 $[-1, 1]$ 内的无量纲数:

\rho(X, Y) = \dfrac{\mathrm{Cov}(X, Y)}{\sigma_X\,\sigma_Y} \in [-1, 1]

上下界来自柯西-施瓦茨不等式(Cauchy-Schwarz inequality),应用到中心化后的随机变量 $X - E[X]$ 与 $Y - E[Y]$ : $E[(X - E[X])(Y - E[Y])]^2 \leq E[(X - E[X])^2] E[(Y - E[Y])^2] = \sigma_X^2 \sigma_Y^2$ ,两边开方再除即得。边界 $|\rho| = 1$ 当且仅当 Cauchy-Schwarz 取等,即 $Y - E[Y]$ 几乎必然是 $X - E[X]$ 的标量倍数——亦即 $Y = aX + b$ , $a \neq 0$ 。换言之, $|\rho| = 1$ 是完美线性情形, $\rho = 0$ 是不相关(不必然独立)情形,中间数值度量线性关联强度。

五、随机向量:均值向量与协方差矩阵

设随机向量 $X = (X_1, \dots, X_n)^T$ ,均值向量 $\mu = E[X]$ 逐分量定义, $\mu_i = E[X_i]$ 。协方差矩阵为

$\Sigma = E[(X - \mu)(X - \mu)^T],\qquad \Sigma_{ij} = \mathrm{Cov}(X_i, X_j).$

协方差矩阵是对称的—— $\mathrm{Cov}(X_i, X_j) = \mathrm{Cov}(X_j, X_i)$ ——并且半正定(positive semidefinite, PSD)。一行证明:对任意向量 $a \in \mathbb{R}^n$ , $a^T \Sigma a = \mathrm{Var}(a^T X) \geq 0$ 。任何线性组合的方差必然非负,而这恰是 PSD 条件。(完整 PSD 机制——特征值刻画、Cholesky 分解的存在性等——见 2.4.1 模块"线性代数本质"。)

任何线性组合 $a^T X$ 的方差现在是一行公式: $\mathrm{Var}(a^T X) = a^T \Sigma a$ 。更一般地,对任意矩阵 $A$ 与常向量 $b$ ,线性变换恒等式为

Y = AX + b \implies E[Y] = A\mu + b,\quad \mathrm{Cov}(Y) = A\,\Sigma\,A^{T}

这是线性因子模型、OLS 回归代数、Kalman 滤波里最重要的一行公式。一旦拿到 $X$ 的 $(\mu, \Sigma)$ ,任意仿射变换 $Y = AX + b$ 的 $(\mu_Y, \Sigma_Y)$ 就免费给出,无需再做任何积分。

六、练习

Exercise

设随机变量 $X_1, X_2, X_3$ 满足 $\mathrm{Var}(X_i) = 4$ , $i = 1, 2, 3$ ,且 $\mathrm{Cov}(X_i, X_j) = 1$ , $i \neq j$ 。用协方差的双线性性,分别计算 $\mathrm{Var}(X_1 + X_2 + X_3)$ 与 $\mathrm{Var}(X_1 + X_2 - 2 X_3)$ 。

提示

使用方差求和恒等式:

\mathrm{Var}(\sum X_i) = \sum \mathrm{Var}(X_i) + 2 \sum_{i \lt j} \mathrm{Cov}(X_i, X_j)

。三个变量,共

\binom{3}{2} = 3

项协方差。

提示

对

\mathrm{Var}(X_1 + X_2 - 2X_3)

,展开协方差双线性:

\mathrm{Var}(aU + bV + cW) = a^2 \mathrm{Var}(U) + b^2 \mathrm{Var}(V) + c^2 \mathrm{Var}(W) + 2ab\,\mathrm{Cov}(U,V) + 2ac\,\mathrm{Cov}(U,W) + 2bc\,\mathrm{Cov}(V,W)

。代入

a = b = 1

c = -2

。

七、通往下一节

至此你已掌握联合矩的代数——协方差、相关系数、方差求和恒等式、PSD 协方差矩阵、仿射变换恒等式 $\mathrm{Cov}(AX + b) = A \Sigma A^T$ 。自然的下一个问题是:哪一类联合分布,使得这些摘要统计量充分地刻画整个分布?答案就是多元正态分布(multivariate normal),这是本模块的高潮(第 4 节)。在多元正态之下, $(\mu, \Sigma)$ 完全决定分布;不相关等价于独立(上文的 $(X, X^2)$ 反例不再发生);条件期望 $E[X \mid Y]$ 退化为 $Y$ 的真实线性函数——这就是 300ETF 与沪深300 指数所对应数据上线性回归在总体水平上为何如此奏效的原因,以及一切联合正态假设下的量化建模(包括你日后在私募自营盘上写的每一个线性因子模型)所依赖的底层结构。