← 返回模块
2.1.2.3beta 可读 · 未来付费校验通过内容版本 2026-05-24

协方差、相关系数与联合矩

2.1.2 · 条件分布与联合分布 · 数学与统计能力

某多策略基金的风控官想要一个数:在已经持有一个长久期债券账户的组合里,再叠加一个沪深300 多头股票账户,会增加多少方差?答案不是"沪深300 方差加债券方差",而是"沪深300 方差加债券方差再加两倍协方差"——而这个协方差,正是上证日盘与 CFFEX 国债期货市场每天联动着送上来的统计量。要拿到这一个数,把整个联合分布全写出来是大材小用;风控官真正做的是把联合分布压缩成两阶矩与一项交叉矩——​​协方差​​(covariance)。这一节定义协方差与 Pearson 相关系数,通过多元 LOTUS 证明它们的核心代数恒等式,并把整套工具推广到随机向量:协方差矩阵(covariance matrix)Σ\Sigma、它的半正定(positive semidefinite, PSD)结构、以及驱动一切下游线性因子模型的"方差变换恒等式" Cov(AX+b)=AΣAT\mathrm{Cov}(AX + b) = A \Sigma A^T

一、多元 LOTUS

关于联合分布最有用的一条事实:任何形如 E[g(X,Y)]E[g(X, Y)] 的期望都可以直接从联合分布律或联合密度算出,无需先推导 g(X,Y)g(X, Y) 的分布:

E[g(X,Y)]=x,yg(x,y)pX,Y(x,y)(离散),E[g(X,Y)]=g(x,y)fX,Y(x,y)dxdy(连续)E[g(X, Y)] = \sum_{x,y} g(x, y)\,p_{X,Y}(x, y)\quad\text{(离散)},\qquad E[g(X, Y)] = \iint g(x, y)\,f_{X,Y}(x, y)\,dx\,dy\quad\text{(连续)}

这就是​​多元的 LOTUS​​(multivariate law of the unconscious statistician),单变量版的直接推广(见 2.1.1 模块第 4 节)。把它应用到两骰子例的 g(x,y)=xyg(x, y) = xy:XX 为第一颗骰子,YY 为两颗骰子之和,E[XY]=x=16yxypX,Y(x,y)E[XY] = \sum_{x = 1}^{6} \sum_{y} x \cdot y \cdot p_{X,Y}(x, y)。每个非零格 (x,x+k)(x, x + k),k=1,,6k = 1, \dots, 6,质量 1/361/36,故 E[XY]=(1/36)x=16k=16x(x+k)=(1/36)[x6x2+xxkk]=(1/36)[691+2121]=(546+441)/36=27.4167E[XY] = (1/36) \sum_{x=1}^{6} \sum_{k=1}^{6} x(x + k) = (1/36)[\sum_x 6x^2 + \sum_x x \sum_k k] = (1/36)[6 \cdot 91 + 21 \cdot 21] = (546 + 441)/36 = 27.4167。线性性给 E[Y]=E[X1]+E[X2]=7E[Y] = E[X_1] + E[X_2] = 7E[X]=3.5E[X] = 3.5,所以 E[X]E[Y]=24.5E[X] E[Y] = 24.5

期望的线性性向量形式即 E[iaiXi]=iaiE[Xi]E[\sum_i a_i X_i] = \sum_i a_i E[X_i],对任意常数 aia_i 成立,​​无需独立假设​​——与单变量情形一致。这条恒等式是后续每一个协方差计算的代数引擎。

二、协方差:定义与计算公式

XXYY 的​​协方差​​度量两者偏离各自均值的共变程度:

Cov(X,Y)=E[(XE[X])(YE[Y])].\mathrm{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])].

展开乘积并应用线性性:

Cov(X,Y)=E[XY]E[X]E[Y]\mathrm{Cov}(X, Y) = E[XY] - E[X]\,E[Y]

此​​计算公式​​通常更省力:用多元 LOTUS 算 E[XY]E[XY],再减 E[X]E[Y]E[X] E[Y]。代入上面两骰子情形:Cov(X,Y)=27.416724.5=2.9167=35/12\mathrm{Cov}(X, Y) = 27.4167 - 24.5 = 2.9167 = 35/12。验证一下:Y=X+X2Y = X + X_2,其中 X2X_2 是与 XX 独立的第二颗骰子,所以 Cov(X,Y)=Cov(X,X)+Cov(X,X2)=Var(X)+0=35/12\mathrm{Cov}(X, Y) = \mathrm{Cov}(X, X) + \mathrm{Cov}(X, X_2) = \mathrm{Var}(X) + 0 = 35/12,与直接计算一致。

两条恒等式将频繁使用。(i) Cov(X,X)=E[X2](E[X])2=Var(X)\mathrm{Cov}(X, X) = E[X^2] - (E[X])^2 = \mathrm{Var}(X)——方差是协方差的特例。(ii) ​双线性 / 缩放​​:Cov(aX+b,cY+d)=acCov(X,Y)\mathrm{Cov}(aX + b, cY + d) = ac\,\mathrm{Cov}(X, Y),因为常数加项不影响"偏离均值"的部分。直接推论是​​方差求和恒等式​​:

Var ⁣(i=1nXi)=i=1nVar(Xi)+2i<jCov(Xi,Xj)\mathrm{Var}\!\left(\sum_{i=1}^{n} X_i\right) = \sum_{i=1}^{n} \mathrm{Var}(X_i) + 2 \sum_{i < j} \mathrm{Cov}(X_i, X_j)

XiX_i ​两两不相关​​时,所有交叉项消失,塌缩回教科书里"方差可加"的特例。但在真实组合里,XiX_i 间相关才是常态,而非例外——这些交叉项正是分散化(diversification)论证试图量化的对象。

三、独立蕴涵不相关;反向不成立

XXYY 独立,则联合分解:fX,Y(x,y)=fX(x)fY(y)f_{X,Y}(x, y) = f_X(x) f_Y(y)(见第 2 节)。把 LOTUS 应用到 g(x,y)=xyg(x, y) = xy:

E[XY]=xyfX(x)fY(y)dxdy=(xfX(x)dx)(yfY(y)dy)=E[X]E[Y].E[XY] = \iint xy\,f_X(x)\,f_Y(y)\,dx\,dy = \left(\int x\,f_X(x)\,dx\right)\left(\int y\,f_Y(y)\,dy\right) = E[X]\,E[Y].

Cov(X,Y)=0\mathrm{Cov}(X, Y) = 0:​​独立 \Rightarrow 不相关​​。反向不成立,经典反例值得完整写一遍。

​反例:XU(1,1)X \sim U(-1, 1),Y=X2Y = X^2​​​。由 XX 的对称性 E[X]=0E[X] = 0,而 E[XY]=E[XX2]=E[X3]=0E[XY] = E[X \cdot X^2] = E[X^3] = 0(对称区间上的奇函数积分),故 Cov(X,Y)=E[XY]E[X]E[Y]=00=0\mathrm{Cov}(X, Y) = E[XY] - E[X] E[Y] = 0 - 0 = 0。但 YYXX 的确定性函数:知道 X=0.5X = 0.5 即知 Y=0.25Y = 0.25 精确无误。两者​​最大限度地相关​​却​​完全不相关​​(指 Pearson 协方差为零)。结论:相关系数只捕获依赖的​​线性​​成分。(X,X2)(X, X^2) 之间的关系是纯二次的,交叉矩 E[XY]E[XY] 对它视而不见。这句话经常被压缩为 同济 教材里的标准表述:"XXYY 不相关但不独立"。

四、Pearson 相关系数

Pearson 相关系数把协方差归一化为 [1,1][-1, 1] 内的无量纲数:

ρ(X,Y)=Cov(X,Y)σXσY[1,1]\rho(X, Y) = \dfrac{\mathrm{Cov}(X, Y)}{\sigma_X\,\sigma_Y} \in [-1, 1]

上下界来自​​柯西-施瓦茨不等式​​(Cauchy-Schwarz inequality),应用到中心化后的随机变量 XE[X]X - E[X]YE[Y]Y - E[Y]:E[(XE[X])(YE[Y])]2E[(XE[X])2]E[(YE[Y])2]=σX2σY2E[(X - E[X])(Y - E[Y])]^2 \leq E[(X - E[X])^2] E[(Y - E[Y])^2] = \sigma_X^2 \sigma_Y^2,两边开方再除即得。边界 ρ=1|\rho| = 1 当且仅当 Cauchy-Schwarz 取等,即 YE[Y]Y - E[Y] 几乎必然是 XE[X]X - E[X] 的标量倍数——亦即 Y=aX+bY = aX + b,a0a \neq 0。换言之,ρ=1|\rho| = 1 是​​完美线性​​情形,ρ=0\rho = 0 是不相关(不必然独立)情形,中间数值度量线性关联强度。

五、随机向量:均值向量与协方差矩阵

设随机向量 X=(X1,,Xn)TX = (X_1, \dots, X_n)^T,​​均值向量​ μ=E[X]\mu = E[X] 逐分量定义,μi=E[Xi]\mu_i = E[X_i]。​​协方差矩阵​​为

Σ=E[(Xμ)(Xμ)T],Σij=Cov(Xi,Xj).\Sigma = E[(X - \mu)(X - \mu)^T],\qquad \Sigma_{ij} = \mathrm{Cov}(X_i, X_j).

协方差矩阵是对称的——Cov(Xi,Xj)=Cov(Xj,Xi)\mathrm{Cov}(X_i, X_j) = \mathrm{Cov}(X_j, X_i)——并且​​半正定​​(positive semidefinite, PSD)。一行证明:对任意向量 aRna \in \mathbb{R}^n,aTΣa=Var(aTX)0a^T \Sigma a = \mathrm{Var}(a^T X) \geq 0。任何线性组合的方差必然非负,而这恰是 PSD 条件。(完整 PSD 机制——特征值刻画、Cholesky 分解的存在性等——见 2.4.1 模块"线性代数本质"。)

任何线性组合 aTXa^T X 的方差现在是一行公式:Var(aTX)=aTΣa\mathrm{Var}(a^T X) = a^T \Sigma a。更一般地,对任意矩阵 AA 与常向量 bb,线性变换恒等式为

Y=AX+b    E[Y]=Aμ+b,Cov(Y)=AΣATY = AX + b \implies E[Y] = A\mu + b,\quad \mathrm{Cov}(Y) = A\,\Sigma\,A^{T}

这是​​线性因子模型、OLS 回归代数、Kalman 滤波​​里最重要的一行公式。一旦拿到 XX(μ,Σ)(\mu, \Sigma),任意仿射变换 Y=AX+bY = AX + b(μY,ΣY)(\mu_Y, \Sigma_Y) 就免费给出,无需再做任何积分。

六、练习

Exercise

设随机变量 X1,X2,X3X_1, X_2, X_3 满足 Var(Xi)=4\mathrm{Var}(X_i) = 4,i=1,2,3i = 1, 2, 3,且 Cov(Xi,Xj)=1\mathrm{Cov}(X_i, X_j) = 1,iji \neq j。用协方差的双线性性,分别计算 Var(X1+X2+X3)\mathrm{Var}(X_1 + X_2 + X_3)Var(X1+X22X3)\mathrm{Var}(X_1 + X_2 - 2 X_3)

提示
使用方差求和恒等式:Var(Xi)=Var(Xi)+2i<jCov(Xi,Xj)\mathrm{Var}(\sum X_i) = \sum \mathrm{Var}(X_i) + 2 \sum_{i \lt j} \mathrm{Cov}(X_i, X_j)。三个变量,共 (32)=3\binom{3}{2} = 3 项协方差。
提示
Var(X1+X22X3)\mathrm{Var}(X_1 + X_2 - 2X_3),展开协方差双线性:Var(aU+bV+cW)=a2Var(U)+b2Var(V)+c2Var(W)+2abCov(U,V)+2acCov(U,W)+2bcCov(V,W)\mathrm{Var}(aU + bV + cW) = a^2 \mathrm{Var}(U) + b^2 \mathrm{Var}(V) + c^2 \mathrm{Var}(W) + 2ab\,\mathrm{Cov}(U,V) + 2ac\,\mathrm{Cov}(U,W) + 2bc\,\mathrm{Cov}(V,W)。代入 a=b=1a = b = 1,c=2c = -2

七、通往下一节

至此你已掌握联合矩的代数——协方差、相关系数、方差求和恒等式、PSD 协方差矩阵、仿射变换恒等式 Cov(AX+b)=AΣAT\mathrm{Cov}(AX + b) = A \Sigma A^T。自然的下一个问题是:哪一类联合分布,使得这些摘要统计量​​充分​​地刻画整个分布?答案就是​​多元正态分布​​(multivariate normal),这是本模块的高潮(第 4 节)。在多元正态之下,(μ,Σ)(\mu, \Sigma) 完全决定分布;不相关等价于独立(上文的 (X,X2)(X, X^2) 反例不再发生);条件期望 E[XY]E[X \mid Y] 退化为 YY 的真实线性函数——这就是 300ETF 与沪深300 指数所对应数据上线性回归在总体水平上为何如此奏效的原因,以及一切联合正态假设下的量化建模(包括你日后在 私募 自营盘上写的每一个线性因子模型)所依赖的底层结构。