某多策略基金的风控官想要一个数:在已经持有一个长久期债券账户的组合里,再叠加一个沪深300 多头股票账户,会增加多少方差?答案不是"沪深300 方差加债券方差",而是"沪深300 方差加债券方差再加两倍协方差"——而这个协方差,正是上证日盘与 CFFEX 国债期货市场每天联动着送上来的统计量。要拿到这一个数,把整个联合分布全写出来是大材小用;风控官真正做的是把联合分布压缩成两阶矩与一项交叉矩——协方差(covariance)。这一节定义协方差与 Pearson 相关系数,通过多元 LOTUS 证明它们的核心代数恒等式,并把整套工具推广到随机向量:协方差矩阵(covariance matrix)Σ、它的半正定(positive semidefinite, PSD)结构、以及驱动一切下游线性因子模型的"方差变换恒等式" Cov(AX+b)=AΣAT。
一、多元 LOTUS
关于联合分布最有用的一条事实:任何形如 E[g(X,Y)] 的期望都可以直接从联合分布律或联合密度算出,无需先推导 g(X,Y) 的分布:
E[g(X,Y)]=x,y∑g(x,y)pX,Y(x,y)(离散),E[g(X,Y)]=∬g(x,y)fX,Y(x,y)dxdy(连续)
这就是多元的 LOTUS(multivariate law of the unconscious statistician),单变量版的直接推广(见 2.1.1 模块第 4 节)。把它应用到两骰子例的 g(x,y)=xy:X 为第一颗骰子,Y 为两颗骰子之和,E[XY]=∑x=16∑yx⋅y⋅pX,Y(x,y)。每个非零格 (x,x+k),k=1,…,6,质量 1/36,故 E[XY]=(1/36)∑x=16∑k=16x(x+k)=(1/36)[∑x6x2+∑xx∑kk]=(1/36)[6⋅91+21⋅21]=(546+441)/36=27.4167。线性性给 E[Y]=E[X1]+E[X2]=7 与 E[X]=3.5,所以 E[X]E[Y]=24.5。
期望的线性性向量形式即 E[∑iaiXi]=∑iaiE[Xi],对任意常数 ai 成立,无需独立假设——与单变量情形一致。这条恒等式是后续每一个协方差计算的代数引擎。
二、协方差:定义与计算公式
X 与 Y 的协方差度量两者偏离各自均值的共变程度:
Cov(X,Y)=E[(X−E[X])(Y−E[Y])].
展开乘积并应用线性性:
Cov(X,Y)=E[XY]−E[X]E[Y]
此计算公式通常更省力:用多元 LOTUS 算 E[XY],再减 E[X]E[Y]。代入上面两骰子情形:Cov(X,Y)=27.4167−24.5=2.9167=35/12。验证一下:Y=X+X2,其中 X2 是与 X 独立的第二颗骰子,所以 Cov(X,Y)=Cov(X,X)+Cov(X,X2)=Var(X)+0=35/12,与直接计算一致。
两条恒等式将频繁使用。(i) Cov(X,X)=E[X2]−(E[X])2=Var(X)——方差是协方差的特例。(ii) 双线性 / 缩放:Cov(aX+b,cY+d)=acCov(X,Y),因为常数加项不影响"偏离均值"的部分。直接推论是方差求和恒等式:
Var(i=1∑nXi)=i=1∑nVar(Xi)+2i<j∑Cov(Xi,Xj)
当 Xi 两两不相关时,所有交叉项消失,塌缩回教科书里"方差可加"的特例。但在真实组合里,Xi 间相关才是常态,而非例外——这些交叉项正是分散化(diversification)论证试图量化的对象。
三、独立蕴涵不相关;反向不成立
设 X 与 Y 独立,则联合分解:fX,Y(x,y)=fX(x)fY(y)(见第 2 节)。把 LOTUS 应用到 g(x,y)=xy:
E[XY]=∬xyfX(x)fY(y)dxdy=(∫xfX(x)dx)(∫yfY(y)dy)=E[X]E[Y].
故 Cov(X,Y)=0:独立 ⇒ 不相关。反向不成立,经典反例值得完整写一遍。
反例:X∼U(−1,1),Y=X2。由 X 的对称性 E[X]=0,而 E[XY]=E[X⋅X2]=E[X3]=0(对称区间上的奇函数积分),故 Cov(X,Y)=E[XY]−E[X]E[Y]=0−0=0。但 Y 是 X 的确定性函数:知道 X=0.5 即知 Y=0.25 精确无误。两者最大限度地相关却完全不相关(指 Pearson 协方差为零)。结论:相关系数只捕获依赖的线性成分。(X,X2) 之间的关系是纯二次的,交叉矩 E[XY] 对它视而不见。这句话经常被压缩为 同济 教材里的标准表述:"X 与 Y 不相关但不独立"。
四、Pearson 相关系数
Pearson 相关系数把协方差归一化为 [−1,1] 内的无量纲数:
ρ(X,Y)=σXσYCov(X,Y)∈[−1,1]
上下界来自柯西-施瓦茨不等式(Cauchy-Schwarz inequality),应用到中心化后的随机变量 X−E[X] 与 Y−E[Y]:E[(X−E[X])(Y−E[Y])]2≤E[(X−E[X])2]E[(Y−E[Y])2]=σX2σY2,两边开方再除即得。边界 ∣ρ∣=1 当且仅当 Cauchy-Schwarz 取等,即 Y−E[Y] 几乎必然是 X−E[X] 的标量倍数——亦即 Y=aX+b,a=0。换言之,∣ρ∣=1 是完美线性情形,ρ=0 是不相关(不必然独立)情形,中间数值度量线性关联强度。
五、随机向量:均值向量与协方差矩阵
设随机向量 X=(X1,…,Xn)T,均值向量 μ=E[X] 逐分量定义,μi=E[Xi]。协方差矩阵为
Σ=E[(X−μ)(X−μ)T],Σij=Cov(Xi,Xj).
协方差矩阵是对称的——Cov(Xi,Xj)=Cov(Xj,Xi)——并且半正定(positive semidefinite, PSD)。一行证明:对任意向量 a∈Rn,aTΣa=Var(aTX)≥0。任何线性组合的方差必然非负,而这恰是 PSD 条件。(完整 PSD 机制——特征值刻画、Cholesky 分解的存在性等——见 2.4.1 模块"线性代数本质"。)
任何线性组合 aTX 的方差现在是一行公式:Var(aTX)=aTΣa。更一般地,对任意矩阵 A 与常向量 b,线性变换恒等式为
Y=AX+b⟹E[Y]=Aμ+b,Cov(Y)=AΣAT
这是线性因子模型、OLS 回归代数、Kalman 滤波里最重要的一行公式。一旦拿到 X 的 (μ,Σ),任意仿射变换 Y=AX+b 的 (μY,ΣY) 就免费给出,无需再做任何积分。
六、练习
Exercise
设随机变量 X1,X2,X3 满足 Var(Xi)=4,i=1,2,3,且 Cov(Xi,Xj)=1,i=j。用协方差的双线性性,分别计算 Var(X1+X2+X3) 与 Var(X1+X2−2X3)。
提示
使用方差求和恒等式:
Var(∑Xi)=∑Var(Xi)+2∑i<jCov(Xi,Xj)。三个变量,共
(23)=3 项协方差。
提示
对
Var(X1+X2−2X3),展开协方差双线性:
Var(aU+bV+cW)=a2Var(U)+b2Var(V)+c2Var(W)+2abCov(U,V)+2acCov(U,W)+2bcCov(V,W)。代入
a=b=1,
c=−2。
七、通往下一节
至此你已掌握联合矩的代数——协方差、相关系数、方差求和恒等式、PSD 协方差矩阵、仿射变换恒等式 Cov(AX+b)=AΣAT。自然的下一个问题是:哪一类联合分布,使得这些摘要统计量充分地刻画整个分布?答案就是多元正态分布(multivariate normal),这是本模块的高潮(第 4 节)。在多元正态之下,(μ,Σ) 完全决定分布;不相关等价于独立(上文的 (X,X2) 反例不再发生);条件期望 E[X∣Y] 退化为 Y 的真实线性函数——这就是 300ETF 与沪深300 指数所对应数据上线性回归在总体水平上为何如此奏效的原因,以及一切联合正态假设下的量化建模(包括你日后在 私募 自营盘上写的每一个线性因子模型)所依赖的底层结构。