← 返回模块
2.4.1.4beta 可读 · 未来付费校验通过内容版本 2026-05-25

特征分解与奇异值分解

2.4.1 · 线性代数核心 · 数学与统计能力

上海某多策略私募的风控总监周一开盘前打开她的笔记本:一只新策略子账户即将上线,桌面上躺着一个 500×500 的样本协方差矩阵 Σ\Sigma,由沪深300 成分股日收益估出。CIO 只问她两件事:哪两个名义因子方向解释了组合方差的主要部分,以及这一结论对输入窗口的微小扰动有多敏感。这两个问题都由同一个对象回答——Σ\Sigma 的特征分解。前者由特征向量给出方向,后者由最大特征值与最小特征值之比给出敏感度。本节把前三节的代数提升到谱论,并跨越到对每个实矩阵都成立的奇异值分解(SVD),把条件数、PCA 与低秩近似统一在一个分解之下。

一、特征值、特征向量与特征多项式

实方阵 ARn×nA \in \mathbb{R}^{n \times n} 的​​特征值​ λ\lambda 与​​特征向量​ v0v \neq 0 满足

Av=λvA v = \lambda v

特征向量是 AA 不旋转、仅按 λ\lambda 伸缩的方向。改写为 (AλI)v=0(A - \lambda I) v = 0,存在非零解当且仅当 AλIA - \lambda I 奇异,当且仅当 det(AλI)=0\det(A - \lambda I) = 0。这条方程称为​​特征多项式​​,是关于 λ\lambdann 次多项式,其根(计重数)恰为 AA 的全部特征值。

例:取 A=(2112)A = \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix},特征多项式 (2λ)(2λ)1=λ24λ+3=(λ1)(λ3)(2 - \lambda)(2 - \lambda) - 1 = \lambda^2 - 4\lambda + 3 = (\lambda - 1)(\lambda - 3),故 λ1=1\lambda_1 = 1λ2=3\lambda_2 = 3。对 λ1=1\lambda_1 = 1(AI)v=0(A - I) v = 0v1+v2=0v_1 + v_2 = 0,得 v=(1,1)v = (1, -1);对 λ2=3\lambda_2 = 3(A3I)v=0(A - 3I) v = 0v1+v2=0-v_1 + v_2 = 0,得 v=(1,1)v = (1, 1)。两特征向量恰好正交,正是下面谱定理的前奏。

下面的滑块让你拖动 λ\lambda 观察特征方程的取值在何处过零:

Formula Explorer

(2-lambda)*(2-lambda) - 1

二、特征分解

ARn×nA \in \mathbb{R}^{n \times n} 拥有 nn 个线性无关的特征向量,把它们排成 VV 的列、对应特征值列在对角矩阵 Λ\Lambda 上,则

A=VΛV1A = V \Lambda V^{-1}

此即​​特征分解​​。nn 个特征值两两相异时它总成立;否则可能失效(标准反例是剪切矩阵 (1101)\begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix},特征值 11 只对应一维特征子空间)。不可对角化的矩阵仍有约当标准型——存在性此处只引用,不展开。

三、实对称矩阵的谱定理

量化实践真正依赖的优良情形:若实矩阵 AA ​对称​​(A=ATA = A^T),则:

  1. 所有特征值为实数。
  2. 不同特征值对应的特征向量正交。
  3. AA 存在​​标准正交​​的特征基,分解特化为 A=QΛQTA = Q \Lambda Q^T,其中 QTQ=IQ^T Q = I

对上一节的 2×22 \times 2 例子,把特征向量归一化为 q1=(1/2)(1,1)q_1 = (1/\sqrt{2})(1, -1)q2=(1/2)(1,1)q_2 = (1/\sqrt{2})(1, 1),置 Q=[q1q2]Q = [q_1 \mid q_2]Λ=diag(1,3)\Lambda = \mathrm{diag}(1, 3),可直接验证 QTQ=IQ^T Q = IA=QΛQTA = Q \Lambda Q^T。条目 1 的证明大意:对称矩阵 AA 的(可能复值)特征值 λ\lambda 满足 vTAv=(Av)Tv=λˉvTvv^T A v = (Av)^T v = \bar\lambda v^T v,又有 vTAv=λvTvv^T A v = \lambda v^T v,比较即得 λ=λˉ\lambda = \bar\lambda,故 λ\lambda 为实。

典型应用:​​协方差矩阵​ Σ\Sigma 既对称又半正定(所有特征值 0\geq 0)。它的标准正交特征基给出数据的​​主成分​​——数据方差最大的若干方向,按 λi\lambda_i 从大到小排列。把 PCA 写成方差最大化的拉格朗日推导留到模块 2.6.4;本节请你带走的,是「PCA 离这里只差一步拉格朗日」这一事实。

四、奇异值分解

每一个实 m×nm \times n 矩阵 AA——不论方非方、不论是否可对角化——都允许分解

A=UΣVTA = U \Sigma V^T

其中 URm×mU \in \mathbb{R}^{m \times m}VRn×nV \in \mathbb{R}^{n \times n} 是正交矩阵,ΣRm×n\Sigma \in \mathbb{R}^{m \times n} 对角,其对角元 σ1σ2σmin(m,n)0\sigma_1 \geq \sigma_2 \geq \ldots \geq \sigma_{\min(m,n)} \geq 0 称为 AA 的​​奇异值​​。与特征值的关系直接:ATA=VΣTΣVTA^T A = V \Sigma^T \Sigma V^T,故 ΣTΣ\Sigma^T \Sigma 的对角元为 σi2\sigma_i^2,即 AA 的奇异值是 ATAA^T A 各特征值的非负平方根(ATAA^T A 对称半正定,谱定理保证存在性)。也正因 ATAA^T A 对每个实 AA 都对称半正定,SVD 对每个实矩阵都存在。

在 Strang 的「四个基本子空间」图景中:UU 中对应 σi>0\sigma_i > 0 的列构成 AA 列空间的标准正交基,其余列构成左零空间的基;VV 的列对 AA 的行空间与零空间起同样作用。

五、条件数与数值灵敏度

方阵的​​条件数​​为

κ(A)=σmaxσmin\kappa(A) = \frac{\sigma_{\max}}{\sigma_{\min}}

它衡量在求解 Ax=bAx = b 时,bb 的相对扰动如何被放大为 xx 的相对扰动。一个近奇异的 2×22 \times 2 例子:A=(1111.0001)A = \begin{pmatrix} 1 & 1 \\ 1 & 1.0001 \end{pmatrix}σmax2\sigma_{\max} \approx 2σmin5×105\sigma_{\min} \approx 5 \times 10^{-5},故 κ(A)4×104\kappa(A) \approx 4 \times 10^4bb 的 0.01% 扰动可造成 xx 数个百分点的偏移。风控总监「结果对窗口扰动有多敏感」的问题,化归为这一个数。具体的数值 SVD 算法(Golub-Reinsch、随机化 SVD)属于编程 track,此处不手算。

六、练习

Exercise

求实对称矩阵 A = ((2,1),(1,2)) 的特征值与对应的一组标准正交特征基,并显式写出 A = Q Lambda Q^T。

提示
写特征多项式 (2λ)21(2-\lambda)^2 - 1,整理为两个一次因子之积即可直接读出两个特征值,无需求根公式。
提示
对每个特征值 λ\lambda,解 (AλI)v=0(A - \lambda I) v = 0 得到一个特征向量,再除以 v\|v\| 归一化。把两个单位特征向量并成 QQ 的两列,特征值放在 Λ\Lambda 对角即可。

七、通往下一模块

至此你掌握了量化实践中两类核心分解:用于对称矩阵(协方差、海森矩阵、因子载荷)的谱定理,以及对一切实矩阵都成立的 SVD(PCA、病态条件数、低秩压缩)。下一模块 ​2.4.2 优化所需的微积分​ 接着把故事推进一步:实值函数的导数与梯度、海森矩阵作为对称矩阵(其特征值刻画驻点性质),以及把线性代数谱论与二阶优化几何连接起来的泰勒展开。任何一家 CFFEX 上市股指期权做市账户在做波动率曲面的二阶健康度检查时,背后调用的正是本节的谱内容,作用在下一模块要推导的那个矩阵上。