← 返回模块
2.4.1.3beta 可读 · 未来付费校验通过内容版本 2026-05-25

正交性、投影与最小二乘

2.4.1 · 线性代数核心 · 数学与统计能力

北京某私募的量化研究员手头有 1,500 个交易日的沪深300 ETF(300ETF)收益序列,外加 12 个候选因子——动量、价值、低波、三个流动性代理、六个宏观贝塔。她想要的是这 12 个因子在 L2 意义下最接近 ETF 收益的线性组合。1,500 个方程对 12 个未知数,这是高度超定的方程组,根本不存在精确解,她只能挑出​​最佳近似​​。给出 β^\hat\beta 的全部机制就是把观测向量正交投影到因子矩阵 XX 的列空间——闭式解就是正规方程 XTXβ^=XTyX^T X \hat\beta = X^T y。本节从几何出发把这条闭式公式拼出来,从欧氏内积开始,落到投影矩阵 P=A(ATA)1ATP = A(A^T A)^{-1} A^T

一、内积、范数与夹角

Rn\mathbb{R}^n 上的标准内积定义为

x,y=xTy=i=1nxiyi\langle x, y \rangle = x^T y = \sum_{i=1}^n x_i y_i

它对称(x,y=y,x\langle x, y \rangle = \langle y, x \rangle)、双线性、正定(x,x0\langle x, x \rangle \geq 0,等号当且仅当 x=0x = 0)。由内积诱导出的向量范数(​​L2 范数​​)为 x2=xTx\|x\|_2 = \sqrt{x^T x},两非零向量夹角的余弦为

cosθ=xTyx2y2\cos \theta = \frac{x^T y}{\|x\|_2 \|y\|_2}

柯西-施瓦茨不等式 xTyx2y2|x^T y| \leq \|x\|_2 \|y\|_2 保证余弦落在 [1,1][-1, 1]。下面的滑块让你拖动两个二维向量的分量,观察其余弦相似度(cosine similarity):

Formula Explorer

(x1*y1 + x2*y2) / sqrt(x1*x1 + x2*x2) / sqrt(y1*y1 + y2*y2)

​柯西-施瓦茨证明。​​固定 x,yx, y,考虑 xty20\|x - ty\|^2 \geq 0 对所有 tRt \in \mathbb{R} 成立。展开得 x22txTy+t2y20\|x\|^2 - 2t x^T y + t^2 \|y\|^2 \geq 0,关于 tt 的二次多项式处处非负,判别式 0\leq 0(2xTy)24x2y20(2 x^T y)^2 - 4 \|x\|^2 \|y\|^2 \leq 0,整理即得 xTyxy|x^T y| \leq \|x\| \|y\|。等号成立当且仅当 xxyy 共线。

二、正交与标准正交集

两个向量当 xTy=0x^T y = 0 时称为​​正交​​。一个集合若任意两元素相互正交则称为正交集,若每个向量再具有单位范数则称为​​标准正交​​集。标准正交集自动线性无关:若 aiqi=0\sum a_i q_i = 0,对两边取与 qjq_j 的内积即得 aj=0a_j = 0。列向量为标准正交的方阵 QQ 满足 QTQ=IQ^T Q = I,称为​​正交矩阵​​。

三、施密特正交化

给定线性无关的 v1,,vkv_1, \ldots, v_k,​​施密特正交化(Gram-Schmidt)​​通过逐次减去投影并归一化,构造出 span{v1,,vk}\mathrm{span}\{v_1, \ldots, v_k\} 的一组标准正交基 q1,,qkq_1, \ldots, q_k

  1. u1=v1u_1 = v_1,归一化 q1=u1/u1q_1 = u_1 / \|u_1\|
  2. j=2,,kj = 2, \ldots, k,减去对先前每个方向的投影 uj=vji<jvj,qiqiu_j = v_j - \sum_{i < j} \langle v_j, q_i \rangle q_i,再归一化 qj=uj/ujq_j = u_j / \|u_j\|

得到矩阵 Q=[q1qk]Q = [q_1 \mid \ldots \mid q_k],结合一个上三角矩阵 RR(记录投影系数),构成 QR 分解 A=QRA = QR。我们不在此处证明 QR 的存在性——施密特过程本身就是构造性证明。

四、向子空间的正交投影

VRmV \subseteq \mathbb{R}^m 为子空间,ARm×kA \in \mathbb{R}^{m \times k} 的列构成 VV 的一组基(即 AA 列满秩 kk)。向量 bRmb \in \mathbb{R}^mVV 的​​正交投影​​是唯一使 bp2\|b - p\|_2 最小的 pVp \in V。写 p=Ax^p = A \hat x,则误差 e=bAx^e = b - A\hat x 必须正交于 AA 的每一列,即 ATe=0A^T e = 0

AT(bAx^)=0    ATAx^=ATbA^T (b - A \hat x) = 0 \implies A^T A \hat x = A^T b

AA 列满秩时 ATAA^T A 可逆,故 x^=(ATA)1ATb\hat x = (A^T A)^{-1} A^T b。回代得到投影 p=Ax^p = A \hat x,由​​投影矩阵​

P=A(ATA)1ATP = A (A^T A)^{-1} A^T

给出。PP 的两条标志性质:对称(PT=PP^T = P)与幂等(P2=PP^2 = P)。前者因 ATAA^T A 对称、其逆也对称;后者因投影两次仍落在同一点上。这与 Strang 所讲的「四个基本子空间」一致:Rm\mathbb{R}^m 分解为 AA 的列空间与 AA 的左零空间之直和,PP 保留前者,压掉后者。

五、最小二乘

把上一节的投影结论套到超定回归。设设计矩阵 XRN×kX \in \mathbb{R}^{N \times k}NkN \gg k),观测向量 yRNy \in \mathbb{R}^N,​​最小二乘问题​​为

minβRkyXβ22\min_{\beta \in \mathbb{R}^k} \|y - X\beta\|_2^2

极小值点 β^\hat\beta 即把 yy 正交投影到 XX 列空间的系数——只需把上一节的 AXA \to Xbyb \to yx^β^\hat x \to \hat\beta 替换一遍即可。一阶条件 XT(yXβ^)=0X^T(y - X\hat\beta) = 0 即​​正规方程​​:

XTXβ^=XTy,β^=(XTX)1XTyX^T X \hat\beta = X^T y, \quad \hat\beta = (X^T X)^{-1} X^T y

XX 列满秩时 β^\hat\beta 唯一。拟合值 y^=Xβ^=Py\hat y = X\hat\beta = P yyy 向因子列空间的投影;残差 yy^y - \hat y 正交于每一根因子列。这条几何性质同时解释了为什么任何一份回归诊断报告里都有「残差与每个回归量的内积为零」——这不是经验巧合,而是估计量本身的结构性产物。

普通最小二乘(OLS)的统计解释(高斯-马尔可夫定理、BLUE、假设检验)属于模块 2.2.2 的内容;本节强调的,是其背后的线性代数对象——一次正交投影。

六、练习

Exercise

对向量 v1 = (1,1,0), v2 = (1,0,1), v3 = (0,1,1) 实施施密特正交化,得到 R3\mathbb{R}^3 的标准正交基 q1, q2, q3。

提示
u1=v1=(1,1,0)u_1 = v_1 = (1,1,0) 出发,归一化得 q1=(1/2)(1,1,0)q_1 = (1/\sqrt{2})(1,1,0);下一步先计算内积 v2,q1=1/2\langle v_2, q_1 \rangle = 1/\sqrt{2} 再做减法。
提示
第二步残差为 u2=v2(1/2)q1=(1/2,1/2,1)u_2 = v_2 - (1/\sqrt{2}) q_1 = (1/2, -1/2, 1),归一化得 q2=(1/6)(1,1,2)q_2 = (1/\sqrt{6})(1, -1, 2)。对 v3v_3 同时减去对 q1q_1q2q_2 的投影后归一化得 q3q_3

七、通往下一节

到这里你已经拥有了量化研究员对沪深300 因子建模、组合优化、协方差估计反复调用的几何工具——内积、投影、最小二乘。下一节把 ATAA^T A 内部隐藏的对称性提升为谱定理,并跨越到任意实矩阵的奇异值分解 A=UΣVTA = U \Sigma V^T,把本模块前三节做的事情统一在一组分解之下,并自然引出 PCA、条件数与低秩近似。