正交性、投影与最小二乘 — 线性代数核心

北京某私募的量化研究员手头有 1,500 个交易日的沪深300 ETF（300ETF）收益序列，外加 12 个候选因子——动量、价值、低波、三个流动性代理、六个宏观贝塔。她想要的是这 12 个因子在 L2 意义下最接近 ETF 收益的线性组合。1,500 个方程对 12 个未知数，这是高度超定的方程组，根本不存在精确解，她只能挑出最佳近似。给出 $\hat\beta$ 的全部机制就是把观测向量正交投影到因子矩阵 $X$ 的列空间——闭式解就是正规方程 $X^T X \hat\beta = X^T y$ 。本节从几何出发把这条闭式公式拼出来，从欧氏内积开始，落到投影矩阵 $P = A(A^T A)^{-1} A^T$ 。

一、内积、范数与夹角

$\mathbb{R}^n$ 上的标准内积定义为

$\langle x, y \rangle = x^T y = \sum_{i=1}^n x_i y_i$

它对称（ $\langle x, y \rangle = \langle y, x \rangle$ ）、双线性、正定（ $\langle x, x \rangle \geq 0$ ，等号当且仅当 $x = 0$ ）。由内积诱导出的向量范数（L2 范数）为 $\|x\|_2 = \sqrt{x^T x}$ ，两非零向量夹角的余弦为

$\cos \theta = \frac{x^T y}{\|x\|_2 \|y\|_2}$

柯西-施瓦茨不等式 $|x^T y| \leq \|x\|_2 \|y\|_2$ 保证余弦落在 $[-1, 1]$ 。下面的滑块让你拖动两个二维向量的分量，观察其余弦相似度（cosine similarity）：

Formula Explorer

(x1*y1 + x2*y2) / sqrt(x1*x1 + x2*x2) / sqrt(y1*y1 + y2*y2)

柯西-施瓦茨证明。固定 $x, y$ ，考虑 $\|x - ty\|^2 \geq 0$ 对所有 $t \in \mathbb{R}$ 成立。展开得 $\|x\|^2 - 2t x^T y + t^2 \|y\|^2 \geq 0$ ，关于 $t$ 的二次多项式处处非负，判别式 $\leq 0$ ： $(2 x^T y)^2 - 4 \|x\|^2 \|y\|^2 \leq 0$ ，整理即得 $|x^T y| \leq \|x\| \|y\|$ 。等号成立当且仅当 $x$ 与 $y$ 共线。

二、正交与标准正交集

两个向量当 $x^T y = 0$ 时称为正交。一个集合若任意两元素相互正交则称为正交集，若每个向量再具有单位范数则称为标准正交集。标准正交集自动线性无关：若 $\sum a_i q_i = 0$ ，对两边取与 $q_j$ 的内积即得 $a_j = 0$ 。列向量为标准正交的方阵 $Q$ 满足 $Q^T Q = I$ ，称为正交矩阵。

三、施密特正交化

给定线性无关的 $v_1, \ldots, v_k$ ，施密特正交化（Gram-Schmidt）通过逐次减去投影并归一化，构造出 $\mathrm{span}\{v_1, \ldots, v_k\}$ 的一组标准正交基 $q_1, \ldots, q_k$ ：

取 $u_1 = v_1$ ，归一化 $q_1 = u_1 / \|u_1\|$ ；
对 $j = 2, \ldots, k$ ，减去对先前每个方向的投影 $u_j = v_j - \sum_{i < j} \langle v_j, q_i \rangle q_i$ ，再归一化 $q_j = u_j / \|u_j\|$ 。

得到矩阵 $Q = [q_1 \mid \ldots \mid q_k]$ ，结合一个上三角矩阵 $R$ （记录投影系数），构成 QR 分解 $A = QR$ 。我们不在此处证明 QR 的存在性——施密特过程本身就是构造性证明。

四、向子空间的正交投影

设 $V \subseteq \mathbb{R}^m$ 为子空间， $A \in \mathbb{R}^{m \times k}$ 的列构成 $V$ 的一组基（即 $A$ 列满秩 $k$ ）。向量 $b \in \mathbb{R}^m$ 向 $V$ 的正交投影是唯一使 $\|b - p\|_2$ 最小的 $p \in V$ 。写 $p = A \hat x$ ，则误差 $e = b - A\hat x$ 必须正交于 $A$ 的每一列，即 $A^T e = 0$ ：

$A^T (b - A \hat x) = 0 \implies A^T A \hat x = A^T b$

$A$ 列满秩时 $A^T A$ 可逆，故 $\hat x = (A^T A)^{-1} A^T b$ 。回代得到投影 $p = A \hat x$ ，由投影矩阵

$P = A (A^T A)^{-1} A^T$

给出。 $P$ 的两条标志性质：对称（ $P^T = P$ ）与幂等（ $P^2 = P$ ）。前者因 $A^T A$ 对称、其逆也对称；后者因投影两次仍落在同一点上。这与 Strang 所讲的「四个基本子空间」一致： $\mathbb{R}^m$ 分解为 $A$ 的列空间与 $A$ 的左零空间之直和， $P$ 保留前者，压掉后者。

五、最小二乘

把上一节的投影结论套到超定回归。设设计矩阵 $X \in \mathbb{R}^{N \times k}$ （ $N \gg k$ ），观测向量 $y \in \mathbb{R}^N$ ，最小二乘问题为

$\min_{\beta \in \mathbb{R}^k} \|y - X\beta\|_2^2$

极小值点 $\hat\beta$ 即把 $y$ 正交投影到 $X$ 列空间的系数——只需把上一节的 $A \to X$ 、 $b \to y$ 、 $\hat x \to \hat\beta$ 替换一遍即可。一阶条件 $X^T(y - X\hat\beta) = 0$ 即正规方程：

$X^T X \hat\beta = X^T y, \quad \hat\beta = (X^T X)^{-1} X^T y$

$X$ 列满秩时 $\hat\beta$ 唯一。拟合值 $\hat y = X\hat\beta = P y$ 是 $y$ 向因子列空间的投影；残差 $y - \hat y$ 正交于每一根因子列。这条几何性质同时解释了为什么任何一份回归诊断报告里都有「残差与每个回归量的内积为零」——这不是经验巧合，而是估计量本身的结构性产物。

普通最小二乘（OLS）的统计解释（高斯-马尔可夫定理、BLUE、假设检验）属于模块 2.2.2 的内容；本节强调的，是其背后的线性代数对象——一次正交投影。

六、练习

Exercise

对向量 v1 = (1,1,0), v2 = (1,0,1), v3 = (0,1,1) 实施施密特正交化，得到 $\mathbb{R}^3$ 的标准正交基 q1, q2, q3。

提示

从

u_1 = v_1 = (1,1,0)

出发，归一化得

q_1 = (1/\sqrt{2})(1,1,0)

；下一步先计算内积

\langle v_2, q_1 \rangle = 1/\sqrt{2}

再做减法。

提示

第二步残差为

u_2 = v_2 - (1/\sqrt{2}) q_1 = (1/2, -1/2, 1)

，归一化得

q_2 = (1/\sqrt{6})(1, -1, 2)

。对

v_3

同时减去对

q_1

与

q_2

的投影后归一化得

q_3

。

七、通往下一节

到这里你已经拥有了量化研究员对沪深300 因子建模、组合优化、协方差估计反复调用的几何工具——内积、投影、最小二乘。下一节把 $A^T A$ 内部隐藏的对称性提升为谱定理，并跨越到任意实矩阵的奇异值分解 $A = U \Sigma V^T$ ，把本模块前三节做的事情统一在一组分解之下，并自然引出 PCA、条件数与低秩近似。