北京某私募的量化研究员手头有 1,500 个交易日的沪深300 ETF(300ETF)收益序列,外加 12 个候选因子——动量、价值、低波、三个流动性代理、六个宏观贝塔。她想要的是这 12 个因子在 L2 意义下最接近 ETF 收益的线性组合。1,500 个方程对 12 个未知数,这是高度超定的方程组,根本不存在精确解,她只能挑出最佳近似。给出 β^ 的全部机制就是把观测向量正交投影到因子矩阵 X 的列空间——闭式解就是正规方程 XTXβ^=XTy。本节从几何出发把这条闭式公式拼出来,从欧氏内积开始,落到投影矩阵 P=A(ATA)−1AT。
一、内积、范数与夹角
Rn 上的标准内积定义为
⟨x,y⟩=xTy=∑i=1nxiyi
它对称(⟨x,y⟩=⟨y,x⟩)、双线性、正定(⟨x,x⟩≥0,等号当且仅当 x=0)。由内积诱导出的向量范数(L2 范数)为 ∥x∥2=xTx,两非零向量夹角的余弦为
cosθ=∥x∥2∥y∥2xTy
柯西-施瓦茨不等式 ∣xTy∣≤∥x∥2∥y∥2 保证余弦落在 [−1,1]。下面的滑块让你拖动两个二维向量的分量,观察其余弦相似度(cosine similarity):
Formula Explorer
(x1*y1 + x2*y2) / sqrt(x1*x1 + x2*x2) / sqrt(y1*y1 + y2*y2)
柯西-施瓦茨证明。固定 x,y,考虑 ∥x−ty∥2≥0 对所有 t∈R 成立。展开得 ∥x∥2−2txTy+t2∥y∥2≥0,关于 t 的二次多项式处处非负,判别式 ≤0:(2xTy)2−4∥x∥2∥y∥2≤0,整理即得 ∣xTy∣≤∥x∥∥y∥。等号成立当且仅当 x 与 y 共线。
二、正交与标准正交集
两个向量当 xTy=0 时称为正交。一个集合若任意两元素相互正交则称为正交集,若每个向量再具有单位范数则称为标准正交集。标准正交集自动线性无关:若 ∑aiqi=0,对两边取与 qj 的内积即得 aj=0。列向量为标准正交的方阵 Q 满足 QTQ=I,称为正交矩阵。
三、施密特正交化
给定线性无关的 v1,…,vk,施密特正交化(Gram-Schmidt)通过逐次减去投影并归一化,构造出 span{v1,…,vk} 的一组标准正交基 q1,…,qk:
- 取 u1=v1,归一化 q1=u1/∥u1∥;
- 对 j=2,…,k,减去对先前每个方向的投影 uj=vj−∑i<j⟨vj,qi⟩qi,再归一化 qj=uj/∥uj∥。
得到矩阵 Q=[q1∣…∣qk],结合一个上三角矩阵 R(记录投影系数),构成 QR 分解 A=QR。我们不在此处证明 QR 的存在性——施密特过程本身就是构造性证明。
四、向子空间的正交投影
设 V⊆Rm 为子空间,A∈Rm×k 的列构成 V 的一组基(即 A 列满秩 k)。向量 b∈Rm 向 V 的正交投影是唯一使 ∥b−p∥2 最小的 p∈V。写 p=Ax^,则误差 e=b−Ax^ 必须正交于 A 的每一列,即 ATe=0:
AT(b−Ax^)=0⟹ATAx^=ATb
A 列满秩时 ATA 可逆,故 x^=(ATA)−1ATb。回代得到投影 p=Ax^,由投影矩阵
P=A(ATA)−1AT
给出。P 的两条标志性质:对称(PT=P)与幂等(P2=P)。前者因 ATA 对称、其逆也对称;后者因投影两次仍落在同一点上。这与 Strang 所讲的「四个基本子空间」一致:Rm 分解为 A 的列空间与 A 的左零空间之直和,P 保留前者,压掉后者。
五、最小二乘
把上一节的投影结论套到超定回归。设设计矩阵 X∈RN×k(N≫k),观测向量 y∈RN,最小二乘问题为
minβ∈Rk∥y−Xβ∥22
极小值点 β^ 即把 y 正交投影到 X 列空间的系数——只需把上一节的 A→X、b→y、x^→β^ 替换一遍即可。一阶条件 XT(y−Xβ^)=0 即正规方程:
XTXβ^=XTy,β^=(XTX)−1XTy
X 列满秩时 β^ 唯一。拟合值 y^=Xβ^=Py 是 y 向因子列空间的投影;残差 y−y^ 正交于每一根因子列。这条几何性质同时解释了为什么任何一份回归诊断报告里都有「残差与每个回归量的内积为零」——这不是经验巧合,而是估计量本身的结构性产物。
普通最小二乘(OLS)的统计解释(高斯-马尔可夫定理、BLUE、假设检验)属于模块 2.2.2 的内容;本节强调的,是其背后的线性代数对象——一次正交投影。
六、练习
Exercise
对向量 v1 = (1,1,0), v2 = (1,0,1), v3 = (0,1,1) 实施施密特正交化,得到 R3 的标准正交基 q1, q2, q3。
提示
从
u1=v1=(1,1,0) 出发,归一化得
q1=(1/2)(1,1,0);下一步先计算内积
⟨v2,q1⟩=1/2 再做减法。
提示
第二步残差为
u2=v2−(1/2)q1=(1/2,−1/2,1),归一化得
q2=(1/6)(1,−1,2)。对
v3 同时减去对
q1 与
q2 的投影后归一化得
q3。
七、通往下一节
到这里你已经拥有了量化研究员对沪深300 因子建模、组合优化、协方差估计反复调用的几何工具——内积、投影、最小二乘。下一节把 ATA 内部隐藏的对称性提升为谱定理,并跨越到任意实矩阵的奇异值分解 A=UΣVT,把本模块前三节做的事情统一在一组分解之下,并自然引出 PCA、条件数与低秩近似。