正则化最小二乘:岭回归与 Lasso — 迭代法与正则化方法

深圳某私募的多因子研究员手头有 60 个交易日的沪深300 成分股横截面收益,外加一份「因子动物园」(factor zoo)清单:动量、价值、质量、低波,再加上 70 多个另类与基本面因子,合计 $p = 80$ 个候选预测变量、 $n = 60$ 个观测——一个典型的 $p > n$ 病态设计矩阵。她直接套用上一模块的普通最小二乘(ordinary least squares, OLS),解正规方程(normal equations) $X^\top X \beta = X^\top y$ ,结果 $\hat\beta$ 每周翻号:上周动量系数 $+0.31$ ,这周变 $-0.12$ ,下周价值因子再翻一次。问题不在因子本身,而在 $X^\top X$ 已经奇异——它根本不可逆,即便强行用伪逆,条件数(condition number)也大到任何一笔小扰动都会被放大到系数符号上。本课把这条不稳定的 OLS 信号驯服成可入库的因子模型——核心工具是正则化(regularization)。

一、病态的 $X^\top X$ 与岭回归

设设计矩阵 $X \in \mathbb{R}^{n \times p}$ 、响应 $y \in \mathbb{R}^n$ 。当 $p \geq n$ 或多列高度相关时, $X^\top X$ 是半正定(positive semidefinite, PSD)的但不正定——存在零特征值,正规方程 $X^\top X \beta = X^\top y$ 解不唯一。即使勉强可逆,条件数 $\kappa(X^\top X) = \lambda_{\max} / \lambda_{\min}$ 可以高达 $10^8$ 量级,数值上完全不可信。

岭回归(ridge regression)把目标函数改为

\min_\beta \;\tfrac{1}{2}\|y - X\beta\|_2^2 + \tfrac{\lambda}{2}\|\beta\|_2^2

对 $\beta$ 求梯度并置零,得到

\hat\beta_{\text{ridge}} = (X^\top X + \lambda I)^{-1} X^\top y

加上 $\lambda I$ 等于把 $X^\top X$ 的每个特征值抬升 $\lambda$ ,矩阵立刻变成严格正定可逆——条件数从 $\lambda_{\max} / \lambda_{\min}$ 降到 $(\lambda_{\max} + \lambda) / (\lambda_{\min} + \lambda)$ ,数值稳定性肉眼可见。统计上还有一层解读:若把先验 $\beta \sim \mathcal{N}(0, \,\sigma^2/\lambda \cdot I)$ 与高斯噪声似然合在一起, $\hat\beta_{\text{ridge}}$ 恰是后验众数(maximum a posteriori, MAP)估计。 $\lambda$ 究竟取多大、用什么准则挑——属于 2.6.1 监督学习基础里的交叉验证框架,这里只承认一句:本课不讨论怎么选 $\lambda$ ,只把 $\lambda > 0$ 给定后的几何与数值机制讲清。

二、Lasso 与 $L^1$ 几何

把 $L^2$ 惩罚换成 $L^1$ ,得到 Lasso 目标:

\min_\beta \;\tfrac{1}{2}\|y - X\beta\|_2^2 + \lambda \|\beta\|_1

几何上, $L^2$ 球面光滑,残差等高线最先触到球面任意一点; $L^1$ 球是带尖角的菱形,顶点位于坐标轴上。一旦半径调整到让椭圆等高线第一次触到菱形,这个触点高概率正好落在顶点——也就是说,若干分量精确为零。这就是 Lasso 自动做变量选择(variable selection)的几何来源:从 80 个候选因子里只挑出 5–10 个真正进入模型,其余系数严格归零。

$\|\beta\|_1$ 在 $\beta_j = 0$ 处不可微,因此 Lasso 不存在像岭那样的闭式解。目标函数仍然是凸的——可分块凸性让逐坐标下降(coordinate descent)成为实务首选。

三、软阈值算子与坐标下降更新

固定其他坐标,对 $\beta_j$ 做单变量最小化。令 $r_j = y - \sum_{k \neq j} X_{\cdot k} \beta_k$ 为去除其它列后的部分残差, $z_j = X_{\cdot j}^\top r_j / \|X_{\cdot j}\|_2^2$ 。最优更新由软阈值算子(soft-threshold operator)给出:

S_\lambda(z) = \operatorname{sign}(z)\, \max(|z| - \lambda,\, 0)

也就是说,若 $|z_j| \leq \lambda$ ,直接把 $\beta_j$ 置零;否则朝零方向收缩 $\lambda$ 的幅度。一步同时完成收缩与选择,与岭的纯收缩区分得很干净。

Formula Explorer

S_\lambda(z) = \operatorname{sign}(z)\, \max(|z| - \lambda,\, 0)

四、近端梯度法:ISTA 与 FISTA

更一般地,把 Lasso 目标拆成可微的 $f(\beta) = \tfrac{1}{2}\|y - X\beta\|_2^2$ 与不可微的 $h(\beta) = \lambda \|\beta\|_1$ 。近端算子(proximal operator)定义为

\operatorname{prox}_{\lambda h}(z) = \arg\min_x \left\{ h(x) + \tfrac{1}{2\lambda}\|x - z\|_2^2 \right\}

对 $h(x) = \|x\|_1$ ,直接展开就能验证 $\operatorname{prox}_{\lambda h}$ 正是上一节的软阈值。近端梯度法(proximal gradient method, 近端梯度法)就是「沿 $f$ 走一步梯度,再做一次 prox」,套到 Lasso 即为 ISTA(Iterative Shrinkage-Thresholding Algorithm):

\beta_{k+1} = S_{\lambda t}\!\left(\beta_k - t\, X^\top (X\beta_k - y)\right)

其中步长 $t \leq 1/\|X^\top X\|_2$ 。FISTA 在 ISTA 外面套一层 Nesterov 加速,把收敛率从 $O(1/k)$ 提到 $O(1/k^2)$ ,直接继承本模块第三课的加速思路。坐标下降的全局收敛性证明在此只作示意——细节属于专门一章的优化理论。

五、 $n = 5,\ p = 8$ 数值对照

把开头的故事缩到一个能手算的例子。构造 $X \in \mathbb{R}^{5 \times 8}$ :前两列是同一真实信号的近重复( $\rho \approx 0.99$ ),第 3–8 列纯噪声。 $y = X \beta^* + \varepsilon$ ,真值 $\beta^* = (1, 0, 0, 0, 0, 0, 0, 0)^\top$ , $\varepsilon \sim N(0, 0.1^2 I)$ 。三种解法并列:

系数	OLS(伪逆)	岭 $\lambda = 1$	Lasso $\lambda = 0.3$
$\hat\beta_1$	$+2.7$	$+0.58$	$+0.86$
$\hat\beta_2$	$-1.9$	$+0.41$	$0$
$\hat\beta_3$	$+0.8$	$-0.04$	$0$
$\hat\beta_4$	$-1.1$	$+0.07$	$0$
$\hat\beta_5$	$+0.6$	$-0.05$	$0$
$\hat\beta_6$	$-0.4$	$+0.03$	$0$
$\hat\beta_7$	$+0.2$	$-0.02$	$0$
$\hat\beta_8$	$-0.3$	$+0.06$	$0$

读这张表:OLS 伪逆把两根共线列的系数对撞放大到 $\pm 2$ 量级、第 3–8 列在噪声里漂出 $\pm 1$ 量级,与真值已经不再对应;岭把所有方向均匀向零收缩,共线对 $\beta_1, \beta_2$ 共担一半信号但没有归零;Lasso 只把 $\beta_1$ 留在 $+0.86$ ,其余精确归零——一份能直接接入下游协方差矩阵(covariance matrix)估计或组合优化(portfolio optimization)管线的稀疏因子表。

六、量化落地的两条主线

岭与 Lasso 在 CN 私募量化研究台已是默认工具,两条主线值得明确分开:

协方差侧。 Ledoit-Wolf 协方差收缩可以读作岭式正则化的协方差矩阵版本——把样本协方差与一个结构性目标(常数对角阵或单因子模型)做凸组合,确保结果半正定且条件数受控。下游均值方差优化(mean-variance optimization)在岭收缩过的 $\hat\Sigma$ 上跑出来的权重比裸样本协方差稳一个量级,这就是沪深300 universe 上私募组合的标准化前处理。
信号侧。 Lasso 从因子动物园挑稀疏子集,直接给出可解释、可监控、可归因的因子配方——某个因子被归零意味着它在当前 $\lambda$ 下不进入模型,无需事后做检验。把 Lasso 选出的稀疏因子集喂给均值方差优化的预期收益输入,是最干净的端到端串联方式。

七、练习

Exercise

设 $X \in \mathbb{R}^{n \times 2}$ 的两列已标准化为单位范数且互相正交,即 $X^\top X = I$ 。考虑 Lasso 目标 $\tfrac{1}{2}\|y - X\beta\|_2^2 + \lambda \|\beta\|_1$ ,令 $z = X^\top y = (z_1, z_2)$ 。

(a) 写出 Lasso 在 $\beta_j \neq 0$ 与 $\beta_j = 0$ 两种情形下的 KKT 式最优性条件——用 $X^\top(y - X\beta)$ 与次梯度 $\partial \|\beta\|_1$ 表示。

(b) 取 $z_1 = 0.7,\ z_2 = 0.2,\ \lambda = 0.3$ ,逐坐标手算 $\hat\beta_1, \hat\beta_2$ ,展示一步软阈值。

提示

正交设计

X^\top X = I

让坐标可分离:第

j

坐标的目标退化成单变量函数

\tfrac{1}{2}(\beta_j - z_j)^2 + \lambda |\beta_j|

。先把这条「单变量带

L^1

罚」的标准形式写出来,后面只需逐坐标套软阈值。

提示

KKT 分两种:

\beta_j \neq 0

时

X_{\cdot j}^\top (y - X\beta) = \lambda \operatorname{sign}(\beta_j)

;

\beta_j = 0

时

|X_{\cdot j}^\top (y - X\beta)| \leq \lambda

。代入

X^\top X = I

即得软阈值

\hat\beta_j = S_\lambda(z_j)

|z_j| > \lambda

保留,否则归零。

提示

代入数:

|z_1| = 0.7 > 0.3 = \lambda

,故

\hat\beta_1 = \operatorname{sign}(0.7)(0.7 - 0.3) = 0.4

;

|z_2| = 0.2 \leq 0.3

,故

\hat\beta_2 = 0

。所以 Lasso 把

\beta_2

严格归零,只保留

\hat\beta_1 = 0.4

——一次同时完成的收缩 + 选择。

八、通往下一站

到这里你已经掌握把不稳定 OLS 变成可入库因子模型的两条主路径:岭做均匀收缩 + 数值稳定,Lasso 做稀疏选择 + 变量挑选。还有两条线索本课刻意未展开,但下游模块会承接:其一, $\lambda$ 到底取多少——属于 2.6.1 监督学习基础里的交叉验证框架,那里把样本切割、风险估计、超参选择一并搭好;其二,挑选好的稀疏因子如何进入产线——在 4.x 组合构造模块里,你会看到 Lasso 选出的因子直接喂入均值方差优化的预期收益输入,而岭收缩过的协方差矩阵则替换掉样本协方差,把权重对估计误差的敏感性一次性按住。本模块到此结课:迭代法、加速、正则化、近端梯度,四件工具齐了,下个模块开始把它们装到真正的资金线上。

一、病态的 X⊤XX^\top XX⊤X 与岭回归

二、Lasso 与 L1L^1L1 几何