周一开盘前一小时,你坐在上海一家中型私募基金(private fund)的研究室。投研经理把一张 CSV 推到桌上:沪深300 成分股 ~300 只,每只配 15 维因子向量(PE、PB、12 个月动量、20 日波动率、换手率、分析师上调比例),本质上是一张轻量级因子模型(factor model)输入表;标签 yi∈{+1,−1} 表示下月相对指数 outperform / underperform。你先用上一节(2.6.1-5)的 L2 正则化 logistic 回归当基线,样本外准确率 51%——和抛硬币没两样。两两画散点后你发现 outperform 的点夹在 underperform 的两块「月牙」之间,任何超平面都切不开。隔壁同事抬眼:「换 RBF SVM,C=1,sigma 用中位距离启发式。」重新跑,样本外 67%。这一节回答的就是这四行代码背后到底发生了什么。
把非线性藏进内积
核方法不直接拟合非线性 h,而是先把 x∈Rp 抬到某个内积空间 H 中的 ϕ(x),然后在 H 里拟合线性预测器 f(x)=⟨w,ϕ(x)⟩H+b。H 越大,可表达的非线性越丰富;但 ϕ 本身可能维度爆炸,显式构造不现实。
出路是核技巧(kernel trick):如果整个算法只通过 内积(inner product)⟨ϕ(xi),ϕ(xj)⟩H 触碰特征向量,就可以整体替换成定义在 Rp 上的二元函数 k(xi,xj),从头到尾不必显式写 ϕ。能这么换的前提是 k 真的是某个 ϕ 的内积——刻画方式是半正定(positive semidefinite, PSD)核:
k(x,x′)=⟨ϕ(x),ϕ(x′)⟩H,Kij=k(xi,xj),K⪰0 on every finite sample.
K⪰0 意味着 Gram 矩阵对称、所有 特征值(eigenvalue)非负——这件事和 协方差矩阵(covariance matrix)的半正定性同根同源。Mercer 定理(Mercer's theorem)非正式地讲:每一个 PSD 核都对应某个再生核希尔伯特空间(reproducing-kernel Hilbert space, RKHS)中的内积;反过来,只要你验证 K⪰0,ϕ 的存在性就有保障,无须显式写出。
三个工业默认核
klin(x,x′)=⟨x,x′⟩,kpoly(x,x′)=(⟨x,x′⟩+c)d,kRBF(x,x′)=exp(−2σ2∥x−x′∥2).
- 线性核对应 ϕ(x)=x,等价于不升维——在高维稀疏因子或文本数据上反而首选。
- 多项式核的 ϕ 是所有阶数不超过 d 的单项式,适合刻画因子之间的交互项(interaction),d∈{2,3} 最常用。
- RBF 核(又叫 Gaussian 核)对应无穷维 ϕ:对 exp 做 Taylor 展开,每一项都是不同阶多项式核的加权和。σ 是带宽——越小越易过拟合,越大越平滑。
Formula Explorer
exp(-r2 / (2 * sigma2))
把 r2=∥x−x′∥2 与 σ2 拖一拖,体会带宽对相似度衰减速率的支配作用。
工程上还有一条关键引理叫表示定理(Representer Theorem):任何在 RKHS 中最小化 n1∑iℓ(yi,f(xi))+λ∥f∥H2 的解,都长成 f(x)=∑i=1nαik(xi,x)。即便 H 无穷维,最优解只活在 n 维系数空间 Rn 里——这是核方法在算力上可行的根本理由。
硬间隔 SVM:几何视角
回到分类。在可分情形下,支持向量机(support vector machine, SVM)寻找最大间隔超平面:
w,bmin21∥w∥2s.t.yi(⟨w,xi⟩+b)≥1,∀i.
为什么是 21∥w∥2?几何上,超平面 ⟨w,x⟩+b=0 到两类最近点的距离——即间隔(margin)——等于 2/∥w∥;最大化间隔即最小化 ∥w∥2。约束把所有点逼到间隔带之外。直观上,这是把决策面到两类最近点的正交 投影(projection)距离同时拉到最大的方案——这正是大间隔分类器泛化好的几何理由。
Exercise
四点数据集:x1=(1,1),x2=(2,2) 标签 +1;x3=(−1,−1),x4=(−2,−2) 标签 −1。
- 显式写出硬间隔 SVM 的原问题(列出 4 个不等式约束)。
- 在 2D 平面上画图,读出最优 w 与间隔 2/∥w∥ 的几何位置。
- 指出哪些点是支持向量。
提示
约束都形如 yi(⟨w,xi⟩+b)≥1。由数据沿 (1,1) 轴的对称性,先猜 b=0、w∥(1,1),再把猜测代回紧约束确定模长。
提示
代入 w=c(1,1),b=0,紧约束 ⟨w,(1,1)⟩=1 给出 c=21;故 w=(21,21)、间隔 2/∥w∥=22。紧约束对应 x1,x3,即支持向量;x2,x4 严格在间隔带外,不影响解。
软间隔 + 对偶:从原问题到核函数
实务里两类完全可分几乎不存在(沪深300 那个 hook 例子里,任何超平面都会切错一些股票)。引入松弛变量 ξi≥0:
w,b,ξmin21∥w∥2+Ci=1∑nξis.t.yi(⟨w,xi⟩+b)≥1−ξi,ξi≥0.
在最优处闭式消去 ξi,等价为 L2 正则化合页损失(hinge loss)ERM:
wmin2λ∥w∥2+n1i=1∑n[1−yi(⟨w,xi⟩+b)]+,λ=nC1.
这和 2.6.1-5 里 logistic 回归 + L2 是同一结构(正则化 + 凸代理损失),只是损失换成了合页损失。C 大 ⇔ λ 小 ⇔ 容忍间隔违规的代价高 ⇔ 决策面更靠近数据。
对原问题写拉格朗日量,引入对偶变量 αi≥0,套用 2.5.1-3 的强对偶 + KKT 条件(此处不重证),得 SVM 对偶问题:
αmaxi=1∑nαi−21i,j∑αiαjyiyjk(xi,xj),0≤αi≤C,i∑αiyi=0.
最终分类器为
f(x)=i:αi>0∑αiyik(xi,x)+b.
核技巧在这里第一次「显形」:xi 只通过 k(xi,xj) 出现,ϕ 自始至终未被写出。αi>0 的训练点叫支持向量——决策面只依赖这一小撮点,其他训练点的扰动不会改变 f。
图示(占位):two-moons 数据集上,三组 (C,σ) 设定下的软间隔 SVM 决策面,支持向量用空心圆标出。左:σ 太小 → 决策面过度弯曲、支持向量遍布数据;中:median-heuristic σ + C=1 → 曲线干净穿过两类间隙;右:C 太小 → 间隔过宽、错分上升。
核选择与算力天花板
实务的 first move 是 RBF 默认,σ 取所有 pairwise 距离 ∥xi−xj∥ 的中位数(median-heuristic);scikit-learn 里 gamma='scale' = 1/(p · Var(X)) 也是同一逻辑,本质上是用样本 协方差矩阵 的迹做尺度归一化。如果数据明显呈现固定阶数的交互(如 PE × momentum),改用多项式核 d=2 或 3。高维稀疏(p ≫ n、文本 / one-hot 因子)情形,线性核往往就够。
致命瓶颈是 n2 量级的 Gram 矩阵:n=105 时光是存一份双精度 K 就要 80 GB,训练复杂度在 O(n2)∼O(n3) 之间。这条线把 SVM 挤出了今天的 production alpha 模型岗位——CN 私募 圈用 LightGBM 跑 panel 数据,SVM 主要在小样本、高特征、Alpha 衰减(alpha decay)较慢的研究原型里偶尔露面。Nyström 近似与随机傅里叶特征(Random Fourier Features)能把规模推到 106,但形式上已经向「显式低维特征 + 线性模型」靠拢——这正好通往下一节神经网络的逻辑。
收官练习
Exercise
本练习是模块 2.6.2 的 capstone。证明:
- RBF 核 kRBF(x,x′)=exp(−∥x−x′∥2/(2σ2)) 是 PSD 的,方法是显式写出它的(无穷维)特征映射 ϕ。
- 软间隔 SVM 原问题等价于 L2 正则化合页损失 ERM,其中 λ=1/(nC):闭式消去 ξi 即得。
提示
两题都从「定义代回」走起。对 (1):注意 exp(⟨x,x′⟩/σ2) 的 Taylor 级数每一项都是多项式核;对 (2):注意松弛变量 ξi 在最优处一定取约束允许的最小值。
提示
(1):把 ⟨x,x′⟩n/(n!σ2n) 视为 d=n 的多项式核,再把 exp(−∥x∥2/(2σ2)) 当作 ϕ 的归一化系数吸收进去。(2):最优 ξi⋆=[1−yi(⟨w,xi⟩+b)]+,代回目标 ξi 消失;两边同除以 nC 即得 λ。
模块小结与通往下一节
把 2.6.2 这四节连起来看:
- CART 单棵决策树(2.6.2-1):高偏低方,深度控制有效复杂度;在 n 不大、特征异质的表格数据上做快速基线和可视化。
- Bagging / 随机森林(2.6.2-2):把多棵高方差树平均,方差以 ρ+(1−ρ)/B 衰减;OOB 误差几乎自带验证集,n 中等、对调参不敏感时首选。
- 梯度提升 / XGBoost / LightGBM(2.6.2-3):浅树拟合负梯度,shrinkage + early stopping 控制偏差—方差;中到大 n、调好之后基本是表格数据的 SOTA。
- 核 SVM(本节):把非线性藏进 RKHS 的内积,C 控制偏差—方差;小到中 n、高 p、低噪声、解析友好的场景。
下一节 2.6.3 切换到神经网络——把「先升维再线性」的核思路反过来:不固定 ϕ,而把 ϕ 也当参数学出来。代价是失去凸性,收益是 n 上不封顶。你会看到为什么 transformer 时代的 learned features 在逻辑上就是 RKHS 核方法的参数化推广,以及为什么核方法没真正退场——只是从 production 退到了原型与理论的位置。