正交化与残差化 — 信号评估与合成

周四早上,你在上海的一家量化私募的因子评估会上。桌面上堆着 K 条信号的 L1 + L2 诊断包: 12-1 动量、账面市值比、毛利率质量、 PEAD (post-earnings-announcement-drift) ——每一条都通过了 L2 的 break-even IC 门槛、每一条月度 IC 都在 0.025-0.035 之间。研究主管提一句: 把它们合起来复合信号 IC 应该在 0.10 附近吧? 不。你算出来是 0.034。拿四个 0.03 月度 IC 的信号等权重合成,IC 几乎没有提升——因为它们互相之间高度相关 (沪深300 上动量与价值的横截面 IC 相关 ~-0.4, 与质量 ~0.3, 价值与质量 ~0.2)。复合信号的边际信息几乎被共同因子吃光了。这一课教你解决: 正交化 (orthogonalisation) 和残差化 (residualisation) ——多信号评估的卫生步骤,把 K 条相关信号转化为 K 条互不相关的正交信号,只拿它们的边际 IC 作为复合输入。

四个正交化方法

业内有四种标准方法,顺序与适用场景各异:

(1) sequential_residualisation (顺序残差化, 依赖排序的 OLS 残差链): 第一条信号保留完整 IC; 后续信号各自对之前信号做 OLS 回归取残差。排序是研究选择: 经济优先顺序 (动量 -> 价值 -> 质量 -> 事件) 或研究时序顺序。

(2) symmetric_gram_schmidt (对称 Gram-Schmidt, 通过 QR 分解或 Löwdin S * (S^T S)^{-1/2} 实现): 无排序依赖, 同时正交化全部信号; 产生 Frobenius 范数最接近原始信号的基底。业内没有经济排序时的量产默认。

(3) pca_orthogonalisation (PCA 主成分分析正交化, 协方差矩阵特征分解): 取解释 ≥ 95% 方差的前 k 个主成分; 解决 K > T 时的协方差矩阵病态问题, 代价是主成分不可直观解释 (动量 + 价值 + 质量三个信号的 PC1 通常是「factor 1」而不是「动量」)。

(4) factor_neutralisation (因子中性化, 残差对 Barra-风格行业 + 风格因子暴露): 横截面 OLS 残差; 产生 idiosyncratic alpha (个别残差 alpha) ——剔除已知系统性暴露后的独立信号。沪深300 上业内用 Barra CNE6 + CITIC 一级行业 30 类作为因子模型。

规则: 每一条候选信号加入量产复合之前都先对已有信号簿做正交化; 决定是否接纳的是 正交 IC (边际贡献), 不是 raw IC。

五元诊断包

四个信号正交化之后携带五个诊断数字:

(1) raw_ic_correlation_matrix (K × K, 原始 IC 相关 ——问题的量化); (2) orth_ic_correlation_matrix (K × K, 正交化后应近对角 ——证据); (3) orthogonal_ic_per_signal (每条信号的边际贡献); (4) orthogonal_ic_ratio (正交 IC / raw IC, 接近 1 = 独立, 接近 0 = 冗余); (5) method_and_ordering (sequential / symmetric-GS / PCA / factor-neutralisation, 附文档化的排序或因子模型引用)。

规则: 任何候选信号在正交 IC 低于 L2 break-even IC 时都是冗余, 从复合中剔除。

四条走通信号

整课的工作例案用四条信号: (1) mom_12_1 (4.2.2 L2 的 12-1 月动量); (2) book_to_market (4.2.2 L2 的价值因子); (3) gross_profitability (4.2.2 L2 的质量因子); (4) pead_sue (4.2.2 L3 的 PEAD 信号)。横截面 IC 相关的典型模式在沪深300 上是: 动量 ↔ 价值 ~ -0.4, 动量 ↔ 质量 ~ 0.3, 价值 ↔ 质量 ~ 0.2, PEAD ↔ 其他三个 ~ 0.1。规则: PEAD 通常在正交 IC 上贡献最高, 即使它 raw IC 较低 ——动量 + 价值 + 质量跨越了共同因子空间, PEAD 加入的是事件驱动信息。

对称 Gram-Schmidt

业内没有经济排序的默认工作: 把信号矩阵同时正交化, 不区分优先级。三步计算顺序:

(1) S = stack_signals_as_columns(signals) ——构建 T × K 信号矩阵, 每列一个标准化 (z-score 或 rank 化) 信号; (2) Q, R = numpy.linalg.qr(S) ——QR 分解, Q 的各列是正交基底; (3) orthogonal_signals = Q * diag(sign_correction) ——可选的符号修正, 让每一列 Q 与原信号相关系数为正, 保留可解释性。

规则: 没有经济排序时, 对称 Gram-Schmidt 是量产默认。

numpy.linalg.qr 是 QR 分解 (基于奇异值分解 (SVD) 的一种数值稳定实现选择也可); 协方差矩阵在病态时不影响 QR (QR 不需要矩阵求逆)。实现:

import numpy as np

def symmetric_orthogonalise(signal_matrix: np.ndarray) -> np.ndarray:
    # 1. 接收 T × K 标准化 信号 矩阵
    # 2. QR 分解: 列 Q 是 正交 基底
    Q, R = np.linalg.qr(signal_matrix)
    # 3. 符号 修正: 每 列 Q 与 原 信号 的 相关 取 正
    signs = np.sign(np.diag(R))
    return Q * signs

symmetric_orthogonalise 的函数名、参数 signal_matrix、 NumPy API numpy.linalg.qr、以及返回形状, 在中英两版中字节一致; 仅注释翻译。

因子中性化

业内量产复合通常同时做信号-对-信号的正交化与信号-对-因子的中性化。因子中性化是把每条信号残差对已知因子模型 (Barra CNE6 + CITIC 行业 dummies)的暴露; 输出是该信号的 特征 alpha (idiosyncratic alpha), 即与已知系统性暴露正交的部分。

三步计算:

(1) F_t = factor_exposures_at_date(t) ——在调仓日 t 取 N × F 因子暴露矩阵 (Barra CNE6 风格因子 + 行业 dummies); (2) beta_t = numpy.linalg.lstsq(F_t, s_t) ——横截面 OLS 回归信号对因子暴露; (3) s_t_neutral = s_t - F_t @ beta_t ——横截面残差, 即 idiosyncratic alpha。

规则: 因子中性化剔除已知系统性暴露; 信号正交化剔除与同簿信号的相关; 量产复合两者都做。

实现:

import numpy as np
import pandas as pd

def factor_neutralise(signal: pd.Series, factor_exposures: pd.DataFrame) -> pd.Series:
    # 1. 接收 (date, symbol) MultiIndex 的 信号 序列 与 因子暴露 DataFrame
    # 2. 按 date 分组, 横截面 OLS lstsq(F_t, s_t)
    def _resid(group):
        F = group[factor_exposures.columns].values
        s = group['s'].values
        beta, *_ = np.linalg.lstsq(F, s, rcond=None)
        # 3. 返回 残差 = idiosyncratic alpha
        return pd.Series(s - F @ beta, index=group.index)
    joined = factor_exposures.copy()
    joined['s'] = signal
    return joined.groupby(level='date').apply(_resid)

factor_neutralise 的函数名、参数 signal / factor_exposures、以及 NumPy / pandas API 名字, 在中英两版中字节一致; 仅注释翻译。

Formula Explorer

s_neutral = s - F * beta

顺序残差化与 PCA: 何时用

顺序残差化适合经济排序清晰的情形 ——研究主管已经决定「动量是主信号, 价值是增量, 质量是二阶增量, PEAD 是事件修正」, 你用那个顺序链式残差化, 第一条保留 raw IC, 后续保留边际 IC。缺点是排序选择对边际 IC 有实质影响; 不同顺序给出不同的后续信号 IC 数字。

PCA 正交化适合信号数 K 接近或大于时序长度 T 的场景。沪深300 上 2015-2024 提供 ~2400 个交易日; 50+ 信号的协方差矩阵在短子样上病态。此时取前 k 主成分 (解释 ≥ 95% 方差) 把 K 维降到 k 维 (典型 k = 5-10), 协方差矩阵在主成分空间良态。代价是主成分不可直观解释。

四个方法选哪个: 经济排序可辩护 -> sequential; 协方差矩阵良态且无排序 -> symmetric Gram-Schmidt; K > T 或协方差矩阵病态 -> PCA; 量产需要与风险模型暴露隔离 -> factor neutralisation (常与前三个之一叠加)。

走通的例子: 沪深300 四信号

在沪深300 universe 上 2018-2023 拿四条信号: mom_12_1, book_to_market, gross_profitability, pead_sue。月度调仓, 21 日前瞻收益。

(1) 算 raw IC 相关矩阵 4 × 4。典型模式: 动量 ↔ 价值 ~ -0.4 (动量与价值经济上反相关 ——价值信号买估值低的股票, 动量信号买近期上涨的股票, 这两类部分反相关), 动量 ↔ 质量 ~ 0.3 (质量因子有部分趋势表现), 价值 ↔ 质量 ~ 0.2 (低估 + 高质量 = Buffett 因子), PEAD ↔ 其他 ~ 0.1。

(2) 应用对称 Gram-Schmidt numpy.linalg.qr 得 4 列正交基底。算正交化后 4 × 4 IC 相关矩阵; 应近对角 (off-diagonal ≈ 0)。

(3) 算每条正交信号的 IC; 算正交 IC / raw IC 比率。典型结果: 动量 raw 0.030 -> 正交 0.025 (比率 0.83 ——大部分 IC 是独立的); 价值 raw 0.030 -> 正交 0.020 (比率 0.67 ——价值与动量部分重叠后, 边际贡献降低); 质量 raw 0.028 -> 正交 0.018 (比率 0.64); PEAD raw 0.026 -> 正交 0.024 (比率 0.92 ——事件驱动信号与因子信号几乎独立)。 PEAD 在正交 IC 上排名第二仅次于动量, 即使它 raw IC 最低。

(4) 应用因子中性化 (Barra CNE6 风格因子 + CITIC 一级行业 30 类 dummies); 算中性化残差的正交 IC。期望观察: 动量的正交 IC 显著下降 (它本身就是 Barra 风格因子之一「Momentum」); 价值的正交 IC 也下降 (Barra「Value」因子直接残差掉); 质量的正交 IC 略降 (Barra「Profitability」部分重叠); PEAD 的正交 IC 几乎不变 (PEAD 不在 Barra CNE6 中)。

(5) 用 L2 的 break-even IC ≈ 0.02 月度作门槛把四条信号过关: 动量、 PEAD 通过, 价值、质量边际不足 (但因为它们 raw IC 仍然显著, 实际业内会保留它们在复合中, 只是权重降低 ——L4 的主题)。转入 L4 复合构造。

与 L4 的衔接

L1 + L2 完成单信号评估, L3 完成多信号卫生步骤 ——你现在拥有一组互相正交的信号与它们各自的边际 IC。但「正交信号」 ≠ 「复合信号」: 还需要一个加权方案把 K 条正交信号合成单一评分。 L4 教你怎么加权: 等权重 (w = 1/K)、 Markowitz 最优 (w = Σ^{-1} * IC)、 Ledoit-Wolf 收缩 Markowitz (协方差矩阵收缩防病态)、 stacking (元模型学习加权)、 ensembling (多种子 / 多视界 / 多模型家族平均)。在短验证集上 (沪深300 ~1500 个后-2015 交易日是短的) 等权重通常击败 Markowitz; 收缩 Markowitz 是业内量产默认。接下来 L4 把你在 L3 得到的四条正交信号合成一个复合评分并评估样本外 IR ——这就是整个 4.2.3 craft 的 capstone。

课程组件 (Lesson components)

Inline-code 列表四个经典正交化方法:

sequential_residualisation (顺序残差化, 依赖排序的 OLS 残差链);
symmetric_gram_schmidt (对称 Gram-Schmidt, QR 分解或 Löwdin 形式);
pca_orthogonalisation (PCA 主成分分析正交化, 协方差矩阵特征分解);
factor_neutralisation (因子中性化, 残差对 Barra-风格因子暴露)。

每条候选信号加入量产复合之前都先正交化; 边际 IC 是加入的门槛。

Inline-code 列表五元正交化诊断包: raw_ic_correlation_matrix、 orth_ic_correlation_matrix、 orthogonal_ic_per_signal、 orthogonal_ic_ratio、 method_and_ordering。正交 IC 低于 L2 break-even IC 的信号是冗余, 从复合中剔除。

Inline-code 列表四条走通信号: mom_12_1、 book_to_market、 gross_profitability、 pead_sue。沪深300 上经典 IC 相关模式: 动量 ↔ 价值 ~ -0.4, 动量 ↔ 质量 ~ 0.3, 价值 ↔ 质量 ~ 0.2, PEAD ↔ 其他 ~ 0.1。

Inline-code 列表对称 Gram-Schmidt 三步计算: S = stack_signals_as_columns(signals)、 Q, R = numpy.linalg.qr(S)、 orthogonal_signals = Q * diag(sign_correction)。

Inline-code 列表因子中性化三步计算: F_t = factor_exposures_at_date(t)、 beta_t = numpy.linalg.lstsq(F_t, s_t)、 s_t_neutral = s_t - F_t @ beta_t。

两个 fenced python 块: symmetric_orthogonalise 函数 (QR 分解 + 符号修正) 和 factor_neutralise 函数 (横截面 OLS 残差)。

L3 用到的数学词汇: 正交 (orthogonal, 内积为零的两个向量); 主成分分析 (PCA); 奇异值分解 (SVD); 协方差矩阵; 特征分解 (eigendecomposition); 特征值 (eigenvalue); 特征向量 (eigenvector)。信息比率在 L3 边际 IC 度量中复用 ——边际 IR = 边际 IC * sqrt(BR); Alpha 衰减的词汇在 L3 的正交 IC 历史退化上重现。因子模型、因子暴露是 L3 因子中性化的核心词汇 ——具体因子模型 (Barra CNE6 / Barra USE4) 是 4.3.1 的主题。

练习

Exercise

给定一个 signals_df (以 (date, symbol) 为 MultiIndex, 四列: mom_12_1, book_to_market, gross_profitability, pead_sue) 和一个 returns_df (以 (date, symbol) 为 MultiIndex, 列 fwd_21d_return), 在沪深300 universe 上 2018-2023 范围内完成五项任务。

(i) 算 4 × 4 raw rank-IC 相关矩阵; 验证经典模式 (动量 ↔ 价值 ~ -0.4; 动量 ↔ 质量 ~ 0.3; 价值 ↔ 质量 ~ 0.2; PEAD ↔ 其他 ~ 0.1)。

(ii) 通过 numpy.linalg.qr 应用对称 Gram-Schmidt 正交化产出 4 列正交基底; 算 4 × 4 正交化后 IC 相关矩阵并验证它近对角。

(iii) 算每个信号的正交 IC; 算正交 IC / raw IC 比率; 找出正交 IC 贡献最高的信号。

(iv) 应用 Barra CNE6 风格因子 + CITIC 行业 dummies 的因子中性化; 算中性化残差的正交 IC; 观察动量的正交 IC 显著下降 (它本身就是 Barra 风格因子) 而 PEAD 几乎不变 (它不在 Barra 中)。

(v) 用 L2 的 IC_break_even ≈ 0.02 月度把四条信号过关; 说明哪些信号通过正交 IC 门槛并进入 L4 复合构造。

提示

raw 相关矩阵是 signals_df.groupby(level='date').apply(lambda g: g.corr()) 的跨日平均; QR 分解是 numpy.linalg.qr(signal_matrix), 列 Q 即正交基底; 符号修正用 R 的对角符号。

提示

因子中性化是横截面 OLS 残差: 在每个调仓日 numpy.linalg.lstsq(F_t, s_t) 取残差; PEAD 的正交 IC 不变是关键验证, 它不在 Barra 中。

四 个 正交化 方法

五 元 诊断 包

四 条 走 通 信号

对 称 Gram-Schmidt

因子 中性化

顺序 残差化 与 PCA: 何 时 用

走 通 的 例子: 沪深300 四 信号

与 L4 的 衔接

课程 组件 (Lesson components)

练习