信号合成、堆叠与集成 — 信号评估与合成

周五上午,你在上海的一家量化私募 ——明汯、幻方、九坤、灵均风格的多因子私募。 L3 把四条信号正交化完了: mom_12_1, book_to_market, gross_profitability, pead_sue 都残差化通过了 IC_break_even 门槛。桌面上还没有量产复合信号。投决会在下午 2 点。研究主管问你: 「等权重简单平均行不行?」在沪海 2018-2022 样本内 IR 是 0.9; 在 2023 样本外 IR 是 0.85 ——可用但还有提升空间。你还在试 Markowitz w = Σ^{-1} * IC: 样本内 IR 是 1.5, 样本外暴跌到 0.6 ——明显过拟合。 Ledoit-Wolf 收缩 Markowitz: 样本内 1.3, 样本外 1.1 ——shrinkage benefit 是 0.25 IR, 显著高于 0.1 IR 门槛, 这就是你要上线的复合。本课是整个 4.2.3 craft 的 capstone: 怎么把一组正交信号合成单一量产评分, 怎么选加权方案, 怎么防过拟合。

五种合成方法

业内五种标准加权方案在这个顺序上适用不同数据体量:

(1) equal_weight (等权重, w = (1/K, ..., 1/K)) ——稳健默认; 在验证集长度 T < 5K 时击败 Markowitz, 因 Markowitz 噪声 dominate optimisation gain;

(2) markowitz_optimal (Markowitz 最优, w* = Σ^{-1} * IC) ——样本内最优解; 没有正则化时样本外极不稳定;

(3) ledoit_wolf_shrinkage (Σ_shrunk = (1 - τ*) * Σ_sample + τ* * (tr(Σ_sample)/K) * I, w = Σ_shrunk^{-1} * IC) ——量产默认, 适用中等验证集长度;

(4) stacking (堆叠, 元模型 ——线性 / ridge / LightGBM ——在基信号的 out-of-fold 预测上训练) ——捕捉线性加权无法表达的非线性交互;

(5) ensembling (集成, bagging 多种子 + 跨视界 model averaging + 跨模型家族 robust mean) ——多层防御过拟合。

规则: 量产复合 = (orthogonalise + combine + regime-check); T > 20K 时默认对称 Gram-Schmidt + Ledoit-Wolf 收缩 Markowitz, T < 5K 时默认对称 Gram-Schmidt + 等权重。

五元复合诊断包

复合信号上线之前携带五个诊断数字:

(1) composite_ir_in_sample_vs_oos (样本内 vs 样本外 IR, gap > 50% 意味过拟合); (2) per_signal_weight_contribution_and_stability (每条信号权重与跨验证折稳定性); (3) composite_turnover_and_break_even_ic (复合必须在复合换手率下满足 L2 break-even IC 门槛); (4) regime_conditional_composite_ic (牛市 / 熊市 / 高波动 / 低波动 ——单 regime 失效的复合不可上线); (5) shrinkage_benefit (收缩 Markowitz vs 等权重的样本外 IR 提升; > 0.1 IR 上线收缩版, 否则上线等权重)。

规则: 任何缺失五元任一的复合不进入 4.4 组合构造步骤。

Markowitz 与收缩的数学形式

Markowitz 最优权重的闭形解:

w^* = \Sigma^{-1} \cdot \mathrm{IC}

收缩协方差的 Ledoit-Wolf 形式:

\Sigma_{\text{shrunk}} = (1 - \tau^*) \cdot \Sigma_{\text{sample}} + \tau^* \cdot \frac{\mathrm{tr}(\Sigma_{\text{sample}})}{K} \cdot I

Ledoit-Wolf 收缩 Markowitz

Markowitz 在样本内是 IC 加权的最优解: w* = Σ^{-1} * IC 最大化 IR = w^T * IC / sqrt(w^T * Σ * w)。问题: 协方差矩阵 Σ 在短验证集上病态 ——特征值散布极宽, 最小特征值接近零, 求逆后权重极端 (一条信号 50% 权重, 另一条 -30%)。样本外噪声 dominate。

Ledoit-Wolf 2004 提出解析收缩估计子: 把样本协方差朝一个良态目标 (单位阵乘 tr(Σ)/K) 收缩, 收缩参数 τ* 由 MSE 最小化解析计算。三步:

(1) Sigma_sample = numpy.cov(ic_matrix.T) ——样本 IC 协方差; (2) lw = sklearn.covariance.LedoitWolf().fit(ic_matrix) 然后 tau_star, Sigma_shrunk = lw.shrinkage_, lw.covariance_ ——解析收缩参数和收缩协方差; (3) w_shrunk = numpy.linalg.solve(Sigma_shrunk, ic_mean_vector) ——正则化后的 Markowitz 权重。

规则: 收缩权重在 Markowitz 最优 (τ=0) 与等权重基线 (τ=1) 之间插值。

import numpy as np
import sklearn.covariance

def ledoit_wolf_markowitz(ic_matrix: np.ndarray) -> dict:
    # 1. 样本 协方差
    Sigma_sample = np.cov(ic_matrix.T)
    # 2. 解析 收 缩 估 计
    lw = sklearn.covariance.LedoitWolf().fit(ic_matrix)
    tau_star = lw.shrinkage_
    Sigma_shrunk = lw.covariance_
    # 3. 求 解 Sigma_shrunk @ w = ic_mean
    ic_mean = ic_matrix.mean(axis=0)
    weights = np.linalg.solve(Sigma_shrunk, ic_mean)
    cond_before = np.linalg.cond(Sigma_sample)
    cond_after = np.linalg.cond(Sigma_shrunk)
    return {'tau_star': tau_star, 'sigma_shrunk': Sigma_shrunk,
            'weights': weights, 'condition_number_before': cond_before,
            'condition_number_after': cond_after}

ledoit_wolf_markowitz 的函数名、参数 ic_matrix、 sklearn API sklearn.covariance.LedoitWolf, 以及返回字典键, 在中英两版中字节一致; 仅注释翻译。

Formula Explorer

Sigma_shrunk = (1 - tau) * Sigma + tau * trace_Sigma_over_K * I

Stacking ——元模型加权

线性 Markowitz 假设信号与收益之间是线性关系。 LightGBM ranker 上的实际量产信号通常非线性: 极端值的边际贡献与中间值不同, 信号之间有交互项 (动量强时价值信号反而弱)。 Stacking 用一个元模型 (linear / ridge / LightGBM) 学习这些非线性关系。四步:

(1) oof_predictions = purged_kfold_predict(base_signals, target_returns, n_folds=5, embargo=21) ——4.2.1 L2 的净化 K 折 ——产出每条基信号的样本外 OOF 预测; (2) meta_model = sklearn.linear_model.Ridge(alpha=1.0) 或 lightgbm.LGBMRanker(...) ——元模型, 业内私募量产通常是 lightgbm.LGBMRanker(objective='rank_xendcg'); (3) meta_model.fit(oof_predictions, target_returns) ——元模型在 OOF 预测上训练; (4) composite_score = meta_model.predict(test_predictions) ——元模型在测试集上给出复合评分。

规则: 当基信号本身是复杂模型时用 stacking; 元模型捕捉线性权重无法表达的非线性交互。 净化 K 折的 21 日 embargo 在沪深300 上阻止 21 日前瞻收益的 OOF 预测看到训练集信息 ——4.2.1 L2 的操作关键。

集成 ——三种模式

集成是复合的最后一层防御:

(1) bagging_across_seeds ——训练 K' = 5-20 个不同种子的基 ML 信号; 平均预测; 方差减少 ~ 1/K';

(2) model_averaging_across_horizons ——把 h = 1, h = 5, h = 21 上的信号用视界特定权重 (来自 L2 半衰期) 合成;

(3) robust_mean_across_model_families ——公式驱动复合、事件驱动复合、 ML 驱动复合的中位数 / 截尾均值作为顶层主信号输入。

规则: 集成层是过拟合防御的最后一道; 量产复合 = (orthogonalise + combine + ensemble) 三层。

复合决策规则

四条数据-体-量-条件默认:

(1) if T < 5K: ship equal_weight ——短验证集, Markowitz 噪声 dominate; (2) if 5K <= T <= 20K: ship ledoit_wolf_shrinkage ——中等验证集, 收缩安全插值; (3) if T > 20K: ship markowitz_with_constraints ——长验证集, 加多空 / 权重上限 / 杠杆约束的 Markowitz 解稳定; (4) if shrinkage_benefit < 0.1_IR: prefer equal_weight ——更简单的复合对 regime 变化更稳健。

业内私募 (明汯、幻方、九坤、灵均、鸣石、衍复) 量产复合普遍组合 50-200 条正交信号, 复合 IR 在 1.0-1.5 样本外, 用 LightGBM stacking + bagging 跨种子 + Ledoit-Wolf 协方差收缩 ——业内公开报告描述的流水与上述完全一致。

复合构造函数

把上面五种方法 dispatch 进一个接口:

import numpy as np
import sklearn.covariance, sklearn.linear_model

def construct_composite(orthogonal_signals: np.ndarray, forward_returns: np.ndarray,
                       method: str = 'ledoit_wolf') -> dict:
    T, K = orthogonal_signals.shape
    if method == 'equal_weight':
        weights = np.ones(K) / K
    elif method == 'markowitz':
        # 1. 样本 IC 协方差 与 样本 平均 IC
        ic_matrix = orthogonal_signals * forward_returns[:, None]
        Sigma = np.cov(ic_matrix.T)
        ic_mean = ic_matrix.mean(axis=0)
        # 2. w = Σ^{-1} * IC
        weights = np.linalg.solve(Sigma, ic_mean)
    elif method == 'ledoit_wolf':
        ic_matrix = orthogonal_signals * forward_returns[:, None]
        lw = sklearn.covariance.LedoitWolf().fit(ic_matrix)
        ic_mean = ic_matrix.mean(axis=0)
        weights = np.linalg.solve(lw.covariance_, ic_mean)
    elif method == 'stacking':
        ridge = sklearn.linear_model.Ridge(alpha=1.0).fit(orthogonal_signals, forward_returns)
        weights = ridge.coef_
    # 3. 复合 评分 与 样本内 IR
    composite_score = orthogonal_signals @ weights
    in_sample_ir = composite_score.mean() / composite_score.std() * np.sqrt(12)
    return {'weights': weights, 'composite_score': composite_score,
            'in_sample_ir': in_sample_ir, 'oos_ir': None}

construct_composite 的函数名、参数 orthogonal_signals / forward_returns / method、 method 值 equal_weight / markowitz / ledoit_wolf / stacking, 以及返回字典键, 在中英两版中字节一致; 仅注释翻译。

走通的例子 ——四信号复合

把 L3 输出的四条正交信号 (mom_12_1_orth, book_to_market_orth, gross_profitability_orth, pead_sue_orth) 在沪深300 universe 上 2018-2022 样本内 / 2023 样本外走一遍:

(1) 等权重 w = (0.25, 0.25, 0.25, 0.25): 样本内 IR ≈ 0.95, 样本外 IR ≈ 0.85;

(2) 无约束 Markowitz: 样本内 IR ≈ 1.50, 样本外 IR ≈ 0.55, 协方差矩阵 Σ 条件数 ≈ 200 ——病态;

(3) Ledoit-Wolf 收缩 Markowitz: τ* ≈ 0.4-0.7 (沪深300 验证集短, 收缩较高), 样本内 IR ≈ 1.30, 样本外 IR ≈ 1.10, 协方差矩阵收缩后条件数 ≈ 8 ——良态;

(4) shrinkage benefit = 1.10 - 0.85 = 0.25 IR, > 0.1 IR 门槛 ——上线收缩 Markowitz 复合;

(5) 复合诊断: 样本内-vs-样本外 gap 是 (1.30 - 1.10) / 1.30 ≈ 15%, 远低于 50% 门槛; 每条信号权重 (动量 ≈ 0.32, 价值 ≈ 0.18, 质量 ≈ 0.20, PEAD ≈ 0.30 ——PEAD 因正交 IC 高得到高权重); 复合月度单边换手率 ≈ 90% (低于单信号 ——正交化 + 收缩平滑信号序列), 在 10 bp 往返 TC 下 break-even IC ≈ 0.015 (实际复合 IC ≈ 0.06, 远高于); regime-conditional 复合 IC 在牛市 / 熊市 / 高波动 / 低波动四个桶中都 > 0.04 ——通过 regime check。复合进入 4.4 组合构造。

过拟合与 deflated-Sharpe 修正的实操注解

私募业内每年跑通 1000+ 候选信号走这个评估流水, 在每个复合上跑 100+ 变化 ——不同正交化方法、不同协方差收缩估计子、不同 stacking 元模型、不同 bagging 计数、不同特征子集、不同前瞻收益视界。每个变化都在 4.2.1 L3 的试验计数器上加一, 累计多重检验 inflation 可以显著。 deflated-Sharpe-ratio 修正 (Bailey & López de Prado 2014) 提供一个试验数与 IR 分布高阶矩的闭形罚项; 在写报告把复合 IR 上报投决会之前应用这个修正。

第二个操作注解: 单次收缩 Markowitz 跑出的每条信号权重在跨验证折上 不稳定, 即使复合 IR 是稳定的。某条信号在第一折拿权重 0.30、第二折 0.10 但始终正值是稳健贡献; 某条信号第一折 0.30、第二折 -0.20 ——无论样本内 IR 多高, 它都危险。 per_signal_weight_contribution_and_stability 诊断抓的就是这个 ——跨折权重标准差与均值同时报告。沪深300 上验证集短 (后-2015 约 2400 个交易日, 月度调仓约 120 个调仓期), 折数通常是 5, 每折 24 个调仓期 ——足以算权重稳定性但也足以暴露不稳定信号的异常摆动。业内普遍用 5 折是一个经验经济取舍, 不是理论最优。量产私募 (明汯、幻方、九坤) 公开报告中描述的复合构造流水通常包括: 在训练集上跑 100+ 信号通过 L3 正交化与因子中性化, 然后在验证集上通过 LightGBM 元模型做 stacking, 跨 5-20 个随机种子做 bagging, 跨多个视界 (h=1, h=5, h=21) 做 model averaging ——这是业内公开的量产复合构造标准流水, 与学术文献描述完全一致但在实际部署上工程化更深。

与 4.4 的衔接与模块结束

L4 是整个 4.2.3 craft 的 capstone, 也是整个 subject 4.2 alpha research 的闭环。 4.2.1 教你怎么 设计 一个诚实的研究实验 (预注册、样本内 / 样本外分割、多重检验修正、净化 K 折); 4.2.2 教你怎么 构造 信号 (DSL、公式驱动 / 事件驱动 / ML 驱动三个信号家族、标准化流水); 4.2.3 教你怎么 评估与合成 (IC / IR / Grinold-Kahn / 衰减 / 换手 / 容量 / 正交化 / 复合)。三个模块加起来: 你现在可以接到一个 alpha 研究任务 ——构造 K 条候选信号、每条跑 L1 + L2 诊断、通过 L3 正交化与因子中性化把它们残差化、在 L4 用收缩 Markowitz 或 stacking 合成复合, 然后把复合评分交给 4.4 portfolio construction 转成实际持仓。多重检验 inflation 在整个研究流程上用 4.2.1 L3 的 deflated-Sharpe 修正调整; 实际 backtest 与 transaction cost 全套 framework 在 4.5; risk model 在 4.4.2; 因子 zoo 与 academic 因子模型文献在 4.3.1。

课程组件 (Lesson components)

Inline-code 列表五种经典合成方法:

equal_weight (w = (1/K, ..., 1/K), 稳健默认);
markowitz_optimal (w* = Σ^{-1} * IC, 样本内最优);
ledoit_wolf_shrinkage (Σ_shrunk = (1 - τ*) * Σ_sample + τ* * (tr(Σ_sample)/K) * I);
stacking (元模型 ——linear / ridge / LightGBM);
ensembling (bagging + 跨视界 model averaging + robust mean)。

量产复合 = (orthogonalise + combine + regime-check)。

Inline-code 列表五元复合诊断包: composite_ir_in_sample_vs_oos (gap > 50% 过拟合)、 per_signal_weight_contribution_and_stability、 composite_turnover_and_break_even_ic、 regime_conditional_composite_ic (牛市 / 熊市 / 高波动 / 低波动)、 shrinkage_benefit (> 0.1 IR 上线收缩版)。

Inline-code 列表 Ledoit-Wolf 收缩三步: Sigma_sample = numpy.cov(ic_matrix.T)、 lw = sklearn.covariance.LedoitWolf().fit(ic_matrix)、 w_shrunk = numpy.linalg.solve(Sigma_shrunk, ic_mean_vector)。

Inline-code 列表 stacking 四步: oof_predictions = purged_kfold_predict(base_signals, target_returns, n_folds=5, embargo=21)、 meta_model = sklearn.linear_model.Ridge(alpha=1.0) 或 lightgbm.LGBMRanker(...)、 meta_model.fit(oof_predictions, target_returns)、 composite_score = meta_model.predict(test_predictions)。

Inline-code 列表三种集成模式: bagging_across_seeds (5-20 种子平均, 方差减少 1/K')、 model_averaging_across_horizons (h=1, 5, 21)、 robust_mean_across_model_families (公式驱动 + 事件驱动 + ML 驱动三个顶层输入)。

Inline-code 列表四条复合决策规则: if T < 5K: ship equal_weight、 if 5K <= T <= 20K: ship ledoit_wolf_shrinkage、 if T > 20K: ship markowitz_with_constraints、 if shrinkage_benefit < 0.1_IR: prefer equal_weight。

两个 fenced python 块: construct_composite 函数 (五种方法 dispatch) 和 ledoit_wolf_markowitz 函数 (协方差收缩 + Markowitz 求解)。

L4 用到的词汇: 组合优化 (portfolio optimization, Markowitz 是经典解); 协方差矩阵 (Markowitz 与收缩的核心对象); 特征值 (协方差良态性与病态性由特征值散布决定); 特征分解 (PCA 与谱分析); Barra 模型 (因子模型的商业实现); 因子模型 (合成前的因子中性化引用); 信息比率 (L4 的头条指标); 夏普比率 (复合与 long-short 组合的 IR-Sharpe 等价性); Alpha 衰减 (跨验证集的复合 IR 衰减); 交易成本 (复合换手率的 break-even IC 约束)。

练习

Exercise

给定一个 orthogonal_signals_df (以 (date, symbol) 为 MultiIndex, 四列由 L3 对称 Gram-Schmidt 正交化产出: mom_12_1_orth, book_to_market_orth, gross_profitability_orth, pead_sue_orth) 和一个 returns_df (以 (date, symbol) 为 MultiIndex, 列 fwd_21d_return), 在沪深300 universe 上。用 2018-2022 作为样本内窗口, 2023 作为样本外窗口。

(i) 算等权重复合 (w = (0.25, 0.25, 0.25, 0.25)); 报告样本内 IR 与样本外 IR。

(ii) 算无约束 Markowitz 复合 (w* = Σ^{-1} * IC, Σ 与 IC 在样本内窗口估计); 报告样本内 IR、样本外 IR、与 Σ 的条件数。

(iii) 用 sklearn.covariance.LedoitWolf 算 Ledoit-Wolf 收缩 Markowitz 复合; 报告最优 τ*、样本内 IR、样本外 IR、与收缩后 Σ_shrunk 的条件数。

(iv) 算 shrinkage benefit = 收缩 Markowitz 样本外 IR 减等权重样本外 IR; 判断量产复合应该是收缩 Markowitz (如果 shrinkage benefit > 0.1 IR) 还是等权重 (否则)。

(v) 算复合诊断包 ——样本内-vs-样本外 gap、每条信号权重、在 TC = 10 bps 下的复合换手率与 break-even IC、牛市 / 熊市 / 高波动 / 低波动桶上的 regime-conditional 复合 IC。判断复合是否可以上 4.4 portfolio construction。

提示

等权重 IR 是 (composite.mean() / composite.std()) * sqrt(12); Markowitz w = numpy.linalg.solve(np.cov(ic_matrix.T), ic_matrix.mean(axis=0)); Σ 条件数是 numpy.linalg.cond(Sigma), 大值 (> 50) 警示病态。

提示

Ledoit-Wolf: lw = sklearn.covariance.LedoitWolf().fit(ic_matrix); tau_star = lw.shrinkage_; weights = numpy.linalg.solve(lw.covariance_, ic_mean); shrinkage benefit > 0.1 IR 是上线收缩版的门槛。

五 种 合成 方法

五 元 复合 诊断 包

Markowitz 与 收 缩 的 数学 形式

Ledoit-Wolf 收 缩 Markowitz

Stacking ——元 模型 加 权

集成 ——三 种 模 式

复合 决 策 规 则

复合 构 造 函数

走 通 的 例子 ——四 信号 复合

过 拟 合 与 deflated-Sharpe 修 正 的 实 操 注 解

与 4.4 的 衔接 与 模块 结 束

课程 组件 (Lesson components)

练习