IC、IR 与主动管理基本定律 — 信号评估与合成

周一上午,你在上海的一家量化私募。研究主管在桌边停下来,看了一眼你上周提交的 12-1 动量信号的 DSL,问了一句话:「IC 是多少?」这就是 4.2.3 模块整个评估工序的起点。你已经按 4.2.2 的规范把信号构造完毕——alpha 公式写好了,标准化流水跑通了,T+1 滞后处理过了——下一步不是再优化信号,而是给它一个可辩护的数字让团队决定要不要上线。本课教你怎么回答那一句话:用信息系数(IC)、信息比率(IR)、以及 Grinold-Kahn 主动管理基本定律构成的单信号评估工具包。

IC 是什么

在单个调仓日期 t,信号 s_t 是一个长度 N 的横截面向量(N = 沪深300 的成分股数量),前瞻收益 r_{t, t+h} 是同样长度的横截面向量——这里 h 是前瞻视界,通常取 21 个交易日(月度调仓)。 IC 就是这两个向量的横截面相关系数:

\text{IC}_t = \mathrm{corr}(s_t,\; r_{t, t+h})

注意:IC 是 每个调仓日期一个数字,横跨 T 个调仓日后,得到一条长度 T 的 IC 时间序列,而不是一个单点标量。

工程上选哪种相关系数?Pearson IC 是线性相关,对公式驱动信号那些重尾分布(一个 5 日反转信号 99 分位可能是中位数的 50 倍)非常敏感; 排序 IC(rank IC, 又称 Spearman IC)在排名转换后的输入上计算,对尾部异常值稳健。业内默认报告 rank IC;若报告 Pearson IC, 必须同步声明 winsorise 策略。

IC_t = corr(s_t, r_{t, t+h})、 rank_IC(Spearman 变体——业内默认)、 IR = mean(IC) / std(IC) * sqrt(annualisation_factor)(年化 IC 信噪比)、 t_stat = mean(IC) / NeweyWest_SE(IC, lag=h)(HAC 调整 t 统计量)、 IR ≈ IC * sqrt(BR)(Grinold-Kahn 主动管理基本定律,BR = 广度 = 每年独立押注数)——这五个名字就是单信号评估的字母表,每个信号上线前都要全部报出。

IC 时间序列与 t 统计量

把 IC 时间序列 IC_t 算出来之后,头条数字是 mean(IC_t)。但离散度 std(IC_t) 同样重要——mean(IC) = 0.05 且 std(IC) = 0.20 的信号不可靠;mean(IC) = 0.03 且 std(IC) = 0.05 反而更可取。IC t 统计量 mean(IC) / SE(IC) 检验均值 IC 是否显著不等于零。朴素标准误 std(IC) / sqrt(T) 在这里不可用:IC 几乎必然自相关(本月的 IC 预测下月的 IC),朴素 SE 会过度拒绝零假设。

业内通用修正是 Newey-West / HAC (heteroskedasticity-and-autocorrelation-consistent) 标准误,滞后 lag = h——即设为前瞻收益的视界,也是 IC 自相关的最大理论滞后阶数。四步计算:

mean_ic = mean(IC_t)
hac_se = NeweyWest_SE(IC_t, lag=h)(HAC 标准误,滞后设为前瞻视界)
t_stat = mean_ic / hac_se
p_value = 2 * (1 - Phi(|t_stat|))(两侧 p 值,假设渐近正态)

四步的顺序是固定的,规则是「朴素 SE = std(IC) / sqrt(T) 在 IC 自相关时过度拒绝零假设」。每个信号必须同时报告 (mean IC, median IC, std IC, HAC 调整 t 统计量)。

下面是一个可以直接复用的 IC 计算函数:

import pandas as pd
from scipy.stats import spearmanr, pearsonr

def compute_ic(signal: pd.DataFrame, forward_return: pd.DataFrame, method: str = 'spearman') -> pd.Series:
    # 1. 按 (date, symbol) MultiIndex 对齐
    aligned = pd.concat([signal.rename('s'), forward_return.rename('r')], axis=1).dropna()
    # 2. 按 date 分组,逐日计算横截面相关
    def _corr(group):
        if method == 'spearman':
            return spearmanr(group['s'], group['r']).statistic
        return pearsonr(group['s'], group['r']).statistic
    # 3. 返回长度 T 的 IC 时间序列
    return aligned.groupby(level='date').apply(_corr)

compute_ic 的函数名、参数 signal / forward_return / method、默认值 'spearman'、以及 SciPy 函数名,在中英两版中字节一致;仅注释翻译。

信息比率 IR

IR 是 IC 的年化信噪比:

\mathrm{IR} = \frac{\overline{\mathrm{IC}}}{\sigma(\mathrm{IC})} \cdot \sqrt{\text{annualisation\_factor}}

年化因子在月度 IC 上取 12, 日度取 252, 周度取 52。根号来自标准化 IC 时间序列的中心极限定理。典型量级:单公式驱动信号 raw IR ≈ 0.3-0.8(正交化前、成本前); 良好正交化的复合信号 IR ≈ 1.0-2.0; 扣除交易成本后,机构量级的量产门槛是 IR ≈ 0.5-1.5。 IR 与把信号 z 分数当头寸的多空纸面组合的夏普比率大致等价。

下面是配套的 IR 计算函数,封装了 Newey-West HAC SE:

import numpy as np
import pandas as pd
import statsmodels.api as sm
from scipy.stats import norm

def compute_ir(ic_series: pd.Series, horizon: int, annualisation_factor: int) -> dict:
    # 1. 均值 / 中位数 / 标准差
    mean_ic = ic_series.mean()
    std_ic = ic_series.std()
    # 2. Newey-West HAC SE,滞后 = 前瞻视界 h
    X = np.ones((len(ic_series), 1))
    ols_fit = sm.OLS(ic_series.values, X).fit(cov_type='HAC', cov_kwds={'maxlags': horizon})
    hac_se = ols_fit.bse[0]
    # 3. HAC 调整 t 统计量与双侧 p 值
    t_stat = mean_ic / hac_se
    p_value = 2 * (1 - norm.cdf(abs(t_stat)))
    # 4. 年化 IR
    ir = (mean_ic / std_ic) * np.sqrt(annualisation_factor)
    return {'mean_ic': mean_ic, 'std_ic': std_ic, 'hac_se': hac_se,
            't_stat': t_stat, 'p_value': p_value, 'ir': ir}

compute_ir 的函数名、参数 ic_series / horizon / annualisation_factor、返回字典的键 mean_ic / std_ic / hac_se / t_stat / p_value / ir、以及 HAC-lag 规则,在中英两版中字节一致。

Formula Explorer

IR = IC * sqrt(BR)

Grinold-Kahn 主动管理基本定律

把 IR 拆开看:IR ≈ IC * sqrt(BR),其中 BR 是广度——每年独立押注的数量。「独立」二字才是关键:沪深300 上 300 只股票、一年 252 个交易日并不是 300 * 252 = 75600 次押注,而是接近 252 次 横截面 押注——因为同一 t 上 300 只股票的押注是相关的(t 和 t+1 的横截面排序相关系数通常在 0.7-0.9)。

实际含义:高 IC 低广度的信号(例如季度盈余惊奇信号,IC = 0.10,BR = 4)与低 IC 高广度的信号(例如日度价格动量信号,IC = 0.02,BR = 252)产出接近的 IR——0.10 * sqrt(4) = 0.20 对比 0.02 * sqrt(252) = 0.32。信号设计的取舍是质量(IC)与数量(BR)的平衡;纯套利策略最大化 IC,高广度因子模型最大化 BR。文献锚点:Grinold 'The fundamental law of active management'(JPM 1989), Grinold & Kahn《主动投资组合管理》(1999) 中文版第 4-6 章。

各信号家族的 IC 量级

三个经典量级带,你见到偏离这些带的数字时应当警觉:

(1) formula_driven rank IC ≈ 0.02-0.05 月度——12-1 动量、账面市值比价值因子、 ROE 质量因子、 60 日低波动都落在这一带,这就是业内「alpha 是小数」的共识;

(2) event_driven 峰值 IC ≈ 0.08-0.12 在公告日当天(稀疏);例如 SUE(标准化未预期盈余)在财报公告日当天 IC 在 0.08-0.12,但全年平均 IC 因事件稀疏而显著更低;

(3) ml_driven 复合 rank IC ≈ 0.05-0.12 月度——一个调优良好的 LightGBM 排序模型在 ~300 维特征上通常比最佳单一公式驱动信号提升 2-3 倍。

异常带:单信号月度 rank IC > 0.15 在沪深300 这种主流 universe 上几乎总是 4.2.1 L2 的前瞻偏差 bug——前视特征、事件日期错位滞后、测试集标准化污染。规则:当 IC 超出预期带 3 倍时,先审查前瞻偏差,再庆祝。 alpha 衰减与公式失效也会改变 IC 量级,但一次性出现 0.20 的单信号 IC 大概率是数据错位。

七元素单信号诊断包

每个信号进入 L3 正交化之前,必须携带七个诊断:

(1) ic_time_series(每个调仓日的 IC), (2) rolling_12m_ic(稳健性检验——逐月滑动 12 月 IC,下降趋势意味着信号在衰减,这是 L2 的主题), (3) ic_histogram(看偏度和尾部——重偏分布说明单一 regime 主导均值), (4) ic_by_regime(牛市 / 熊市 / 高波动 / 低波动——只在牛市工作的信号其实是隐藏的 beta 倾斜), (5) annualised_ir(带注明的年化因子), (6) breadth_count_and_implied_ir(广度计数与 Grinold-Kahn 隐含 IR——和实际 IR 对照), (7) signal_vs_return_scatter(代表性调仓日的信号-前瞻收益散点——视觉卫生检查:应当看到微弱但明确的正斜率;若看起来像白噪声,IC 是被异常值驱动;若显示两个聚类,信号实际是二元变量)。

规则:任何缺失七元素任一项的信号都不进入 L3 正交化步骤。 这与因子模型中检查因子暴露的流程一致:你永远不会在没看过因子载荷之前把一个风险因子引入主投资组合优化问题。

一个走通的例子

把 4.2.2 L2 的 12-1 动量信号接上来。在沪深300 上、 2018-2023 的月度调仓上跑一遍:rank IC ≈ 0.03 月度, IR ≈ 0.5, 广度 ≈ 12(月度调仓每年 12 次横截面押注),Grinold-Kahn 隐含 IR ≈ 0.03 * sqrt(12) ≈ 0.10——和实际 IR 0.5 之间的差距,就是公式没显式计入的横截面押注乘数(实际 IR 是 纸面组合 IR,享受了横截面多押注的收益;公式低估了实际数字)。

行业工具:沪深300 上的默认评估框架是 Microsoft Qlib(github.com/microsoft/qlib)——它自带 Alpha158 和 Alpha360 因子库加上 qlib.contrib.eval 的 IC / IR / 衰减 / 换手率诊断,基本是量化私募业内起步工具。 alphalens-reloaded 是单独评估库的备选。推荐学习者在沪深300 上复现 Alpha158 的 IC 基线,作为入门任务。私募业(明汯、幻方、九坤、灵均)和公募量化部门使用的评估框架与上述一字不差——中文词汇信息系数 / 排序 IC / 信息比率 / 主动管理基本定律 / 广度 / 信号衰减 / 信号半衰期是中文量化文献的标准用语。

与 L2、 L3、 L4 的衔接

L1 在一个视界上评估一个信号,得到一个 IC 和一个 IR;L2 把视界扩展到多个(衰减曲线),并引入换手率与容量——单信号评估的时间与规模维度。 L3 引入 多信号 卫生步骤正交化(orthogonalisation):把 K 个相关信号残差化 (residualisation) 成 K 个正交信号; L4 把正交化后的信号合成为单一复合评分。 IR 在后三课反复出现:L2 的 break-even IC 涉及 IR; L3 的正交 IC 用 IR 做边际贡献度量; L4 的整个目标就是最大化复合 IR。沿用 4.2.1 的工序: 每个你评估的信号都在 4.2.1 L3 的试验计数器上加一(多重检验 inflation 是 4.2.1 L3 的主题),写出报告时用 deflated-Sharpe 修正调整显著性。接下来 L2 走的是把单视界 IC 扩展为多视界衰减曲线,并衡量换手率与容量。

课程组件 (Lesson components)

Inline-code 列表 IC / IR 核心的五个元素: IC_t = corr(s_t, r_{t, t+h})、 rank_IC、 IR = mean(IC) / std(IC) * sqrt(annualisation_factor)、 t_stat = mean(IC) / NeweyWest_SE(IC, lag=h)、 IR ≈ IC * sqrt(BR)。每个信号上线前都要全部报出。

Inline-code 列表七元素单信号诊断包: ic_time_series、 rolling_12m_ic、 ic_histogram、 ic_by_regime(牛市 / 熊市 / 高波动 / 低波动)、 annualised_ir、 breadth_count_and_implied_ir、 signal_vs_return_scatter。任何缺失七元素任一项的信号都不进入 L3 正交化步骤。

Inline-code 列表三个经典 IC 量级带: formula_driven rank IC ≈ 0.02-0.05 月度、 event_driven 峰值 IC ≈ 0.08-0.12 在公告日 (稀疏)、 ml_driven 复合 rank IC ≈ 0.05-0.12 月度。异常带是单信号月度 rank IC > 0.15 在主流 universe 上 ——超出预期带 3 倍时先审查前瞻偏差。

Inline-code 列表 IC t 统计量计算的四步: mean_ic = mean(IC_t)、 hac_se = NeweyWest_SE(IC_t, lag=h)、 t_stat = mean_ic / hac_se、 p_value = 2 * (1 - Phi(|t_stat|))。朴素 SE = std(IC) / sqrt(T) 在 IC 自相关时过度拒绝零假设。

两个 fenced python 块: compute_ic 函数 (Spearman / Pearson 分派返回长度 T 的 IC 时间序列) 和 compute_ir 函数 (Newey-West HAC SE 加年化 IR, 返回 mean_ic / std_ic / hac_se / t_stat / p_value / ir 字典)。

本模块还命名了后续模块会用到的词汇: 索提诺比率 (Sortino 比率 ——Sharpe 比率用下行离散度替换总波动 ——用于偏收益分布, 留给组合构造模块); 因子模型与因子暴露词汇 (L3 因子中性化对 Barra CNE6 / CITIC 行业使用); 价值因子、质量因子、低波动因子标签 (因子 zoo 语言操作层在此命名; 学术因子模型文献在下一个 subject)。 Alpha 衰减词汇是 L2 主题; 此处仅在词汇层出现。

练习

Exercise

给定一个 signal_df(以 (date, symbol) 为 MultiIndex,列 mom_12_1)和一个 returns_df(以 (date, symbol) 为 MultiIndex,列 fwd_21d_return——21 日前瞻横截面排名收益),在沪深300 的 universe 上、 2018-2023 范围内完成五项任务。 (i) 在 21 日前瞻视界上计算 rank IC 时间序列,并报告 mean_ic、 median_ic、 std_ic。 (ii) 计算 lag=21 的 Newey-West HAC 调整 IC t 统计量以及双侧 p 值。 (iii) 使用 annualisation_factor = 12(月度调仓与 21 日视界)计算年化 IR。 (iv) 用 BR = 12(每年 12 次独立月度押注)和经验 IC 计算 Grinold-Kahn 隐含 IR; 对比实际 IR,并用一句话解释为什么实际 IR 通常高于 Grinold-Kahn 公式的预测(公式低估了横截面押注乘数)。 (v) 判断你得到的 rank IC 量级(公式驱动信号月度通常 0.02-0.05)落在预期带、异常带(> 0.15)、还是低于预期带; 说明超出异常带意味着 4.2.1 L2 的前瞻偏差 bug、落在预期带下方意味着 alpha 衰减或 regime 变化。

提示

横截面相关用 scipy.stats.spearmanr 在每个调仓日分组计算;统计摘要直接在 IC 序列上跑 .mean() / .median() / .std()。

提示

HAC 标准误用 statsmodels.api.OLS 配 cov_type='HAC' 与 cov_kwds={'maxlags': 21};年化 IR 是 (mean / std) * sqrt(12) 因为每年 12 次月度 IC。

IC 是什么

IC 时间序列 与 t 统计量

信息比率 IR

Grinold-Kahn 主动管理基本定律

各 信号 家族 的 IC 量级

七 元素 单 信号 诊断包

一个 走通 的 例子

与 L2、 L3、 L4 的 衔接