从回测到仿真交易：部署交接 — 回测方法论

某周四早上，上海某量化私募的投决会。L1-L3 全部走完的 5 日动量策略摆在 Confluence 上：事件驱动引擎、十项真实性清单全绿、deflated Sharpe 0.8、PBO 0.35。研究员问投资总监：「什么时候上实盘？」投资总监不回答这个问题。她连问四个反问题。十节回测读出报告在哪？仿真交易的关卡标准是什么？四条 kill switch 是哪些、触发后由谁签字恢复？每日回测 vs 实盘对账报告落在哪里？这四个工件不齐，510300 一手都不准下——不在 100 块账户上，不在 100 亿账户上。回测不是预测。它是证据——证明策略可能 work。「可能在回测里 work」与「在生产里 work」之间的距离叫部署阶梯（deployment ladder），而部署阶梯就由这四个工件构成。本课教全部四个——它们是本模块的压轴，也是把工作交给 4.6.3 实盘交易与运营的桥。

回测读出报告——十节，顺序固定

第一个工件。信誉级回测产出的不是一个夏普数字、不是一张 PnL 曲线、不是一个 git commit，而是一份 读出报告（readout report）。读出报告是投决会签字看的、合规部门在境外营销规则（Rule 206(4)-1，2022 年 11 月生效）或 AMAC 业绩展示自律规则（CN）下归档的、风控部门在三个月后 kill switch 触发时翻出来的。十节必备内容，按顺序：

1.  PnL curve                            — 累计 收益 时间序列，叠加 benchmark（510300 沪深300 ETF）
2.  Sharpe ratio with confidence interval — 点 估计 + 95% CI（bootstrap 或 asymptotic formula）
3.  max drawdown                          — peak-to-trough loss % + 回补 天 数
4.  deflated Sharpe                       — 来自 L3；多重 检验 修正 后 的 夏普
5.  PBO                                   — 来自 L3；组合 交叉 验证 给 出 的 过 拟 合 概率
6.  turnover                              — 日均 换手率
7.  capacity estimate                     — 收益 衰减 < 50% 时 的 最大 总 AUM
8.  factor exposure breakdown             — 在 4.3 因子模型（中证 / 巨潮 / Wind 因子库）上 的 回归
9.  parameter-sensitivity heatmap         — 参数 网格 邻 域 上 的 夏普 热 图
10. reproducibility metadata              — git commit、数据 快照 ID、随机 种子、run-id

读出报告既是投决会看的内部信誉文件，又是境外营销规则 (US) / AMAC 业绩展示自律规则 (CN) 下的合规工件。一个文件，两个受众。

第 1 节（PnL 曲线）把累计收益与 benchmark（CN 用 510300）画在一张图上。读者两秒看完然后问：曲线是稳步增长，还是在某一段暴涨之后平趴？第 2 节（Sharpe 含 CI）用渐进公式 SE(Sharpe) ≈ sqrt((1 + Sharpe² / 2) / T) 与 95% 区间 Sharpe ± 1.96 × SE(Sharpe) 算头条数字的不确定性；Jobson-Korkie 1981 + Memmel 2003 的小样本修正是标准改进，引用在学术文献与 mlfinlab 包里。第 3 节（max drawdown）报告最大 peak-to-trough 跌幅与回补天数；前 5 大历史 drawdown 的多 drawdown 图与头条数字并列。第 4、5 节（deflated Sharpe + PBO）就是 L3 的交付物原样。第 6 节（turnover）是日均换手率；日换手超 100% 是容量 + 成本的双黄灯。第 7 节（capacity estimate）由把 AUM 从小到大步进重跑回测、按较大单量调整 volume-participation cap，算出收益较 baseline 衰减 > 50% 的总 AUM。第 8 节（factor exposure）把策略日收益对因子模型（中证 / 巨潮 / Wind / Axioma APT 中国因子）回归；一只「动量」策略居然 30% 收益来自价值暴露是重大警示——策略不是研究员以为的那个。第 9 节（parameter-sensitivity heatmap）画参数网格邻域上的夏普热图；稳健策略热图光滑、最佳格在平台上；过拟合策略热图在一格上尖锐突起、邻居远弱于它。第 10 节（reproducibility metadata）是 git commit、数据快照 ID、随机种子、run-id——与 4.2.1 L4 相同的工件。读出报告必须能从 metadata 一条命令重新生成。

\text{SE(Sharpe)} \approx \sqrt{\frac{1 + \text{Sharpe}^2 / 2}{T}}, \qquad 95\% \text{ CI: } \text{Sharpe} \pm 1.96 \cdot \text{SE(Sharpe)}

Formula Explorer

\text{SE(Sharpe)} \approx \sqrt{\frac{1 + \text{Sharpe}^2 / 2}{T}}

读出报告第 2 节置信区间用的夏普标准误渐进公式。95% CI 等于 Sharpe ± 1.96 × SE(Sharpe)。Jobson-Korkie 1981 / Memmel 2003 给小样本（T 小于 ~250）下的修正。

四阶段部署阶梯

第二个工件。每一只量化私募 / 公募量化部门的策略都按这个严格顺序走完四个阶段：

1. backtest               — offline; gate: ten-section readout, PBO < 0.5, deflated Sharpe > 0.5
2. paper trading          — live data, simulated capital; duration 1-3 months; gate: paper Sharpe within 30% of backtest deflated Sharpe, same sign of cumulative return, no signal-pipeline errors
3. shadow trading         — live execution, small real capital ~1% of allocated size; duration 1-3 months; gate: realized Sharpe within 30% of backtest deflated Sharpe, no anomalous fills, kill switches verified
4. full live deployment   — allocated size, kill switches active, continuous reconciliation

策略不能跳关；每一只策略都按顺序走完四个阶段、每一关都有签字的关卡标准。从回测完到完整实盘的典型时间线是 3-6 个月，明汯 / 幻方 / 灵均 / 衍复这一档私募的节奏；公募量化部门（天弘 / 富国 / 华夏 / 嘉实）由于投决会流程 + 风控部门 + 基金合同约束通常更慢。

backtest -> paper trade (1-3 months) -> shadow trade (1-3 months) -> full deployment
total wall-clock: 3-7 months

压缩时间线（跳关或缩短阶段）不是敏捷美德，是治理红旗。

第 2 阶段（paper trading / 仿真交易）把策略完整跑在 firm 内部的仿真系统上，接入 Wind / 通联 / 同花顺 / Bloomberg 的实时行情。策略算信号、构组合、生单——但成交用 L2 fill model 参数（next-bar-open、10% cap、5-10 bps 滑点）模拟。时长 1-3 月。目的：核对实时数据管道与回测数据管道一致；抓实现 bug（实时信号与回测信号可能因数据供应商字段命名或时间戳处理微差而不同）；在押真钱之前验证运营 stack（行情网关、信号服务、组合服务）。

第 3 阶段（shadow trading / 影子交易）把小额真钱——典型 10-100 万 RMB 起、上限通常与即将配资的 1% 同量级——放在 firm 主经纪商（中信 / 国泰君安 / 招商 / 中信建投 / 华泰）的一个试单账户里。真成交、真成本、真借券、真滑点。时长 1-3 月。目的：小规模真钱测试——核对真成交与 paper-trade 成交一致；核对真成本与成本模型一致；核对实现 PnL 与回测预测 PnL 在对账容差之内。kill switch 在生产里用可控小扰动测试。

第 4 阶段（full live deployment）与 firm 的 OMS / EMS 集成、要风控总监签字、启动持续回测 vs 实盘对账。CN 投决会等价物通常是投资决策委员会 / 投决会。

回测 vs 实盘对账——四维偏差分解

第三个工件。把回测预测 PnL 与实盘实现 PnL 连起来的每日报告。每一天，策略跑一次 回测模式（用当日真实行情、按模型设定的规模 + L2 fill model + cost model）产出 回测预测 PnL；实盘系统产出 实现 PnL。差距分解为四个加性分量：

1. signal-decay gap   — 实盘 信号 与 回测 信号 不一致；alpha 衰减
2. execution gap      — 实盘 成交 与 回测 成交 不一致；slippage / impact / partial fill / latency
3. cost gap           — 实盘 成本 与 回测 成本 不一致；佣金 / 价差 / 借券 / 印花税
4. universe gap       — 实盘 股票池 与 回测 股票池 不一致；corporate actions / 停牌 / 指数 调整

# 分 解 恒 等 式:
gap = realized_PnL - backtest_predicted_PnL = signal_decay_gap + execution_gap + cost_gap + universe_gap

# 阈 值:
# 单 分 量 月 度 持 续 > 30 bps/月 触 发 模型 评 审
# 累 计 月 度 > 100 bps/月 触 发 kill switch

signal-decay gap：实盘信号值与回测信号值不一致——alpha 衰减（市场把信号套走了）。算法：在实盘当日用回测数据源重跑信号，与实盘信号输出比较。正的 signal-decay gap（实盘 PnL < 回测 PnL）意味 alpha 衰减；负的意味策略变强（罕见，通常是数据质量伪影）。CN 量化 alpha 在 2021-2024 衰减显著（AUM 上涨拖累 + 监管对量化交易的新政 + 市场风格切换），signal-decay 分量通常是最大的那个 gap。

execution gap：实盘成交与回测成交不一致——滑点、市场冲击、部分成交、延时。算法：把实盘订单重跑进回测 fill simulator，与实际成交价比较。CFFEX 股指期货对冲（IF / IC / IM）有与现货篮子不同的 execution gap；集合竞价 / 涨跌停板 / 试盘信号都会出一些特殊滑点形态。

cost gap：实盘成本与回测成本不一致——印花税 0.1% 卖方（2023 减半至 0.05%）+ 过户费万分之 0.5 双边是确定项；变动项是价差（按流动性档位）+ 融券利率（8-9% 年化典型，涨跌停板时段可突飙）+ 主经纪商融资利率。把实盘佣金 + 价差 + 冲击 + 借券合起与 L2 10 bps 占位比较。

universe gap：实盘可交易股票池与回测投影股票池不一致——ST 戴帽（特别处理）、停牌（重大公告期间 3-6 月都有）、复牌（恢复交易后一字涨 / 跌停）、借壳 / 重组 / 退市整理期、IPO 加入沪深300 / 创业板 / 科创板。

参考对账函数：

def reconcile_backtest_vs_live(backtest_pnl, live_pnl, decomposition_inputs):
    # decomposition_inputs: dict with live_signal, backtest_signal, live_fills, backtest_simulator_fills,
    # live_costs, backtest_placeholder_costs, live_universe, backtest_universe
    signal_decay_gap = compute_signal_decay_gap(
        decomposition_inputs["live_signal"], decomposition_inputs["backtest_signal"])
    execution_gap = compute_execution_gap(
        decomposition_inputs["live_fills"], decomposition_inputs["backtest_simulator_fills"])
    cost_gap = compute_cost_gap(
        decomposition_inputs["live_costs"], decomposition_inputs["backtest_placeholder_costs"])
    universe_gap = compute_universe_gap(
        decomposition_inputs["live_universe"], decomposition_inputs["backtest_universe"])
    gap_total = signal_decay_gap + execution_gap + cost_gap + universe_gap
    tolerance = 0.0005  # 5 bps
    assert abs(gap_total - (live_pnl - backtest_pnl)) < tolerance, \
        f"reconciliation residual {abs(gap_total - (live_pnl - backtest_pnl))} exceeds tolerance"
    return {
        "signal_decay_gap": signal_decay_gap,
        "execution_gap": execution_gap,
        "cost_gap": cost_gap,
        "universe_gap": universe_gap,
    }

单分量持续 > 30 bps/月触发 模型评审——模型团队调查 gap 是否反映策略边际的结构性变化、还是执行 stack 的变化、还是成本景观的变化、还是股票池的变化；评审可能给出重调参 / 影子 / kill 的建议。累计 > 100 bps/月触发 kill switch 激活——策略暂停，等评审。

四条经典 kill switch 政策

第四个工件。每一条 kill switch 三个必备字段：数值阈值、halt 动作、who-resumes-what 协议。没有文档的 kill switch 不存在——一个没有文档阈值的开关按定义就是「随意」，而随意 halt 是治理失败、不是 kill switch。

1. per-strategy max-drawdown trigger
   threshold        : realized drawdown from peak > 5%
   halt action      : full halt
   who-resumes-what : 投决会 评 审 + 模 型 团队 根 因 分 析

2. per-day max-loss trigger
   threshold        : realized loss in single day > 1% of NAV
   halt action      : 当日 full halt（持仓 隔夜）
   who-resumes-what : 次日 auto-resume，除非 连续 第 二 天 则 升 级 到 投决会

3. backtest-vs-live Sharpe divergence trigger
   threshold        : realized 20-day rolling Sharpe < 0 while backtest predicted > 1
   halt action      : full halt
   who-resumes-what : 模型 团队 读 对账 分 解；signal-decay -> downsize/kill，ops -> fix + 1 月 影子

4. external regime trigger
   threshold        : 沪深300 20-day realized volatility > 30%
   halt action      : 减 gross 50%
   who-resumes-what : 指标 < 阈值 持续 5 日 auto-resume 到 full gross

开关 1 阈值中频策略典型 > 5%，高频 / 市场中性策略典型 > 3%。5% 阈值在 2015 股灾、2016 熔断、2018 trade war、2020 疫情、2022 房地产 + 疫情都触发过；每家私募的研究笔记都会记录哪些策略度过每个事件。

开关 2 是日内熔断。单日 NAV 亏损 > 1% 当日 halt 不再下单，持仓不强平。连续两日触发自动升级到投决会——连触在任何健全流程下都统计罕见，是结构性问题的诊断。

开关 3 是模型验证熔断。实盘 20 日滚动 Sharpe < 0 而回测预测 > 1 意味实盘 PnL 与回测预测 PnL 已经解耦——要么 alpha 死了（对账报告中 signal-decay 分量占优），要么运营 stack 坏了（执行 / 成本 / 股票池分量占优）。模型团队评审读四维分解、按路由走。

开关 4 是宏观熔断。2015 股灾、2018 trade war、2020 疫情、2022 疫情 + 房地产双杀期间沪深300 20 日实现波动率全部 > 30%；阈值校准来抓这些 regime。减 gross 50%（而非 full halt）是保守默认；高杠杆策略通常整体 halt。auto-resume 规则（指标 < 阈值持续 5 日重回 full gross）防止来回拉扯。

CN 涨跌停板制度在重涨跌停板集中日是 隐性 regime trigger——涨跌停板集中是 regime shift 的诊断之一。

一份示例 kill-switch 配置文件：

kill_switches:
  - name: per_strategy_max_drawdown_trigger
    threshold: realized_drawdown_from_peak > 0.05
    halt_action: full_halt
    who_resumes_what: 投决会_评审
  - name: per_day_max_loss_trigger
    threshold: daily_realized_loss > 0.01 * NAV
    halt_action: 当日_full_halt
    who_resumes_what: 次日_auto_resume_除非_连续两日
  - name: backtest_vs_live_sharpe_divergence_trigger
    threshold: rolling_20d_Sharpe < 0 AND backtest_predicted_20d_Sharpe > 1
    halt_action: full_halt
    who_resumes_what: 模型团队_评审_对账分解
  - name: external_regime_trigger
    threshold: 沪深300_20d_realized_volatility > 0.30
    halt_action: 减_gross_50pct
    who_resumes_what: 指标_5日低于阈值_auto_resume

CN 合规框架：私募基金在营销材料引用历史回测必须符合 AMAC 业绩展示自律规则——回测必须明确标注「历史回测业绩」、附风险披露、披露方法论 + 参数网格。公募量化基金进一步受 CSRC 信息披露管理办法与证券投资基金销售适用性指引约束。投资者适当性管理限制高波动 / 高杠杆策略的零售投资者准入。读出报告服务合规归档。

Exercise

你已完成 5 日动量策略在 510300 沪深300 ETF 上 2014-01-01 到 2023-12-31 的 L1+L2+L3 交付物。回测读出给出：头条 Sharpe ~2.5、deflated Sharpe ~0.8、PBO ~0.35、max drawdown ~12%、turnover ~20% 日。做四个计算并报告结果。

(i) 装配十节回测读出报告——按顺序列出十节，每一节给一行与你策略相符的内容（例：第 7 节 capacity estimate：5-20 亿 RMB 在 cn-region）。

(ii) 给部署阶梯四个阶段（backtest、paper trading、shadow trading、full live deployment）每一个写出关卡标准；用本课的经典阈值，并说明你的策略在 L1+L2+L3 交付物基础上是否过关（backtest 关应过；后三个等实盘跑完）。

(iii) 配置四条经典 kill switch，每一条三个必备字段（numerical threshold、halt action、who-resumes-what protocol）适用于 deflated Sharpe ~0.8 的只做多动量策略——用 5% / 1% / Sharpe-divergence / regime 阈值，地区 regime 指标用 沪深300 20-day realized volatility > 30% for cn-region。

(iv) 设计一页周度 paper-trade 对账报告模板，四维偏差分解（signal-decay gap、execution gap、cost gap、universe gap），并标出单分量评审阈值（> 30 bps/月）与累计 kill switch 阈值（> 100 bps/月）。

把四个答案报告成一份结构化交付物。

提示

capacity 对沪深300 universe 上多头动量典型 5-20 亿 RMB。backtest 关用 PBO 小于 0.5 与 deflated Sharpe 大于 0.5，本案都满足。

提示

每一维分量一行：当周 bps、滚动 4 周 bps、状态标志（clean / review / kill）；kill 阈值在月度累计数字上。

收束规则——以及通向 4.6.3 的前视

回测不是预测——它是证据；部署阶梯把证据变成实盘业绩记录；读出报告 + 对账报告 + kill switch 是把研究项目与部署策略区分开的三个工件。这就是 4.5.1 整个模块的收束纪律规则。

实盘交易运营栈本身——OMS / EMS 架构、FIX 协议、交易所连接、延时 SLO、行情网关、kill switch 在交易系统代码里的实现——是 4.6.3 的主题（实盘交易与运营）；本课命名了 政策 与工件，4.6.3 教工程。业绩测算与归因层（Brinson 归因、因子归因 PnL、GIPS 合规报告）是 4.6.2；本课对账报告借用 4.6.2 的日 PnL 分解框架但更偏运营而非分析。把 L2 的 10 bps 占位翻成真实单笔交易成本的模型是 4.5.2（交易成本与市场冲击）；降低 execution gap 分量的执行算法（TWAP / VWAP / IS / POV / Almgren-Chriss）是 4.5.3。风险侧——在险价值（VaR）、压力测试场景、均值方差优化用于组合层——在 4.4 里。全程中你见到了夏普比率置信区间、最大回撤 kill 阈值、Alpha 衰减诊断、因子模型回归；都继续用。前行。

Components covered

Inline-code listing of the TEN required sections of the backtest readout report (PnL curve ... reproducibility metadata).
Inline-code listing of the FOUR-stage deployment ladder (backtest, paper trading, shadow trading, full live deployment) with gate criteria.
Inline-code listing of the FOUR gap-decomposition components (signal-decay gap, execution gap, cost gap, universe gap) with thresholds.
Inline-code listing of the FOUR canonical kill-switch policies with the three required documentation fields each.
Fenced math + text block — Sharpe-ratio standard-error formula with the Jobson-Korkie-Memmel citation.
Fenced ```python code block — the reconcile_backtest_vs_live reference function.
Fenced ```yaml code block — sample kill-switch configuration file with four entries.
Inline-code listing of the typical 3-7 month end-to-end deployment timeline.
Exercise — four sub-task deliverables (i)/(ii)/(iii)/(iv) on 510300 沪深300 ETF 2014-01-01 to 2023-12-31.
Two progressive Hints kept short.
FormulaExplorer — the Sharpe-ratio standard-error formula.

回测 读出 报告——十 节，顺序 固定

四 阶段 部署 阶梯

回测 vs 实盘 对 账——四 维 偏 差 分 解

四 条 经典 kill switch 政 策