回测引擎结构：向量化与事件驱动 — 回测方法论

某周二，上海某量化私募的策略评审会上。一位研究员把 5 日动量信号的回测报告投到屏幕上：在沪深300 ETF 510300 上从 2014-01-01 到 2023-12-31 的回测，扣费后年化夏普比率 1.8。曲线穿过 2015 股灾、穿过 2018 中美贸易摩擦、穿过 2022 疫情 + 房地产双杀，姿态优雅。投资决策委员会的风控总监摘下眼镜，问了一个问题：「这是向量化回测还是事件驱动回测？」研究员答：「向量化，三行 pandas」。风控总监把笔记本合上：「下周二，事件驱动重跑，再给我看」。一周后，同一条信号、同样的数据，事件驱动引擎跑出来的夏普比率是 0.4。1.4 的落差不是市场风格切换，是向量化代码里那个教科书级的一根 K 线前视 bug——结构上看不见，结构上不可能出现在事件驱动引擎里。本课要教给你的，就是那种从架构上杜绝 bug 的回测引擎结构，以及为什么向量化与事件驱动的区别，就是「研究草稿」与「能上实盘配资金的证据」之间的区别。

回测是什么——以及不是什么

回测是一种仿真：把历史数据回放给策略决策规则和成交模拟器，得到一条历史 PnL 轨迹。它的输出不是对未来收益的预测，而是证据——证明在引擎诚实、数据干净的前提下，这套策略可能历史上 work 过。三种策略评估模式必须严格区分：

1. backtest        — 离线 回测；基于历史数据的离线 仿真；本模块的主题
2. paper trading   — 仿真 交易；接入实时行情、模拟资金的 live 仿真；L4
3. shadow trading  — 影子 交易；接入实时行情、小额真实资金，与生产策略并行运行；L4

每一关必须按顺序通过——策略不能跳关。回测是第一关，仿真交易是第二关，影子交易是第三关，实盘是第四关。跳关不是敏捷，是治理失败。

回测的头条交付物不是夏普比率那一个数字，而是 回测读出报告（backtest readout report）：一份至少六个章节的工件，供下游部署阶梯消费、供投决会签字。

i.   PnL 曲线                  — 累计 收益 时间序列
ii.  Sharpe ratio with confidence interval   — 夏普比率 含 置信区间
iii. 最大回撤                  — peak-to-trough loss + 回补 时间
iv.  turnover                  — 日均 换手率
v.   factor exposure breakdown — 在 4.3 因子模型 上的 回归 分解
vi.  reproducibility metadata  — git commit、数据 快照 ID、随机种子、run-id

规则是：单一的头条夏普不是回测交付物——读出报告才是。L4 会把六节扩展到十节的完整信誉文件；L1 把六节当作下限即可。

五大引擎层

每一个经得起投决会推敲的回测引擎，无论是 Citadel / Two Sigma / Renaissance 内部的 C++/Python 混合框架，还是开源的 Zipline（zipline-reloaded 社区维护版）/ Backtrader / Lean（QuantConnect）/ bt / vectorbt，也无论是国内的 RQAlpha 米筐 / Vnpy / Qlib（微软亚洲研究院），都按同样的五个层次、同样的严格顺序分离关注点：

1. data layer        — 时点 数据 接入；data.get(symbol, field, as_of=t)
2. signal layer      — 从 PIT data 到 目标持仓/目标权重 的 纯函数
3. portfolio layer   — 目标权重 + 约束 + 当前持仓 -> order list
4. fill simulator    — orders + bar data -> fills；可配置 成交 模型
5. PnL + accounting layer — fills + 持仓 + bar data -> 更新后持仓 + 现金 + 日 PnL

架构铁律：每一层都必须能够在隔离环境下、用上一层 mock 输出单元测试。如果你不能在不运行整条策略的前提下单测成交模拟器，那么引擎耦合过高，前视偏差一定会藏在缝里。

data layer 是时点数据流。价格、基本面、另类数据——每一行都带有一个 available_at 字段（数据对公众可见的时刻，不是数据所指的时刻）。引擎拒绝在时刻 t 提供 available_at > t 的行。契约是：每一次数据访问都走 data.get(symbol, field, as_of=t)，只返回 available_at <= t 的行。这是 L2 进一步阐述的 PIT 纪律的结构性根基。

signal layer 是策略决策函数。输入是 PIT 数据，输出是目标持仓或目标权重。契约是：信号函数纯——相同输入产出相同输出，无全局状态、无副作用。纯函数可单测；不纯的会通过隐藏状态漏前视。

portfolio layer 把目标权重翻译成 order list。它执行头寸规模规则（等权、波动率倒数加权、因子倾斜加权）、约束规则（只做多、单只上限、行业上限、GICS 行业限制），并计算从当前持仓到目标持仓的 delta。契约是：组合函数接受 (current_positions, target_weights, constraints)，返回一张 order list——不多、不少。

fill simulator 把订单变成成交。可配置参数：在哪根 K 线上成交（next-bar-open 是日频策略的现实默认；same-bar-close 除非显式针对 market-on-close 订单，否则就是前视）；成交量占比上限（order_size / bar_volume <= 10% 是常规安全上限）；滑点模型（基点或与成交量成比例）。契约是：成交模拟器接受 order list 和一根行情 bar，返回一张 fills list——其中一部分可能部分成交或未成交。

PnL + accounting layer 给持仓打盯市、算收益、跟现金账户、处理 dividends / splits、计提 borrow cost 和 transaction cost。契约是：账户函数接受 (fills, current_positions, bar_data)，返回 (updated_positions, cash, daily_pnl)。L2 在这个骨架上挂上真实性（PIT 纪律、幸存者偏差、成本、融券）；L1 关心的就是骨架本身。

两种引擎范式

1. vectorized backtest    — 完整价格数组始终在 scope 内；比 event-driven 快 10-100 倍；
                            结构上 易出 前视；用于 原型 验证
2. event-driven backtest  — 事件按时间顺序流过队列；引擎只看得到当前事件之前的事件；
                            结构上 杜绝 前视；用于 上 投决会 的最终回测

向量化回测。策略就是完整价格历史上的一次向量 / DataFrame 操作。信号是一行表达式：signal = (close / close.shift(L) - 1)；持仓是一次平移：position = signal.shift(1)；PnL 是一次点积：(position * close.pct_change()).sum()。整个回测三行 pandas。速度：比事件驱动快 10-100 倍——因为没有 Python 事件循环开销。用途：研究快速迭代、在大量候选信号上筛选、新想法的 第一刀。弱点：结构上易出前视——完整价格数组在每一步都在 scope 内，唯一阻挡策略读到未来的，就是程序员在正确位置上写 .shift(1) 的自律。

事件驱动回测。事件按时间顺序流过一条队列。bar 事件触发 signal 层；signal 事件触发 portfolio 层；order 事件流到 fill simulator；fills 流到 accounting；clock-tick 事件推进到下一根 K 线。引擎一个事件一个事件处理，按时间顺序，只看得到当前事件之前的事件。速度：慢——Python 事件循环拖累，通常比 vectorized 慢 10-100 倍。强项：结构上杜绝前视——信号计算的时候未来的 K 线还没进队列。用途：上 paper trading 之前的信誉级最终回测。

决策口诀：向量化用于原型；事件驱动用于上实盘。一只策略被分配资金的那个夏普数字必须来自事件驱动引擎。向量化的夏普只是研究草稿。

经典前视 bug

bug 模式在 pandas 里只要三行：

# BUG: signal uses close[t] -> one-bar look-ahead
signal = close / close.shift(5) - 1            # 第 t 行的 signal 用了 close[t]
position = signal                              # t 时刻的 持仓 = t 时刻的 signal
bar_return = close.pct_change()                # 第 t 行的收益 = close[t] / close[t-1] - 1
pnl = (position * bar_return).sum()
sharpe = pnl.mean() / pnl.std() * np.sqrt(252)

策略在时刻 t 用 close[t]（t 收盘价，盘后才可观测）做决策，然后赚到 close[t] 为止的那一段收益。这在结构上等价于在每一步完美预测当天收盘。在 510300 上 2014-2023 跑一下，这个实现打出大约 1.8 的夏普——纯 bug 贡献。

最小 PIT 修复：把 signal（或 position）平移恰好一根 K 线，让决策发生在 t - 1 收盘之后、订单在 t 开盘进场：

# FIX: signal shifted one bar so it is decided at t-1 EOD
signal = (close / close.shift(5) - 1).shift(1) # 第 t 行的 signal 用了 close[t-1]
position = signal
bar_return = close.pct_change()
pnl = (position * bar_return).sum()
sharpe = pnl.mean() / pnl.std() * np.sqrt(252)

修复后的 510300 2014-2023 夏普大约 0.4。这是最小 PIT 修复。更隐蔽的前视 bug——幸存者过滤后的股票池、基本面字段时间戳错用报告期末而非公告日期、另类数据没有算上数据落地延迟——需要 L2 里的进一步纪律。

事件驱动引擎骨架

同样的五层架构、但表达为一个一根 K 线一根 K 线消费 bar 事件的类：

# 5-layer event-driven backtest skeleton
class BacktestEngine:
    def __init__(self, data_provider, signal_fn, portfolio_fn, fill_simulator):
        self.data, self.signal_fn, self.portfolio_fn = data_provider, signal_fn, portfolio_fn
        self.fill_simulator = fill_simulator
        self.positions, self.cash, self.pnl_history = {}, 1_000_000.0, []

    def on_bar(self, bar):
        pit_data = self.data.get_as_of(bar.timestamp)         # 数据层 派发
        target_weights = self.compute_signal(pit_data)
        orders = self.compute_orders(target_weights, self.positions)
        fills = self.simulate_fills(orders, bar)
        self.update_accounting(fills, bar)

    def compute_signal(self, pit_data):       # signal layer
        return self.signal_fn(pit_data)
    def compute_orders(self, target_weights, current_positions):  # portfolio layer
        return self.portfolio_fn(target_weights, current_positions)
    def simulate_fills(self, orders, bar):    # fill simulator
        return self.fill_simulator(orders, bar)
    def update_accounting(self, fills, bar):  # PnL + accounting
        ...

向量化那段 bug 在这里不可能发生。signal_fn 收到的 pit_data 是经过 available_at <= bar.timestamp 过滤的快照。bar t 这一刻的 pit_data 里没有 close[t]——盘还没收，可见的只有 open。五层分离加上时间序事件流让前视在数据层就不可能出现——程序员再粗心，都制造不出一根 K 线的平移 bug。

向量化-vs-事件驱动的夏普落差作为诊断

把同一条 5 日动量信号在沪深300 ETF 510300 上 2014-2023 跑两个引擎。带 close[t] 前视 bug 的向量化引擎跑出夏普 ~1.8。无 bug、下根 K 线开盘成交、暂不算成本的事件驱动引擎跑出夏普 ~0.4。1.4 的落差就是前视通胀。

实战诊断规则：从向量化移植到事件驱动时夏普下降大于 0.5，就是向量化实现里存在前视 bug 的诊断，不是事件驱动引擎本身的问题。如果落差小于 0.1，向量化实现大概率 PIT 正确（罕见但可能——靠处处严格 .shift(1) 纪律），两个引擎结果一致。

收束本课的架构铁律：上实盘的那个引擎必须是事件驱动的。向量化引擎只用于原型。两个引擎之间的落差，就是你第一道过拟合 / 前视诊断工具——开头那位风控总监在投决会里默默套用的就是这条规则。

Formula Explorer

\text{Sharpe} = \frac{\bar{r} - r_f}{\sigma_r} \cdot \sqrt{252}

夏普公式本身不复杂，但这个数字的可信度完全取决于产出它的引擎是否从结构上排除了前视。完整夏普定义用超额收益减无风险利率；对前视诊断比较来说，两个引擎跑的是同一段收益序列，用原始形式即可。

Exercise

你正在把 5 日动量信号跑在 510300 沪深300 ETF 上，窗口 2014-01-01 到 2023-12-31。做四个计算并报告结果。

(i) 实现本课经典 bug 版 向量化回测（signal = close / close.shift(5) - 1，不加 shift），算年化夏普，报告数值（应在 ~1.5-2.0 区间）。

(ii) 给 signal 加上 .shift(1) PIT 修复，重跑向量化回测，算年化夏普，报告数值（应在 ~0.3-0.5 区间）。

(iii) 把同一条动量策略的事件驱动引擎五大层画成五个 Python 类方法的顺序：data layer -> signal layer -> portfolio layer -> fill simulator -> PnL + accounting layer；为每一个方法写出一个它接受的输入和一个它产出的输出。

(iv) 算 (i) 与 (ii) 的 夏普落差，套用诊断规则：落差 >0.5 意味着向量化实现存在前视 bug；说明你的落差是否越过阈值，以及诊断给出什么结论。

把四个答案报告成一张表。

提示

从 akshare / Wind / 通联下载 510300 日收盘价。bug 版：signal = close / close.shift(5) - 1; pnl = (signal * close.pct_change())。修复版在 signal 上加 .shift(1)。

提示

输入-输出：data 接 (symbol, as_of=t) 返行；signal 接 data 返权重；portfolio 接权重返 orders；fill 接 orders+bar 返 fills；accounting 接 fills+bar 返 PnL。

通向 L2 的桥

事件驱动引擎是信誉级回测的必要条件，但不是充分条件。即便架构正确，五大偏差家族——股票池的幸存者偏差、收盘价成交而非下根开盘、零交易成本假设、空头端零融券成本、基本面时间戳错位——仍能把报告的夏普通胀 1.2x-3x。L2 按典型夏普通胀量级从高到低教这十项真实性清单，并展示本课诚实基线 ~0.4 如何在真实性清单应用之后再跌到 ~0.18-0.22。前视信号在 deployment 后还会通过 Alpha 衰减衰减——L4 的信号衰减偏差分解将量化。本课的夏普比率 / 最大回撤 / 动量信号 / Alpha 衰减 / 交易成本等概念将在 L2-L4 中反复出现。

Components covered

Inline-code listing of the FIVE canonical backtest-engine layers (data layer -> signal layer -> portfolio layer -> fill simulator -> PnL + accounting layer) with the architectural rule.
Inline-code listing of the TWO canonical engine paradigms (vectorized backtest, event-driven backtest) with the speed comparison and the decision rule.
Fenced ```python code block — the buggy vectorized backtest with the close.shift(5) lookback and the # BUG: signal uses close[t] comment.
Fenced ```python code block — the fixed vectorized backtest with .shift(1) PIT correction and the # FIX: signal shifted one bar comment.
Fenced ```python code block — the BacktestEngine class skeleton tagged # 5-layer event-driven backtest skeleton.
Inline-code listing of the THREE evaluation modes (backtest, paper trading, shadow trading) with the no-skip rule.
Inline-code listing of the SIX-section minimum backtest readout report (PnL curve ... reproducibility metadata).
Exercise — the four sub-task computations (i)/(ii)/(iii)/(iv) on 510300 沪深300 ETF 2014-01-01 to 2023-12-31.
Two progressive Hints kept short.
FormulaExplorer — the annualized 夏普比率 formula.

回测 是 什么——以及 不 是 什么

五大 引擎 层

两种 引擎 范式

经典 前视 bug

事件驱动 引擎 骨架

向量化-vs-事件驱动 的 夏普 落差 作为 诊断