回测偏差与真实性清单 — 回测方法论

某周五下午，深圳某量化私募的风控周会。一位研究员端着一份价值-动量复合策略的回测报告进会议室：L1 都做对了——事件驱动引擎、信号计算处处 .shift(1) 纪律。在沪深300 成分股上 2014-2023 回测，年化夏普比率 1.3，曲线干净、可上线。风控总监不问信号本身的任何一个字，连珠炮问了五个问题：股票池里把退市 / ST 戴帽 / 借壳 / 被收购的名字算进去没？成交是下根 K 线开盘还是当根 K 线收盘？双边成本假设多少？空头端是不是假设零融券成本？基本面字段用的是报告期末还是公告日期？问到第三个，研究员已经沉默了：股票池是当前沪深300 倒推到 2014（典型 survivorship），成交用当日收盘价（典型 look-ahead），成本为零，融券免费，基本面用 report_period_end。等到研究员把这些全改对，夏普落到 0.18——5 倍的折损。L1 教给你的引擎杜绝了头条前视；本课教的十项真实性清单（realism checklist）才能抓住引擎诚实之后仍然藏在暗处的那 1.5x-3x 通胀。

五大经典偏差，按夏普通胀量级降序

1. look-ahead bias               — 1.5-3x;   fix: available_at <= t + .shift(1)
2. survivorship bias             — 1.5-2x;   fix: universe(date, symbol) from 4.1.1 L4
3. unrealistic-fill bias         — 1.2-1.8x; fix: next-bar-open + <=10% cap + slippage
4. no-cost bias                  — 1.2-1.5x; fix: 10 bps round-trip placeholder, 4.5.2 for real models
5. borrow-and-short-availability bias — 1.1-1.3x; fix: is_hard_to_borrow + borrow_cost_bps

这是五大家族。百分比是 A 股 / US 股票策略的经验典型值；病态案例可以更大。L1 的 .shift(1) 纪律解决的是 look-ahead bias 最粗暴的那一种；剩下 4.5 个家族一个都没解决——而 look-ahead bias 本身在加 .shift(1) 之后仍然以更隐蔽的形式存在。每一种都需要工程修复加诊断测试。

look-ahead bias 是最深的家族。L1 抓到的向量化一根 K 线平移是其中一种；更隐蔽的物种到处都是。基本面字段时间戳错用报告期末（refers_to = 2023-09-30）而非公告日期（available_at = 2023-11-08）会漏出 3-6 周的未来信息——A 股季报的法定披露上限是 1 个月（Q1 / Q3）、2 个月（半年报）、4 个月（年报），所以这个错位在 A 股上可以漏到 1-4 个月。另类数据用事件时间（一条微博 09:30:15 发出）而非可用时间（09:30:15 + 100 ms 落地延迟）会漏出落地窗口。幸存者过滤后的股票池——只保留现在仍上市的股票——是一种 通过选择 泄露哪些公司后来破产的信息泄漏。修复：每一行输入都带 available_at，引擎拒绝提供 available_at > t 的行。诊断测试：assert all(feature_timestamps <= label_timestamps) 在回测日志的每一步。

survivorship bias 是股票策略第二大家族、也是最容易被忽视的。基于今天的沪深300 倒推到 2010 的回测会漏掉所有在 2010 年在沪深300 里、之后退市、被收购、破产、被借壳的名字。被漏掉的名字 通过选择 都是业绩差的——把它们算回股票池会拉低实现收益。修复是 4.1.1 L4 的 universe(date, symbol) 表——按日期 × symbol 索引的长格式表，每一行一个 (日期, 当日可交易 symbol) 元组。引擎在每一步用 universe(t) 过滤可交易集合。诊断测试：assert len(universe(t1)) != len(universe(t2)) 至少在一些 (t1, t2) 对上成立——股票池 cardinality 完全不随时间变化，按构造就是幸存者过滤后的股票池。

unrealistic-fill bias 是第三家族。引擎假设在收盘价成交、在中间价成交、不限成交量。修复是经典 fill model：next-bar-open 成交、成交量占比上限、滑点加在成交价上。部分成交规则：如果 order_size > cap * bar_volume，按 cap * bar_volume 成交并把未成交部分滚到下根 K 线。诊断测试：assert order_size <= 0.10 * bar_volume 在回测日志的每一次成交上；如果任何一次成交越过上限，回测就假设了策略不付代价地推动了市场。

no-cost bias 是第四家族。引擎忽略佣金、买卖价差、市场冲击、印花税 0.1% 卖方、过户费万分之 0.5 双边。本课的修复是占位：在每一次成交上加一个平均 ~10 bps 的双边成本（每边 ~5 bps）。完整的成本模型——线性 vs 平方根市场冲击、Almgren-Chriss、价差 + 佣金 + 税费分解——是 4.5.2 的工作。诊断测试：assert backtest_pnl == 0 当策略不持仓但在再平衡；任何在零净头寸再平衡上出现的非零 PnL 都是成本层在漏。

borrow-and-short-availability bias 是多空策略最常见的一种。修复是一张借券表：is_hard_to_borrow(date, symbol) 布尔标志和 borrow_cost_bps(date, symbol) 年化利率曲线。A 股融券市场高度选择性——交易所公布的融券标的名单上才可做空、利率通常 8-9% 年化、部分中小盘完全没法借。诊断：assert short_position_value <= borrow_capacity(date, symbol)。

时点数据（PIT）纪律的工程化

时点数据纪律是数据层的结构性铁律。每一个输入都有 available_at 时间戳——数据对公众可见的时刻，不是数据所指的时刻。引擎拒绝在时刻 t 提供 available_at > t 的行。

engine.get(symbol, field, as_of=t) -> row with max{r.available_at : r.available_at <= t}
# a 2023-Q3 earnings number with refers_to = 2023-09-30 and available_at = 2023-11-08
# is *unavailable* for as_of between 2023-09-30 and 2023-11-07

\text{engine.get}(s, f, \text{as\_of}=t) \to \max\{r : r.\text{available\_at} \le t\}

经典案例是基本面数据。A 股上市公司 2023 年三季度报告所指期间是 2023-09-30，但可用时刻是公告日期——按中国证监会信息披露管理办法，三季报法定披露上限是 1 个月，即 2023-10-31；实务上不少公司集中在 10 月下旬披露。一份回测如果把三季报数据 join 到报告期末的日期而不是公告日期，就在每一次财报刷新时结构性地用了几周的未来信息。Wind 万得 / Choice 数据 / 同花顺 vintage 财务表都提供显式的 公告日期 字段，引擎 join 时用公告日期即可。其他 PIT 案例：沪深300 指数调整（中证指数公司的提前公告是 available_at，调入 / 调出生效日是 refers_to——指数调整效应信号应用公告日期）；分析师评级 / 盈利预测修正（available_at 是报告发布时刻而非分析师私下改 view 的时刻）；宏观数据（CPI、PPI、PMI、社融、新增信贷——都有国家统计局 / 人民银行公布的精确时间）。时点数据库的构建是 4.1.2 L3/L4 的主题；本课使用这一纪律并假设数据层强制执行。

成交模型的三个参数

1. fill_bar = 'next-bar-open'        — 日频 策略 的 现实 默认；same-bar-close 除非 market-on-close 否则 即 前视
2. volume_participation_cap = 0.10   — 10% bar 成交量；超过 0.20 必须 上 4.5.2 的 真实 冲击 模型
3. slippage_bps = 5-10               — 基点 或 与 成交量 成 比例；510300 / 沪深300 流动 名字 5-10 bps；流动 较差 名字 20-50 bps

# 部分 成交 规则:
# if order_size > cap * bar_volume: fill = cap * bar_volume; roll remainder to next bar

fill_bar 控制订单在哪根 K 线上成交。next-bar-open 是日频策略的现实默认：信号在 t-1 收盘之后算出、订单隔夜挂出、成交在 t 开盘。same-bar-close 除非策略明确跑集合竞价收盘单 / 尾盘委托（14:57-15:00 的集合竞价收盘窗口），否则就是前视。next-bar-close 用得较少；日内 VWAP 风格策略用自定日内 K 线。

volume_participation_cap 是订单可以消耗的 K 线成交量最大比例。常规安全上限是 0.10。超过 0.20 意味着策略会推动市场而简单 fill model 抓不到，必须上 4.5.2 的真实市场冲击模型。

slippage_bps 是加在成交价上的基点或与成交量成比例的滑点。常规占位：流动名字如 510300 / 上证50ETF / 招商银行等 5-10 bps；流动较差的中 / 小盘名字 20-50 bps。滑点公式：

\text{fill\_price} = \text{bar.open} \cdot \left(1 + \text{sign} \cdot \frac{\text{slippage\_bps}}{10000}\right)

sign = +1 买入、-1 卖出。

真实性 fill simulator 类的参考实现：

class RealisticFillSimulator:
    def __init__(self, fill_bar='next-bar-open', volume_participation_cap=0.10, slippage_bps=5.0):
        self.fill_bar = fill_bar
        self.volume_participation_cap = volume_participation_cap
        self.slippage_bps = slippage_bps

    def fill(self, orders, bar):
        fills = []
        for order in orders:
            sign = 1 if order.qty > 0 else -1
            max_qty = self.volume_participation_cap * bar.volume
            filled_qty = sign * min(abs(order.qty), max_qty)
            unfilled = order.qty - filled_qty
            fill_price = bar.open * (1 + sign * self.slippage_bps / 10000)
            fills.append(Fill(symbol=order.symbol, qty=filled_qty, price=fill_price))
            if abs(unfilled) > 0:
                self.log_remainder(order.symbol, unfilled)
        return fills

前视诊断测试作为回归检查与 fill simulator 同级部署：

# run after every backtest; passes only if every feature is computed before its label
def assert_no_lookahead(backtest_log):
    for entry in backtest_log:
        assert entry.feature_timestamp <= entry.label_timestamp, \
            f'look-ahead at {entry.timestamp}: feature from {entry.feature_timestamp} predicts label at {entry.label_timestamp}'

成本占位规则与借券约束层

在 4.5.2 教真实成本模型之前，统一用一个平均 ~10 bps 的双边成本（每边 5 bps）占位在每一次成交上。这个占位对流动大盘 故意偏悲观（A 股 510300 真实双边成本约 ~5-10 bps 含印花税 + 过户费 + 价差 + 冲击）、对流动较差的中 / 小盘 故意偏乐观（真实双边可达 30-50 bps）。占位的目的不是给准数，而是让回测报告不再出一个没人能复制的零成本夏普；真实成本模型是 4.5.2。

多空策略加一张借券表：borrow_pnl_daily = -short_value * borrow_cost_bps / 252 / 10000。CFFEX 沪深300 IF / 中证500 IC / 中证1000 IM / 上证50 IH 股指期货提供 A 股市场中性主要对冲渠道；只做多借券层 no-op。

十项真实性清单

本课的工程交付物。在回测报告为「可信」之前必跑一遍：

1.  PIT data discipline                 — available_at <= t
2.  survivorship-bias-free universe     — universe(date, symbol) from 4.1.1 L4
3.  next-bar-open fills with volume-participation cap <= 10%
4.  slippage applied (5-10 bps placeholder)
5.  transaction costs applied (10 bps round-trip placeholder)
6.  borrow constraints applied          — HTB flag + borrow-cost curve
7.  corporate actions handled           — dividends / splits / mergers
8.  regional microstructure constraints honored — T+1 在 A 股；10% 涨跌停板 在 主板；LULD 带 在 美 股；Reg SHO 在 美 股
9.  tradeable-window honored            — 集合 竞价 / 盘后 / 假期 默认 不 交易
10. capacity reality-check              — order size consistent with strategy capacity

任一项未满足的回测都是草稿、不是证据。草稿与证据之间的差距就是真实性税；真实性税是真金白银。

第 1-6 项是五大偏差修复翻成工程任务。第 7 项（corporate actions）是数据层的工作——分红复权因子 / 拆股复权因子 / 并购 / 分立 / 要约收购 / 现金选择权——4.1.1 涵盖，本课假设数据层已处理。第 8 项（地区微观结构约束）在 A 股是这些具体项：A 股现货 T+1 结算（当日买入不能当日卖出，但 510300 ETF 套利份额是 T+0）；主板 10% 涨跌停板 / 创业板 + 科创板 20% / ST 戴帽 5%；最小申报 100 股；印花税 0.1% 卖方（2023 年减半至 0.05%）；过户费万分之 0.5 双边；集合竞价窗口 09:15-09:25 早与 14:57-15:00 收盘。fill simulator 必强制这些约束：试图在涨停板 / 跌停板成交的订单被拒（或在涨停板买时按涨停板成交量部分成交——典型涨停板买端成交概率接近零）。第 9 项是日历层：默认不交易盘前 / 盘后，除非策略显式 opt-in；交易所休市日不交易。第 10 项是容量检查：如果平均日单量超过策略典型名字中位日成交量的 10%，策略已受容量约束，回测对规模化偏乐观。

真实性税曲线：从 0.40 落到 0.18-0.22

把 L1 的 5 日动量回测拿来——事件驱动引擎、无前视、基线夏普 ~0.40 在 510300 沪深300 ETF 上 2014-2023。逐项应用清单看夏普怎么跌：

PIT discipline                  ~0.40 -> ~0.40   (negligible on price-only signal)
survivorship universe           ~0.40 -> ~0.40   (negligible on ETF; ~0.30 on single-name)
fill model                      ~0.40 -> ~0.36
slippage                        ~0.36 -> ~0.31
costs                           ~0.31 -> ~0.23
microstructure                  ~0.23 -> ~0.18-0.22

规律稳定：每一项真实性减掉剩余夏普的大约 5-15%。一个真实性回测报告的头条数字通常是朴素回测头条数字的 30-60%。L1 向量化 bug 给出的朴素 1.8 压缩到真实性 0.18-0.22——一个数量级的通胀，与过拟合无关，纯工程纪律问题。

Formula Explorer

\text{realism tax} = \text{Sharpe}_\text{naive} - \text{Sharpe}_\text{credible}

真实性税是朴素回测给出的数字减去信誉级回测给出的数字。下面的练习让你在自己的策略上算一遍。

Exercise

你正在把 L1 的 5 日动量信号跑在 510300 沪深300 ETF 上，窗口 2014-01-01 到 2023-12-31，事件驱动引擎。起点夏普 ~0.40（L1 的诚实基线）。逐项应用十项真实性清单，做四个计算。

(i) 对五大偏差（look-ahead bias、survivorship bias、unrealistic-fill bias、no-cost bias、borrow-and-short-availability bias）每一个给出一条针对你工作例数据集的具体工程或流程修复（例：对 look-ahead bias：assert all(signal_timestamps <= bar.open_timestamp) 在每一步）；答五行。

(ii) 用常规安全默认配置 fill model（fill_bar='next-bar-open'、volume_participation_cap=0.10、slippage_bps=5）并加上 10 bps 双边 transaction-cost 占位；报告配置完之后的夏普（应在 ~0.23-0.31 区间）。

(iii) 对你的地区，列出第 8 项里三条必须遵守的地区特定微观结构约束 —— A 股 T+1 结算 / 10% 涨跌停板 / 印花税 0.1% 卖方 —— 并对每一条说明只做多 5 日动量信号是否受影响（是 / 否）以及一句原因。

(iv) 报告应用完十项清单之后的 最终可信夏普；与 L1 bug 版向量化回测的 ~1.8 比较并给出 真实性税 的绝对夏普和占原头条的百分比。

把四个答案报告成一张表。

提示

对 (i)，想想每一种偏差在你的 510300 数据集里 实际上 怎么出现：look-ahead 通过财报加质量筛选；survivorship 用 2024 沪深300 名单倒推到 2014；unrealistic-fill 用收盘价成交；no-cost 假设零印花税；borrow 加上空头端。

提示

对 (iv)，真实性税 = 1.8 - 你的最终夏普；百分比 = 真实性税 / 1.8。预期应用完整清单后大约移除 85-90% 的通胀。

通向 L3 的桥

你刚拿出的诚实基线 ~0.18-0.22 是动量策略的一个参数配置。朴素答案是把全部跑一遍报最好的。这就是参数网格过拟合——即使引擎完全真实也能再通胀报告夏普比率 2-5x。L3 教三种统计验证方法量化参数扫描偏差并产出可信估计。本课反复用到的概念包括夏普比率、最大回撤、Alpha 衰减、交易成本、市场冲击等在 L3-L4 都会继续出现。

Components covered

Inline-code listing of the FIVE canonical backtest biases (look-ahead bias, survivorship bias, unrealistic-fill bias, no-cost bias, borrow-and-short-availability bias) with inflation ranges and fixes.
Inline-code listing of the THREE core fill-model parameters (fill_bar, volume_participation_cap, slippage_bps) with safe defaults.
Inline-code listing of the TEN-item realism checklist in exact order.
Fenced ```text block — PIT rule engine.get(symbol, field, as_of=t) -> row with max{r.available_at : r.available_at <= t}.
Fenced ```python code block — the RealisticFillSimulator class with slippage formula.
Fenced ```python code block — the assert_no_lookahead diagnostic.
Inline-code listing of the realism-tax curve from ~0.40 to ~0.18-0.22.
Exercise — four sub-task computations (i)/(ii)/(iii)/(iv) on 510300 沪深300 ETF.
Two progressive Hints kept short.
FormulaExplorer — the realism-tax difference.

五大 经典 偏差，按 夏普 通胀 量级 降序

时点 数据（PIT）纪律 的 工程 化

成交 模型 的 三 个 参数

成本 占位 规则 与 借券 约束 层

十 项 真实性 清单

真实性 税 曲线：从 0.40 落到 0.18-0.22