研究工作流程与科学方法 — 研究工作流程与纪律

一位三十亿规模私募量化基金的新研究员周一早会端 PPT 走进会议室。"上周我在沪深300 上找到夏普等于 2 的信号 —— 5 日动量加行业中性化，扣 5 bp 交易成本，回测 2015 到 2023。" 基金经理问四个问题。第一，"你开始之前的待检验假设是什么？" 沉默 —— 假设是结果跑出之后反推的。第二，"试了多少变体？" "大概五十个，第三周后不计数了。" 第三，"测试集触碰几次？" "得多次调平滑窗口。" 第四，"别人能不能从你的笔记本重现？" "不完全能，种子没设。" 四个答案、四重纪律失败：没有预登记、没有实验计数器、没有测试集上锁、没有复现性。"扔掉。重来。先把假设写下来。" 这节课教的就是让这四个答案变不同的工作流 —— 把研究结果和猜测区分开的纪律。

量化研究项目的七个经典阶段

每一个量化研究项目 —— 沪深300 上的动量、中证 500 上的反转、消费板块的另类数据叠加 —— 都走同样顺序的七个阶段。跳过或者调换任何一个阶段，都会把验证性研究结构性地转成探索性研究，而探索性研究会系统性地抬高报告出的结果。

1. question                          - 一个 锐利 表述 的 经济学 问题，含 universe + horizon + period
2. hypothesis                        - 可 证伪 的 预测，含 sign / magnitude / significance threshold
3. data sourcing                     - 数据集、universe、回看 窗口、survivorship-bias-free 过滤器
4. EDA guard-rails                   - 探索性 分析 只 在 训练 窗口 上 做；测试集 从 项目 开始 即 上锁
5. in-sample exploration             - 在 训练 窗口 上 拟合、调参、迭代；每 次 试验 入 日志
6. single out-of-sample evaluation   - 留出 的 测试集 每 个 项目 恰好 触碰 一次
7. decision                          - production / paper-trade / abandon；阈值 在 评估 前 已 预设

第一阶段 question 不是预测。"沪深300 成分股在 2015 年后 5 日上是否存在盈余漂移？" 是问题 —— 在既定数据集上有是 / 否答案。"我要找 alpha" 是愿望，不是问题。问题必须在你触数据之前就圈定 universe、horizon、时间区间。

第二阶段 hypothesis 是可证伪伴生。"沪深300 成分股大于 2σ 正向盈余意外后 5 日收益至少 +0.5%，t > 3" 是假设 —— 有方向（正）、量级（50 bp）、显著性阈值（t > 3）。"盈余意外预测收益" 太模糊。纪律口号：假设先于数据。

第三阶段 data sourcing 定数据集（Wind 全 A 日频）、universe（沪深300 / 中证500 / 中证1000）、回看窗口（2010 起算）与 4.1.1 L4 的 survivorship-bias-free 过滤器。每一项选择入文档。

第四阶段 EDA guard-rails 是文化分水岭。探索性分析只在训练窗口上做；测试集由工程层上锁（test_set_seal.lock、data/test/ 在 EDA notebook 里不加载）。第五阶段 in-sample exploration 自由迭代 —— 每次试验入日志。第六阶段 single out-of-sample evaluation 触碰一次；不过线项目即结束。第七阶段 decision 机械执行：阈值第二阶段已预设，结果直触发 production / paper-trade / abandon。

预登记：从临床试验借来的纪律

预登记是在拟合任何模型之前把假设、评估指标、universe、窗口、决策阈值与试验计数器写下来的实践。落地形式是项目开始时提交到 git、带时间戳的一页文档。纪律来自临床试验与开放科学运动；买方量化行业在 2015-2020 年跟进，背景是 Lopez de Prado 《Advances in Financial Machine Learning》与 Harvey-Liu-Zhu 2016 关于横截面收益预测因子通胀的论文。

预登记模板包含六个字段，按此顺序排列，字段名跨区域保持字节一致：

(i)   question             - 一句话
(ii)  hypothesis           - 方向、量级、显著性 阈值
(iii) universe + window    - 数据 过滤 与 时间 区间
(iv)  metric               - 主 评估 指标（Sharpe / IC / IR；扣除 交易 成本）
(v)   decision threshold   - 触发 production / paper-trade / abandon 的 预设 数值
(vi)  trial counter        - 从 1 开始，每 加 一 个 变体 加 1；将 进入 L3 的 多重 检验 修正

附文化规则：预登记是合规的认识论孪生 —— 拟合前写下假设、指标、universe、窗口、阈值与试验计数器。AMAC 中国证券投资基金业协会信息披露要求下监管想看的即是这六字段；认识论与合规两重纪律相互强化。

对 5 日动量信号在 510300 沪深 300 ETF 上的预登记实例：

question: "5 日 动量 信号 在 沪深 300 成分股 2022-2023 年 区间 内 是否 生成 样本外 alpha？"
hypothesis: "5 日 动量 信号 `mom_5d = (close_t / close_{t-5}) - 1` 在 沪深 300 成分股 2015-2023 年 区间 日 频 上 计算，在 2022-2023 留 出 窗口 上 净 扣 单 边 5 个 基点 交易 成本 后 的 样本外 夏普比率 大于 1.0。"
universe: "沪深 300 成分股，月度 刷新，剔除 ST 与 停牌 名 单"
window: "2015-01-01 to 2023-12-31"
train_window: "2015-2021"
test_window: "2022-2023"
metric: "样本外 夏普 比率 扣 单 边 5 bp 交易 成本，配合 DSR"
decision_threshold: "Sharpe > 1.0 and DSR > 0.95 → paper-trade for one quarter; otherwise abandon"
trial_counter: 1

阈值规则 Sharpe > 1.0 and DSR > 0.95 → paper-trade for one quarter; otherwise abandon 跨区域字节一致；标的代码与 universe 名称按区域填入。

探索性分析与验证性分析

探索性数据分析（EDA）允许在训练窗口上做 —— 画分布、算摘要统计、找异常值、形成假设、迭代。验证性分析就是第六阶段的单次样本外评估。每一个从验证性开始的项目，如果测试集上锁不在每一层都落实，一周之内都会漂向探索性。

测试集上锁的四个执行层，按此顺序：

1. engineering   - 文件系统 权限；`test_set_seal.lock` 文件；`data/test/` 分区 EDA 不 加载
2. cultural      - 每 次 站会 都 有 人 问 "你 看 测试集 了 吗？" —— 例行 检查，不是 控告
3. code-review   - L4 的 PR 模板 含 一 个 勾 选 框 "测试集 恰好 评估 一 次"
4. statistical   - L3 的 多重 检验 修正 部分 抵消 未 被 发现 的 漂移

规则：每一个从验证性开始的项目，如果测试集上锁不在四层全部落实，一周之内都会漂向探索性。EDA 是常态；验证是稀有事件；测试集触碰一次。

研究实验日志

每一次拟合都入日志。实验日志每条必须记录的五个字段，按此顺序：

timestamp           - 含 时区 的 ISO-8601
hyperparameters     - 每 一 个 可 调 参数 的 JSON dict
seed                - 整数；RNG 种子；不 允许 为 空
data_window         - 拟合 用 的 日期 区间 与 验证 用 的 日期 区间
metric_outcome      - 主 指标 数值 加 辅助 指标

实验日志决定 L3 多重检验修正的 N —— 数不清假设就没法修正。日志是 CSV / SQLite 表 / mlflow run-id 流，与 notebook、脚本一起提交到 git。报告里每一张图带 run_id，可从 run_id 重生；日志是项目尝试的唯一真值源。

Notebook 与脚本

Notebook（Jupyter、.ipynb）是想法诞生的地方。自由形式、图多、文字注解重；研究员偷看数据、原型信号、断与修。生产脚本（run_experiment.py，--config=<config-id> 调用）是结果可复现的地方 —— 给定 lock 文件、数据快照、种子与 git commit SHA 输出确定。

迁移规则：结果升级到实盘（影子交易 / 仿真交易 / 生产）时，notebook 两周内改写为脚本；孤儿 notebook 直接删除。

完整研究项目的四项经典产出

一个完整的研究项目恰好产出四项经典 artefact，按此顺序：

1. pre-registration document          - 拟合 之前 的 六 字段 模板
2. experiment log                     - 每 次 拟合 的 hyperparameters / seed / data window / metric / outcome / timestamp
3. single out-of-sample evaluation result - 触碰 一 次
4. write-up                           - 供 人 审阅 的 整 理 后 叙述

规则：四项缺一即猜测。少 (1) 无法判断发现是提前假设的还是事后拟合的；少 (2) 无法应用多重检验修正；少 (3) 已数据窥视；少 (4) 经不起同行复核。

早会诊断

本节开头基金经理问的四个诊断问题，是全四重纪律的实战检验，按此顺序：

1. What was your hypothesis before you started?          - tests pre-registration
2. How many variants did you try?                        - tests trial-counter / multiple-testing
3. Did you touch the test set more than once?            - tests the test-set lock from L2
4. Can someone else reproduce this from your notebook?   - tests the reproducibility from L4

能通过四问的是研究结果，过不了的是猜测。这四问是买方量化对本模块下游四重纪律的实战检验；私募量化巨头（明汯、幻方、中诚、灵均、九坤投资）自 2020 年起已把这套沉淀为标准评审流程。

工作实例：510300 动量预登记

把 510300 动量研究套进七阶段：(1) question 5 日动量在沪深300 成分股 2022-2023 区间是否生成样本外 alpha？(2) hypothesis mom_5d = (close_t / close_{t-5}) - 1 在 2022-2023 留出窗口上净扣 5 bp 后 Sharpe > 1.0 且 DSR > 0.95。(3) data sourcing Wind 日频 2015-2023、沪深300 月度刷新、剔除 ST 与停牌。(4) EDA guard-rails data/test/（2022-2023）由 test_set_seal.lock 上锁；EDA 只加载 data/train/（2015-2021）。(5) in-sample exploration 在 2015-2021 上拟合、调参；每变体入 experiments.db。(6) single out-of-sample evaluation 调参冻结后破封 data/test/seal 一次，算 Sharpe + DSR。(7) decision 若 Sharpe > 1.0 且 DSR > 0.95 → 私募影子交易一季度；否则放弃。试验计数器即 L3 修正的 N。

Formula Explorer

\text{Sharpe} = \frac{E[R_p] - R_f}{\sigma_p}

夏普比率、Alpha 衰减、信息比率、因子模型中各类因子暴露、动量、最大回撤、下游 4.4 的均值方差优化与组合优化、监管级压力测试场景：这些是预登记触及但不推导的词汇锚点 —— 推导留给 4.2.3、4.4 与 2.2。

练习

Exercise

你正在开始一个关于 510300 沪深 300 ETF 的 5 日动量信号研究项目。按顺序产出四项经典研究 artefact。

(i) 写一份完整的一页预登记文档，填完六个字段：question、hypothesis（方向、量级、显著性阈值）、universe + window、metric、decision threshold、trial counter。假设必须给出 (a) 预测效应的方向，(b) 效应的量级，(c) 决策的显著性阈值。

(ii) 给出 EDA guard-rails：数据的哪些分区上可以跑 EDA？哪些分区上锁？

(iii) 给出七阶段项目计划，每阶段用一句话描述将要发生什么；计划必须把测试集评估放在阶段 6、决策放在阶段 7。

(iv) 列出工程层（测试集权限、依赖锁、随机数种子）防范的三种失败模式与文化层（代码评审、站会、写报告仪式）防范的三种失败模式。

报告全部四项 artefact。

提示

用本课 510300 动量预登记作模板；六字段 question / hypothesis / universe + window / metric / decision threshold / trial counter；假设必须名方向、量级、阈值。

提示

工程层防测试集误读、环境漂移、种子丢失；文化层防只报最好、不计试验、不写报告。各列三项。

参考卡

本课装配的组件，按序：

Inline-code listing —— 量化研究项目的七个经典阶段。
Inline-code listing —— 预登记模板的六个字段。
Inline-code listing —— 完整研究项目的四项经典产出。
Inline-code listing —— 早会基金经理问的四个诊断问题。
Fenced ```yaml block —— 510300 动量研究的一页预登记模板。
Inline-code listing —— 测试集上锁的四个执行层。
Inline-code listing —— 实验日志每条必录的五个字段。
Exercise —— 四项研究 artefact 综合练习，配两条渐进 Hint。
FormulaExplorer —— 夏普比率定义 (E[R_p] - R_f) / σ_p。

下一课

本课工作流直接流入下一课「样本内 / 样本外与交叉验证」。你将学四种分割（简单时序留出、滚动样本外、扩张样本外、purged + embargoed k 折）、四种泄漏模式（look-ahead、survivorship、snooping、regime）。本课试验计数器在 L3 成为多重检验修正的 N；实验日志在 L4 与 git commit SHA 绑定。口号：一个项目由书面假设、预登记指标、单次样本外评估与报告定义；少任一即猜测。

量化 研究 项目 的 七 个 经典 阶段

预登记：从 临床 试验 借 来 的 纪律

探索性 分析 与 验证性 分析

研究 实验 日志

Notebook 与 脚本

完整 研究 项目 的 四 项 经典 产出

早会 诊断

工作 实例：510300 动量 预登记

练习

参考 卡

下 一 课