某上海私募 200 亿规模的多空基金,研究主管周二下午把一份每年 280 万人民币的供应商材料推到你桌上:「沪深300 全部零售消费股的卫星停车场计数。raw IC = 0.06。先做一个季度试用,年合同 280 万。周五之前给 Go / No-Go。」你的因子库已经有一个 Wind / 通联 集成的「盈利预期修正」因子,同一标的池 raw IC = 0.055,年费 50 万。卫星这条信号是 280 万人民币的真 alpha 增量,还是 80% 旧因子的花哨重卖?L1 装的纪律是「基本面是双时间的」;本课要装的是 另类数据是被评估出来的,不是被买进来的。六个评估轴、四道合规闸、六阶段生命周期——周五下班前写完 Go / No-Go 备忘。
什么算「另类数据」
工作定义:另类数据(alternative data,alt-data)= 既不是 行情数据、也不是 基本面数据、也不是 参考数据的一切结构化数据产品。alt-data 是「剩余」——通常是爬取的、遥感的、情绪抽取的、聚合自交易明细的。定义性属性:alt-data 尚未在价格里——alpha 论断是该信号能在下一次财报披露 / 行业报告 之前 推动价格。等到供应商覆盖饱和,alpha 必然衰减。
八大类别分类法
行业(Eagle Alpha / J.P. Morgan / Greenwich Associates)已经收敛到大致相同的八个类别。把顺序与每类的滞后(lag)标注记牢,因为「滞后 vs 衰减」的赛跑就是一个信号生死的核心:
1. news + sentiment — news firehose + per-headline sentiment score; lag < 1 minute
2. satellite + geospatial — per-asset physical-world counts: parking lots, oil tanks, agriculture; lag 24-72h
3. web-scraped — job postings, product catalogues, price tracking; lag weekly typically
4. credit-card / consumer transactions — panel-of-card-issuers spending totals; lag 7-14 days; PIPL-constrained in CN
5. foot-traffic / mobile — store-visit counts from mobile-location aggregation; lag next-day; PIPL-constrained in CN
6. social media — per-ticker mention volume + sentiment; lag seconds
7. ESG + carbon — per-company E / S / G scores + carbon-emission intensity; lag monthly-quarterly
8. weather + commodity-specific — weather grids tied to agricultural + energy demand; lag near-real-time
news + sentiment——同花顺 舆情、万得 资讯、通联 公告 + 舆情——输出每条新闻 [-1, +1] 区间情绪分 + 题材分类。打分层用 FinBERT 或 Loughran-McDonald 词典;模型架构前向指引到 2.6。
satellite + geospatial——Planet Labs 每日影像,SpaceKnow / Orbital Insight 提供分析即服务——输出停车场计数(零售)、油罐水位(能源)、农产品产量、集装箱、工地活动。24-72 小时滞后来自影像采集 + CV 处理。
web-scraped——拉勾网 + 智联招聘 + Boss 直聘 招聘数据、淘宝 + 京东 + 拼多多 商品目录(境内通过 同花顺行业数据 / 通联 归一化;直接爬取风险高)。生产规则:消费归一化版本,不要自己直接爬。
credit-card / consumer transactions 类别在 CN 基本关闭:PIPL + 数据安全法 在缺乏个人同意时不允许研究用途。foot-traffic / mobile 同样:高德 / 百度 移动位置数据在 PIPL 下严格受限。
social media 覆盖 微博 + 雪球 + 东方财富 股吧 + 同花顺 互动易——这是 CN 最独特 且无国际等价物的 alt-data 池。输出:按标的提及量、情绪、散户注意力。
ESG + carbon 类别——WIND ESG 评级(买方主选)+ 商道融绿 + 中证 ESG,叠加 2022 年起的 ESG 披露框架。weather + commodity-specific——DTN / MetraWeather——天气网格喂给农业、能源大宗商品预测。
六轴评估框架
任意一份另类数据数据集,在做出生产决策之前都要过六个维度。纪律:raw IC 高 + orthogonality 低 = 「换了花哨包装的旧因子」;增量 IC 高 + 滞后 > 衰减半衰期 = 「先验地无用」;可用信号 + capacity < 你自己 AUM = 「对你具体而言无用」。
| axis | definition | metric | pass-fail rule |
| orthogonality | correlation between alt signal and existing factor stack | pairwise correlation matrix | pass if max correlation with existing factors < 0.5 |
| incremental IC | the IC of alt added on top of the baseline, NOT the raw IC | incremental cross-sectional Pearson correlation | pass if incremental IC > threshold (e.g. +0.005) |
| capacity | the $-AUM the signal supports before market-impact decay | simulated turnover-impact cost vs target AUM | pass if capacity >= target AUM |
| decay | half-life of signal predictive power in trading days | decay-curve fit | pass if half-life > vendor lag |
| lag | wall-clock gap from real-world event to vendor delivery | event-to-delivery time-stamp diff | pass if lag < decay half-life |
| cost | vendor list-price + integration + maintenance | annualised total cost of ownership | pass if cost < expected revenue from incremental IC |
orthogonality 轴是「贵的错误」最常发生的地方:供应商说 raw IC = 0.06,等你签了字才发现该信号与你已有的「盈利 预期 修正」因子相关 0.85——你花 280 万买了一个你早就拥有的因子 15% 的提升。incremental IC 轴是正式的解药:把另类信号投影到基线因子组合的正交补空间,再在残差上算 IC。
# always evaluate alt-data on incremental IC over the baseline factor stack; the raw IC of a non-orthogonal signal is mostly a known factor in disguise
baseline_ic = corr(baseline_signal, forward_return)
alt_signal_orthogonal = alt_signal - linear_project(alt_signal, baseline_signal)
incremental_ic = corr(alt_signal_orthogonal, forward_return)
IC 机制(信号与远期收益的截面 Pearson 相关)前向指引到 4.2.3 / 4.3.1。capacity 轴背后是 Almgren-Chriss + Kyle's-lambda 容量框架与市场冲击 模型(4.1.1 L3 + 4.5.2 详述)。该评估纪律辐射到整个因子模型 研究分工:价值因子 / 质量因子 / 动量 / 因子暴露 与「夏普比率 + 信息比率 + Alpha 衰减」共同构成下游 4.2-4.3 输出口径——alt-data 的增量 IC 必须叠加到这组指标之上才算可考核。沪深300 上的 A 股 alt-data 评估遵循同一框架(CSRC 合规闸照常运行)。
decay 与 lag 这两轴是绑在一起的:lag = 真实世界事件到供应商投递之间的钟壁时间——新闻 < 1 分钟、社交 秒级、客流 次日、卫星 24-72 小时、信用卡 7-14 天、爬虫 周度、ESG 月度到季度。decay 半衰期 = 信号预测力衰减一半所需的交易日数。硬规则:lag > 半衰期,信号「死在到达之前」。新闻(lag < 1min,衰减 小时级)通过;用月度发布的 ESG 数据做日度 mean-reversion(lag 月度,衰减 日度)不通过。
cost 轴跨度极大:经济档的打包数据约每年 7 万人民币起,单类别旗舰产品可超 350 万人民币 / 年,再加约 3-12 周数据工程时间(按全成本人月计),以及约 list 价 20% / 年 的持续维护(schema 漂移、API 中断、EULA 重谈)。
四道合规闸
任意一份另类数据数据集都要过这四道闸——无例外。
1. MNPI — material non-public information; could trading on this dataset constitute insider trading under SEC Rule 10b5-1 / CSRC 内幕交易 管理 办法
2. PII — personally identifiable information; does the dataset cross individual privacy boundaries even after aggregation
3. GDPR / PIPL — cross-border-transfer + data-residency rules; GDPR for EU residents, PIPL for CN residents
4. EULA — end-user license agreement; does the vendor contract explicitly permit financial-research and trading use, and are upstream data-source EULAs honoured
MNPI 闸有实打实的牙齿。美区 2014-2016 年 SEC 专家网络案(对冲基金 付费 给 paid consultants 拿非公开盈利信息)画出了现代执法边界;2021-2023 年的 alt-data MNPI 调查继续扩展边界。CN 一侧——证监会 关于 内幕 信息 与 内幕 交易 的 管理 办法 同样适用:测试是「一个理性股东会认为该信息一旦泄露具有重大性吗?该信息是否只能通过内部访问获取?」一份数据集被判 MNPI 风险,直接 block,没有讨价还价。
PII 闸最重压在 信用卡、客流、移动位置、个人 社交账号 这几类。生产规则:PII 在投递前就完成聚合(个人 标识符 永不跨越公司 边界),公司维持「谁访问了什么」的审计日志。
GDPR / PIPL 闸是数据驻留 + 跨境传输 法。GDPR 管辖 EU 居民个人数据;PIPL 个人信息保护法(2021-11 实施)+ 数据 安全 法 数据安全法(2021-09 实施)管辖 CN 居民个人数据 + PIPL 第 38-43 条 的出境传输。出境路径要么是 CAC 网信办 安全 评估(针对处理 > 100 万 CN 居民或 > 10 万 敏感 数据的处理者),要么是 CAC 标准 合同 + 个人 明确 同意;两条路径都是多月级流程。绝大多数 CN 买方机构选择把 CN 居民另类数据全部留在境内,永不出境。
EULA 闸检查供应商合同是否明确允许金融研究 + 交易用途,以及上游数据源的 EULA 是否被遵守。许多网络爬取数据集在这一闸折戟。
生产规则:任意一份另类数据数据集在获得研究访问之前都要过这四道闸,无例外。
六阶段生命周期
过了四道合规闸之后,数据集走完六个阶段:
1. discover — vendor outreach + dataset specification + business-case memo
2. evaluate — one-quarter pilot with the six-axis framework on a hold-out window; compliance gate runs in parallel
3. pilot — one-quarter live-paper-trade with the signal in shadow mode; no production-stack consumption
4. productionise — integrate into the production research stack with full lineage + entitlement (via the L4 warehouse)
5. monitor — weekly incremental IC + decay tracking, with threshold-alerts
6. decommission — sunset when monitored incremental IC falls below threshold for N consecutive weeks (typically 4-8)
引用经验规则:大多数另类数据信号在广泛供应商覆盖之后 18 个月内衰减到噪声——拿到信号的第一家机构赚钱;到第三年信号已经是被市场定价的商品。这就是为什么 monitor 与 decommission 是平等公民阶段,而不是事后想起来才做的事情。Kolanovic 2017 年 J.P. Morgan 的报告普及了这条规则;之后多篇学术工作论文在卫星、社交、信用卡类别上验证了它。
CN 与 US 的分野,与纪律收尾
美区另类数据丰富、竞争激烈、在 GDPR 边界内 EULA 宽松;美国买方一年在另类数据上花 30-50 亿美元,主要类别都有多供应商竞争。CN 一侧由 PIPL + 数据 安全 法 主导,凡涉及个人追踪的类别(信用卡 / 客流 / 移动位置 / 个人 社交账号)基本对研究用途关闭;但 微博 + 雪球 + 东方财富 股吧 + 同花顺 互动易 的散户舆情、A 股 业绩 预告 + 业绩 快报 的强制提前披露、电商商品目录 + 价格 数据——这些 没有美区等价物 的数据池则独特丰富。操作规则:美式另类数据工具箱不能直接平移到 CN;任何涉及个体追踪的数据集须做 PIPL 合规改造;微博 / 雪球 / 股吧 / 同花顺 舆情 / 万得 资讯 是 CN 主选。
五句话收尾:另类数据是研究预算,不是魔法配方;签约前用六轴去评估;合规闸是 MNPI / PII / GDPR-PIPL / EULA 四维审核,没有商量余地;签约后每周监控增量 IC;alpha 没了就 decommission。
工作示例:CN 零售三巨头的卫星停车场
供应商给你 永辉超市 601933 / 中百集团 000759 / 高鑫零售 06808.HK 所有门店日度停车场计数。raw IC = 0.06,周度截面。基线「盈利预期修正」因子同标的池 raw IC = 0.055,卫星与之 corr = 0.6。
六轴评判。Orthogonality:corr 0.6,越过 0.5 硬阈值,borderline。Incremental IC:≈ raw IC × sqrt(1 − corr²) = 0.06 × sqrt(0.64) ≈ 0.048——通过。Capacity:声称 100 亿,研究台模拟验证——通过。Decay:半衰期 ~12 个交易日 > 1-3 日滞后——通过。Lag:24-72 小时——通过。Cost:280 万 / 年 + 6 周数据工程 ≈ 首年 340 万;按 50 亿规模与 incremental IC ≈ 0.048 估算年化 1500-3000 万——通过。
四道合规闸。MNPI:停车场是公共视野——通过。PII:无个体标识符——通过。GDPR / PIPL:卫星影像非个人数据——通过(须供应商书面声明 + 法务复核)。EULA:合同链条完整——通过。
Go / No-Go 备忘:「卫星停车场计数信号过 6 轴中的 5 项(orthogonality borderline,视作 部分替代 而非叠加)+ 4/4 合规闸。增量 IC ~0.048 在 50 亿 AUM 下足以覆盖首年 340 万 TCO。建议 evaluate → pilot 一个季度;pilot 结束以实测增量 IC vs 生产因子组合 决策。」
练习
Exercise
你在运行一个为期一个季度的另类数据评估:一份假设的卫星停车场计数数据集,标的为 CN 大型零售连锁三巨头 永辉超市 / 中百集团 / 高鑫零售。供应商上报 raw IC = 0.06,周度截面预测远期收益。你的基线因子组合里已经有一个「盈利 预期 修正」因子,同一标的池 raw IC = 0.055。
(i) 在「卫星-vs-盈利 预期 修正」相关为 0.6 的条件下,计算卫星信号的 增量 IC——用一行代数表达式,给出假设(概念性推导:incremental IC ≈ raw IC × sqrt(1 − correlation²) ≈ 0.06 × sqrt(1 − 0.36) ≈ 0.048,在联合高斯 + 平稳条件下)。
(ii) 列出供应商公布的 capacity、decay、lag、cost 数字,并逐项与 pass-fail 阈值核对。
(iii) 跑四道合规闸:MNPI(低风险——停车场属公共观测)、PII(零——无个体)、GDPR / PIPL(CN 区:数据来自公共物理位置卫星影像,PIPL 不适用,但须供应商书面声明 + 公司法务复核)、EULA(认真读合同)。
(iv) 给研究主管写一段 Go / No-Go 备忘:增量 IC、六轴 + 四闸的通过 / 不通过状态、建议动作(evaluate → pilot 或 evaluate → decline)。
提示
提示
evaluate → pilot)。Formula Explorer
\text{incremental IC} \approx IC_{\text{raw}} \cdot \sqrt{1 - \rho^2}本课组装清单
本课按顺序组装的可核对件:
- Inline-code listing——八大另类数据类别 + 滞后 标注。
- Inline-code table——六轴评估框架映射到 定义 / 度量 / 阈值。
- Fenced ```python 代码块——增量 IC 计算(baseline IC、正交投影、残差 IC)。
- Inline-code listing——四道合规闸(
MNPI、PII、GDPR / PIPL、EULA)。 - Inline-code listing——六阶段生命周期(
discover、evaluate、pilot、productionise、monitor、decommission)。 - 练习——卫星停车场评估四问,含两条递进式 Hint。
- FormulaExplorer——增量 IC 近似公式
IC_inc ≈ IC_raw × sqrt(1 − ρ²)。
五句话的纪律收尾:另类数据是研究预算,不是魔法配方;签约前用六轴去评估;合规闸是 MNPI / PII / GDPR-PIPL / EULA 四维审核,没有商量余地;签约后每周监控增量 IC;alpha 没了就 decommission。
下一课
掌握了另类数据产品面与评估纪律之后,下一课打开 采集 plumbing——四种投递模式(REST API pull、WebSocket 流式 push、SFTP 文件 投递、S3 / 对象存储 投递)、幂等性 + schema 注册表 + quarantine 纪律、供应商对账 契约、权限治理 层——把数据集以 L4 仓库与下游研究台所依赖的完整性保证 送进 公司。本课走过的 discover 与 evaluate 阶段默认你已经有一条工作中的采集管线,L3 就是把它建起来。