因子模型基础:从 CAPM 到 Fama-French
一家面向沪深300成分股的私募基金新来的研究员,把基本面盈利筛选的多空组合回测呈到投委会:年化 6.4%,夏普 0.9,t 值 2.5。基金经理只说一句:「先把因子控掉再来汇报 alpha。」研究员意识到自己说不清三件事——「因子」指哪几个、为什么是这几个、基金经理隐含的是哪个检验。本节课就是这道问题的答卷。你会从 1964 年的 CAPM,走到 2015 ...
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 30 个结果
English questions一家面向沪深300成分股的私募基金新来的研究员,把基本面盈利筛选的多空组合回测呈到投委会:年化 6.4%,夏普 0.9,t 值 2.5。基金经理只说一句:「先把因子控掉再来汇报 alpha。」研究员意识到自己说不清三件事——「因子」指哪几个、为什么是这几个、基金经理隐含的是哪个检验。本节课就是这道问题的答卷。你会从 1964 年的 CAPM,走到 2015 ...
打开 →周二上午 10:15,上海某私募(private fund)的指数增强 PM 在屏幕上看着两条线:沪深300 上涨 0.4%,而他持仓的 510300.SH 净申购套利窗口同时打开了 8 bp。他要决定:现在按一篮子成分券折价买入 ETF 再申购变现金、还是直接在二级市场买 ETF?这个决策的答案完全在 ETF 的申赎机制里——不在哪只股票更便宜。本课把指数...
打开 →周一早盘,上海某私募(private fund)研究员把一份回测报告甩给你:「2018 2023 沪深300 成分股的低 PE 组合,五年累计收益是 −12%。」你查源数据,发现 ¥10 万元名义本金五年里被 0.05% 印花税(stamp duty, 印花税)摩擦掉的部分不到 ¥600,T+1 结算(T+1 settlement, T+1 结算)也没有禁止...
打开 →周一上午 09:24,深圳某私募的执行交易员盯着屏幕:客户要在开盘后 15 分钟内卖出 80 万股某创业板个股。她可以挂限价单进集合竞价、把单子拆给五档即时成交剩余撤销、或者等连续竞价开盘冲一把市价。挑哪一个不是「凭感觉」,而取决于交易日规则、订单簿状态、以及包括 0.05% 印花税(stamp duty, 印花税)在内的全部显性成本。本课把这套规则拆开。 ...
打开 →周三下午收盘,上海某私募(private fund)研究员把贵州茅台(600519.SH)季报甩到你桌上:「PE 站上 35 倍——你拿一手 100 股,到底拿的是什么?」在判断值不值之前,得先把这张股票代表什么、在清偿顺序里排在哪、什么事件会让它消失讲清楚。 一张股票的三项权利 一张 A 股(A shares)普通股是公司股权的最小单位,绑定三项权利: 1...
打开 →反向传播与自动微分 Hook:四分钟一步的梯度 你刚加入一家以沪深300 alpha 为主力的私募(private fund),上手第一件事是把上一课那张 5 层、宽度 128 的多层感知机(multi layer perceptron, MLP)跑通——目标是用一个标准的 Barra 因子模型(factor model)的截面特征去拟合 公式,本质上是在学...
打开 →周一早上 7:40,上海陆家嘴某头部私募的量化股票部。你按 4.3.1 走完了一套候选五因子模型——二维分组的十分位单调、Fama MacBeth 截面回归的斜率在样本内显著为正、按 HLZ 多重检验罚分调整后仍有可观利差。基金经理点了点头看完 IC 图,然后问出每一份研报必须先回答的那个问题:"好——但它真的 赚到钱 了吗?"4.3.1 给你的是因子构造的...
打开 →周一开盘前一小时,你坐在上海一家中型私募基金(private fund)的研究室。投研经理把一张 CSV 推到桌上:沪深300 成分股 300 只,每只配 15 维因子向量(PE、PB、12 个月动量、20 日波动率、换手率、分析师上调比例),本质上是一张轻量级因子模型(factor model)输入表;标签 公式 表示下月相对指数 outperform /...
打开 →Hook:周三晚上的训练日志 上海一家中等规模私募的初级量化研究员小陈,把上一课刚学会的反向传播搬到了沪深300 选股因子模型(factor model)的 alpha 预测上。模型是一个深度 5、宽度 256 的多层感知机(multi layer perceptron, MLP),约 33 万参数,输入是 60 个标准化后的截面风格因子,标签是次日截面超额...
打开 →钩子:连续八周下跌的明星 alpha 2023 年 2 月最后一个周五下午,你在一家私募(private fund)做模型风险(MRM)。屏幕上挂着上一年表现最好的策略:中证500 全量股票的 LightGBM 多因子模型,2022 年 Q3 经净化 CPCV 验证,样本外中位夏普(Sharpe ratio)1.5;2022 年 Q4 通过影子交易上线;20...
打开 →上海某私募的量化研究员在沪深300(CSI 300)成分股的三年日频收益里跑了一支六因子模型,回归表打出来:动量项系数 0.18、t 统计量 3.2,整体显著性 F 统计量 18.4。组合经理盯着她问:「这几个数字,到底说明因子真的有 alpha,还是只是回归噪音被你刚好捞到了?」她手里的工具不能回答这个问题——上一课的 公式 是点估计,没有不确定性。本节要...
打开 →金融机器学习的陷阱与验证:净化交叉验证与多重检验 钩子:在 Sharpe 2.5 面前下班的那位实习生 周三下午,某沪深300 多因子私募基金(private fund)的研究室。一位刚从海外回来的实习生把笔记本电脑转过来给你看:XGBoost、5 折交叉验证、特征包括过去 5 日收益、20 日 RSI、北向资金净流入、卖方分析师评级修订,因子模型层面用 F...
打开 →Hook:没有 Barra 许可证的统计风险模型 周二早上,某中型多空对冲私募给初级量化研究员的任务:周五交一套「统计风险模型」——把沪深300 成分股最近 1000 个交易日的日度收益拆成几个共同因子加特异噪声,做成数据驱动的因子模型(factor model)。没有 Barra 模型(Barra model)授权,基本面数据要月底涨价,只有 1000×3...
打开 →社保基金理事会一位资深投资经理把一份 沪深300 增强 私募 的年度业绩报告丢给你。基金宣传自己是"价值风格选股能手",过去一年相对 沪深300 全收益 跑赢 4%。表面看是技能。但你已经知道这是 2024 年的 价值跑赢成长 6% 的大年。问题是:这 4% 的主动收益里,有多少来自"在低估值行业(银行、非银金融、煤炭、石油)上超配权重",有多少来自"在每一...
打开 →某上海私募的多空策略台,周一早会上分析师汇报:某只白酒龙头跑赢沪深300 5.2 个百分点,「显著的 alpha」。基金经理把数据敲到 Bloomberg,跑了一遍 CAPM 回归,Jensen alpha 的 t 值 1.3——「不,这只是 beta 的 1.4 倍,加上沪深300 这一年涨了 4%,你看到的 5.2% 全在 beta 解释范围内,没有 a...
打开 →周一上午,你在上海的一家 量化 私募。研究主管 在桌边停下来,看了一眼你 上周提交的 12 1 动量 信号的 DSL,问了一句话:「IC 是 多少?」这就是 4.2.3 模块 整个 评估 工序的 起点。你 已经 按 4.2.2 的 规范 把 信号 构造 完毕——alpha 公式 写好了,标准化 流水 跑通了,T+1 滞后 处理过了——下一步 不是 再 优化 ...
打开 →某上海私募的初级量化:把 L2 的闭式 MV 直接套到 100 只 A 股、5 年月度数据上,优化器吐回的组合在三只票上占 90%(其中两只各做多 60%、一只做空 200%)。回测夏普 3.2,PM 拍板上线。半年后实盘亏 12%,同期沪深300 涨 8%。「教科书的东西在实盘上不工作」——但 不是 教科书错了,是 他没装收缩 (no sh...
打开 →周三早上 9:25,上海某 私募基金 的 A 股因子组讨论是否把全球因子框架直接移植到 A 股。组合工程师拿出一份 Wind 拉数据跑的 FF3 回测,显示 A 股 SMB 年化约 10%、 夏普比率 0.50、 最大回撤 约 40%——比美股 SMB 表头数字高三倍。基金经理表示怀疑,问出公开 CN 因子文献当年正是为回答而写的那个问...
打开 →某 私募 事件驱动组的盘后会议。Q3 季报披露季刚开始,组里负责 沪深300 的研究员准备做一条 PEAD 信号:盈利惊喜后 60 个交易日的漂移。负责数据的同事翻出来一份 Wind 的盈利数据库,里面 actual eps、consensus eps、announcement date 三列齐全;研究员说,把 SUE 算出来,按 announcement ...
打开 →某上海公募的沪深300指增基金:基金经理周一早盘想加 3% 宁德时代,通过减 3% 招商银行融资。 90 秒之内 ,风控要回答三个问题——加完之后(1)对沪深300的事前跟踪误差是不是还在 4% 预算之内?(2)哪个因子吃掉了最多的跟踪误差预算?(3)哪几只股票贡献了最多的组合风险?这堂课讲的就是这套 事前组合风险归因 (ex ante po...
打开 →某周四 早上,上海 某 量化 私募 的 投决会。L1 L3 全部 走 完 的 5 日 动量 策略 摆 在 Confluence 上:事件驱动 引擎、十 项 真实性 清单 全 绿、deflated Sharpe 0.8、PBO 0.35。研究员 问 投资 总监:「什么时候 上 实盘?」投资 总监 不 回答 这 个 问题。她 连 问 四 个 反 问 题。 十 节...
打开 →某 私募 的研究员对两位同事说:"做一个 五日 动量,行业中性化,跑在 沪深300 的大盘股上。"一周以后,三个人各自实现了完全不同的东西。同事 A 用的是连续 五日 收益率 close t / close 1 ;同事 B 用的是 五日 均线穿越 MA 5 / MA 20 ;同事 C 用的是 五日 对数收益累加 sum(log(close t / close...
打开 →周三下午,你在上海的一家 量化 私募。L1 走通了 12 1 动量 的 IC 与 IR 报告,头条 数字 是 月度 rank IC ≈ 0.03、 IR ≈ 0.5。 在 投决会 上 提交 前,合规 与 交易 部门 同时 提了 三 个 问题:这个 IC 在 多 长 视界 上 仍然 有效? 月度 跑 一遍 会 产生 多大 换手率? 等到 私募 规模 上到 5 ...
打开 →某 私募 量化部周一晨会上,PM 把任务排了下来:"沪深300 上跑一套完整的量价加基本面公式库,12 月底之前要给出每一条的样本内 IC、回看敏感性和换手率。"你点头接下任务,转身坐到屏幕前——上一课刚学过的 DSL 与清洗流水线就是你今天的工具。本课要做的,就是把工业界与学术界十年下来已经沉淀好的规范公式库一条一条搬上来,每条信号要(a)能用 DSL 写...
打开 →Hook(开场场景). 某资管公司多策略组合的固收风险经理,在月末复盘时盯着账上三笔头寸:(A)规模 5 亿元的 5 年期 FR007 利率互换(IRS),付固收浮,固定端 2.45%;(B)一笔参考某城投平台的 CRMW 1 亿元名义;(C)一只挂钩中证500 的 18 个月雪球结构化产品,由头部券商收益凭证渠道发出,规模 3 亿元,敲入线 75%、月...
打开 →某多策略基金的风控官想要一个数:在已经持有一个长久期债券账户的组合里,再叠加一个沪深300 多头股票账户,会增加多少方差?答案不是"沪深300 方差加债券方差",而是"沪深300 方差加债券方差再加两倍协方差"——而这个协方差,正是上证日盘与 CFFEX 国债期货市场每天联动着送上来的统计量。要拿到这一个数,把整个联合分布全写出来是大材小用;风控官真正做的是...
打开 →某 H 股 + A 股双地区运营私募的首席风险官:周五下午三件事压在桌上。(1) 风控部要把当前持仓在「2015 年 A 股股灾再来一次」情景下重定价——CEO 周一下午开战略会要听数;(2) 监管要求按 2023 年新修《商业银行资本管理办法》算 FRTB 市场风险资本(基金有港股账户接入银行同业柜台,部分敞口需要并表);(3) 投委会要一张「一页式风险报...
打开 →周五晚上,某私募量化研究员要对一个 20 只股票的行业轮动策略做半年回测,需要一个 (T=252, N=20) 的日收益矩阵。问题是平台的合规决策写得很清楚:不接行情数据牌照,所有训练样例只能跑合成数据。CSV 里没有,卖方接口也没有,只能自己生成。这一课给出最小可复现的配方:一颗确定的随机种子、对数欧拉离散化的 GBM 一步、用 Cholesky 分解构造...
打开 →某家私募的因子研究员要演示一个多因子打分模型,需要 200 家"虚拟公司"的横截面:每家要有行业、市值、贝塔、价值/动量/质量三个因子分,且这些字段之间的相关结构得接近真实 A 股名单。另一边,执行成本组要演示成本拆解,需要一段带买卖价差与成交大小的合成 tick 流。两段需求都不能动行情数据牌照——上一课只能产价格路径,这一课要把它扩成横截面与微观结构。本...
打开 →周五下午 4:55,深圳福田某百亿私募的因子轮动组,十八个月以来 HML 头寸第一次跑出 +6% 的单周反弹——长久期科技板块前一周回撤 14%,价值缺口第一次实质性收敛。基金经理盯着 P&L 看,风控让你周一早 7 点上一份单页:"这是 regime 翻转,还是又一次假突破?"L1 给了你表头与"滚动 夏普比率 每个因子都会崩,不要恐慌"的诊断;L...
打开 →