金融量化中的机器学习
machine-learning · financial-ml · cross-validation · purged-cv · cpcv · deflated-sharpe · multiple-testing · backtest-overfitting
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 17 个结果
English questionsmachine-learning · financial-ml · cross-validation · purged-cv · cpcv · deflated-sharpe · multiple-testing · backtest-overfitting
打开 →某交易台对一个真正无效的信号尝试 10 个滞后设定。只要任一滞后的样本内 p 值低于 alpha,它就保留其中最优的那个滞后,并再要求一次新的样本外 p 值低于 10%。假设零假设下各检验独立,要使整体伪上线概率恰好为 2%,alpha 应取多少?
打开 →某交易台认为,大量相关的参数微调实际上只相当于 18 个有效独立的研究选择。要把整体族误差率控制在 5%,Sidak 的单项阈值应取多少?
打开 →某研究员总是从 25 个真正零假设的回测里,挑出最小的 p 值来汇报。若在零假设下这些 p 值独立且精确服从 Uniform(0,1),这个“最小 p 值”的中位数是多少?
打开 →钩子:五十条弱 alpha 与一个总组合 你在一家中证500 中频量化私募(private fund)工作。研究团队在过去六个月里训练出了五十条独立的 ML alpha:有用 LightGBM 在 沪深300 / 中证500 因子风格暴露上做次日 alpha 的,有 1 D CNN 在分钟线上做日内动量(momentum)的,有 Transformer 在卖...
打开 →某位 PM 检验了 40 个信号,但这些信号实际上都建立在少数几个共同的宏观主题上,因此 p 值高度相关。为什么“直接把 alpha 除以 40”通常过于粗糙?正确的概念性处理方式是什么?
打开 →某私募的量化研究员把新风控流程在 60 个交易日上跑出的日收益序列丢到屏幕上,样本均值比对照组高出 12 bp,样本标准差 35 bp。组合经理只关心一个问题:这 12 bp 究竟是流程改造带来的真效应,还是 60 个数里凑巧抖出来的噪声?把「凑巧」翻译成数学,就是本课要交付的工具:在一个明确的概率模型下,把「真效应」与「凑巧」分到拒绝域与接受域两边,并给做...
打开 →一个研究网格包含 60 个模型变体,但交易台认为它们只相当于 15 个“有效独立”的家族。若要用 Bonferroni 家族层面规则把整体族误差率控制在 10% 以内,对每个有效家族应使用什么 p 值阈值?
打开 →某周三 下午,上海 量化 私募 明汯 / 幻方 风格 的 投决会。研究员 上 来 一个 动量 策略:L1 引擎 是 事件驱动(干净);L2 真实性 清单 每 一 项 都 过(PIT 数据、survivorship free 沪深300 股票池、下根 K 线 开盘 成交、双边 10 bps 成本、不 做 空)。报告 的 夏普比率 在 2014 2023 上 是...
打开 →国内某多空选股私募的资深研究员把一篇顶刊工作论文转给了基金经理:「作者在沪深300成分股范围内构造了一个基于净经营资产应计的因子,样本内夏普 1.8,t 值 2.4。是否纳入生产合成因子?」基金经理翻到方法论页只回了三行字:「三个问题。(1) 论文 t 值 2.4——文献已经发了大概 300 个这种因子,多重检验调整后的门槛是多少?(2) 用了断点宇宙断点和...
打开 →一位 头部 量化 私募 基金 经理 周五 走 进 研究 总监 的 办公室 端 着 一 张 幻灯片 —— 五 年 评估 窗口 上 沪深 300 横截面 净 扣 成本 后 夏普 比率 2.0,t 统计量 4.5,样本外 净 值 曲线 漂亮 至极。研究 总监 翻 到 方法 学 那 页。"你 的 N 是 多少?" "我 在 相同 窗口 上 筛 了 大约 100 个 ...
打开 →钩子:一笔 5000 手的 IF 单与一个等待你的 4 小时 周二上午 10:00,你的私募(private fund)风控屏上闪着一个标红:旗下中证500 多因子产品需要在午盘后到收盘前,把一个 5000 手的 CFFEX IF(沪深300 股指期货, stock index future)空头头寸全部减仓。合约乘数 ¥300/点,IF 当前 3,520 ...
打开 →钩子:连续八周下跌的明星 alpha 2023 年 2 月最后一个周五下午,你在一家私募(private fund)做模型风险(MRM)。屏幕上挂着上一年表现最好的策略:中证500 全量股票的 LightGBM 多因子模型,2022 年 Q3 经净化 CPCV 验证,样本外中位夏普(Sharpe ratio)1.5;2022 年 Q4 通过影子交易上线;20...
打开 →某交易台在 20 个彼此独立的事件桶上统一使用 0.0045 的单桶阈值。这样对应的整体族误报概率是多少?
打开 →五个家族层面的赢家,其 p 值从小到大依次为 0.004、0.011、0.018、0.031 和 0.070。对哪些 BH 目标水平 q,Benjamini-Hochberg 会恰好保留前三个发现?
打开 →三个按从小到大排序的家族 p 值分别是 0.012、0.027 和 0.030。交易台在 5% 的整体族误差率下使用 Holm 程序。要让三个主题都通过,中间那个 p 值至少要下降多少?
打开 →金融机器学习的陷阱与验证:净化交叉验证与多重检验 钩子:在 Sharpe 2.5 面前下班的那位实习生 周三下午,某沪深300 多因子私募基金(private fund)的研究室。一位刚从海外回来的实习生把笔记本电脑转过来给你看:XGBoost、5 折交叉验证、特征包括过去 5 日收益、20 日 RSI、北向资金净流入、卖方分析师评级修订,因子模型层面用 F...
打开 →