置信区间与自助法
周一上午,某私募的量化研究员要给 LP 周报里的「日均超额收益」配上一句免责声明。点估计给出 公式、样本标准差 公式、样本量 公式。市场部追问:「这个 5.2 准吗?能不能告诉我一个区间?」她不能回答「真值有 95% 的概率落在某段里」——后面会看到这是个语言陷阱——但她可以给出一段 置信区间 (confidence interval, CI),并把...
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 28 个结果
English questions周一上午,某私募的量化研究员要给 LP 周报里的「日均超额收益」配上一句免责声明。点估计给出 公式、样本标准差 公式、样本量 公式。市场部追问:「这个 5.2 准吗?能不能告诉我一个区间?」她不能回答「真值有 95% 的概率落在某段里」——后面会看到这是个语言陷阱——但她可以给出一段 置信区间 (confidence interval, CI),并把...
打开 →某位 PM 看到“下个月策略边际收益”的 frequentist 95% 置信区间是 [-0.1, 0.4],于是问:“那这次上线时真实边际收益为正的概率到底是多少?” 为什么这个区间本身不能直接回答这个问题?如果用 Bayesian 语言,应看哪个量?
打开 →PM 说:“Sharpe 的 frequentist 95% 置信区间大部分在 0 之上,所以真实 Sharpe 为正的概率有 95%。” 为什么这句话混合了两套框架?
打开 →某个 Monte Carlo 估计值为 12.0,标准误为 0.4。使用正态近似时,应报告什么样的 95% 置信区间?
打开 →某个系数的双侧检验得到 z = 1.8。不单独重新计算区间的前提下,你能判断对应的 95% 置信区间是否包含 0 吗?
打开 →周五下午两点半,浦东陆家嘴一家中型私募的风控会上,PM 把昨晚跑出来的 tear sheet 推过来:「食品饮料这只 600519.SH 的 63 日滚动 夏普比率 (Sharpe ratio)样本期均值是 0.86,银行那两只 000001.SZ 和 600036.SH 是 0.42。0.44 的差,可信吗?」你脑子里第一反应是 3.2.2 L5 那...
打开 →MLE · 假设检验 · 置信区间 · Bootstrap
打开 →某私募的量化研究员把新风控流程在 60 个交易日上跑出的日收益序列丢到屏幕上,样本均值比对照组高出 12 bp,样本标准差 35 bp。组合经理只关心一个问题:这 12 bp 究竟是流程改造带来的真效应,还是 60 个数里凑巧抖出来的噪声?把「凑巧」翻译成数学,就是本课要交付的工具:在一个明确的概率模型下,把「真效应」与「凑巧」分到拒绝域与接受域两边,并给做...
打开 →上海某私募的量化研究员把上一课跑出来的两个候选估计量并排放着:一个是无偏的样本方差 公式(分母 公式),另一个是极大似然估计(maximum likelihood estimation, MLE)的方差版 公式(分母 公式)。直觉告诉他「无偏」听起来更值得信赖,但当真到了要在波动率模型里塞一个数,他需要的是一把明确可比较的「好坏」尺子——能告诉他在 公式 的...
打开 →上海某私募的量化研究员周一上午把过去 200 个交易日的沪深300 日内对数收益堆在屏幕上,准备给一个新的日频股指期货策略估出「年化波动率」。他知道收益的真实分布参数永远看不见,手里有的只是一串样本。问题就此变形:从这 200 个数里挤出哪个数字配叫做「波动率的估计」?另一位同事在 50ETF 期权交易台做做市,他需要从最近一周的成交频次里估出每秒到单率 公...
打开 →PM 看到某策略日度 edge 的 95% Bayesian 可信区间后说:“所以真实 edge 落在这个区间里的概率是 95%。” 这种解读对吗?请与 frequentist 的 95% 置信区间解释做对比。
打开 →一次 Monte Carlo 模拟的终端收益样本均值为 10.5,样本标准差为 4.2,路径数 n=400。若利率为 0.03、到期时间为 1,则 t=0 的价格估计、标准误差以及近似 95% 置信区间分别是多少?
打开 →一次 Monte Carlo 模拟的终端收益样本均值为 6.2,样本标准差为 2.8,路径数 n=625。若利率为 0.04、到期时间为 0.5,则 t=0 的价格估计、标准误差以及近似 95% 置信区间分别是多少?
打开 →一次 Monte Carlo 模拟的终端收益样本均值为 14,样本标准差为 7.5,路径数 n=900。若利率为 0.02、到期时间为 1.5,则 t=0 的价格估计、标准误差以及近似 95% 置信区间分别是多少?
打开 →一次 Monte Carlo 模拟的终端收益样本均值为 9.8,样本标准差为 5,路径数 n=1024。若利率为 0.025、到期时间为 1.25,则 t=0 的价格估计、标准误差以及近似 95% 置信区间分别是多少?
打开 →假设数据很弱,而先验又强烈地把参数往 0 拉,同时也真实反映了对收缩幅度的不确定性。为什么在这种情况下,Bayesian 可信区间可能比 frequentist 渐近置信区间更宽?
打开 →为什么训练集和测试集之间的实体重叠通常还会让置信区间和模型稳定性评估看起来比真实情况更好?
打开 →一个路由微调方案的 p 值是 0.01,但其年节省额的 95% 置信区间为 [$10k, $1.2m]。为什么团队仍应谨慎?
打开 →在单位正方形 $[0,1]^2$ 上均匀独立抽取 $n = 10{,}000$ 个点 $(X_i, Y_i)$。定义 $Z_i = \mathbf{1}(X_i^2 + Y_i^2 \le 1)$,$\hat{\pi} = 4\bar{Z}$。 **(a)** 解释为什么 $E[\hat{\pi}] = \pi$ 以及 $\hat{\pi} \to \pi$ a.s.。 **(b)** 用 CLT,对 $\bar{Z} = 0.7854$ 给出 $\pi$ 的近似 $95\%$ 置信区间。 可使用 $\Phi(1.96) \approx 0.975
打开 →为什么“下周计数的 Bayesian 后验预测区间”回答的问题,与“底层均值计数的 frequentist 置信区间”并不相同?
打开 →周二上午,你坐在 CFFEX 张江 COLO 机房旁边的运维台前。你是一家头部私募 Rust 团队的开发,负责沪深300 ETF (510300.SH) 的做市策略,代码已经过编译、单元测试通过、回测看起来正常,但 profiler 显示热点循环把 70% 的周期花在了两个 AtomicU64::fetch add 调用上 —— 这两个调用按理每次只应消耗一...
打开 →某周四 早上,上海 某 量化 私募 的 投决会。L1 L3 全部 走 完 的 5 日 动量 策略 摆 在 Confluence 上:事件驱动 引擎、十 项 真实性 清单 全 绿、deflated Sharpe 0.8、PBO 0.35。研究员 问 投资 总监:「什么时候 上 实盘?」投资 总监 不 回答 这 个 问题。她 连 问 四 个 反 问 题。 十 节...
打开 →招商银行私行的一位 FOF 经理把两份业绩材料并排放到你面前。两只 私募 量化 中性 产品过去三年都报出 +12% 的年化收益:产品 A 的月度波动率是 7%、最大回撤 6%;产品 B 的月度波动率是 22%、最大回撤 28%。客户说"年化收益一样,选哪个都行"。你必须告诉客户:同样的 +12%,产品 A 的夏普比率 1.6、卡玛比率 2.0;产品 B 的夏...
打开 →某私募的策略经理把过去 12 个月的日 P&L 平均值定为 0.06%,准备据此外推年度回报。这种"样本均值即真均值"的隐含假设到底有多牢靠?——回答它需要两条极限定理: 大数定律 (law of large numbers, LLN)说"公式 足够大时样本均值确实贴近真均值"; 中心极限定理 (central limit theorem, ...
打开 →周一上午 9 点 40 分,浦东陆家嘴一家中型私募的研究台。PM 转过头来:「上周那个 A 股小篮子—— 600519.SH 、 000001.SZ 、 600036.SH ——把 2024 年全年的因子摘要(tear sheet)给我,按申万一级行业把夏普汇总一下,下午三点的月会要用。」你看了一眼磁盘:L4 那道时间序列流水线吐出的 closes.parq...
打开 →周三午后,浦东陆家嘴一家中型私募的研究台上,PM 把一张 252 天的样本期跑出来推过来:「 600519.SH 对沪深300 ETF( 510300.SH )的 beta 我刚才用 np.linalg.lstsq 解出来是 0.91——但 0.91 离 1 到底有多远?是抽样噪音里飘出来的一格,还是这只票就比沪深300 系统性低 beta?」3.2.1 L...
打开 →周二开盘前 30 分钟,你在一家百亿规模的私募(private fund)接手了今早的因子配置(factor allocation)任务。手头是沪深300 成份股过去 60 个交易日的日收益,以及 4 个候选风格因子——规模、价值、动量、低波——在同期的横截面暴露。你的 PM 只问一句:「把这批个股的今日预期收益,拟合成这 4 个因子的线性组合,残差还剩多少...
打开 →上海某私募的量化研究员在沪深300(CSI 300)成分股的三年日频收益里跑了一支六因子模型,回归表打出来:动量项系数 0.18、t 统计量 3.2,整体显著性 F 统计量 18.4。组合经理盯着她问:「这几个数字,到底说明因子真的有 alpha,还是只是回归噪音被你刚好捞到了?」她手里的工具不能回答这个问题——上一课的 公式 是点估计,没有不确定性。本节要...
打开 →