为什么分层检验能减轻多重比较负担
研究员先检验某个行业整体是否有效,只有行业层面通过后才继续检验该行业内部的股票。为什么这种分层设计有助于减轻多重比较带来的负担?
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 30 个结果
English questions研究员先检验某个行业整体是否有效,只有行业层面通过后才继续检验该行业内部的股票。为什么这种分层设计有助于减轻多重比较带来的负担?
打开 →为什么在看完整段历史权益曲线之后再去选止损阈值,应该被视为回测搜索,而不是单纯的风控卫生?
打开 →假设被测试的交易想法里,真正有预测力的只有 1%。某个检验流程的 power 为 80%,假阳性率为 5%。在得到一个“阳性结果”的条件下,其中真正有效的比例是多少?
打开 →考虑在已知 $\sigma=10$、样本量 $n=25$、显著性水平 $\alpha=0.05$ 下检验 $H_0:\mu=0$ 对 $H_1:\mu>0$。若真实均值为 $\mu=4$,该检验的 power 是多少?
打开 →一个等权组合持有两只资产,波动率分别为 0.04 和 0.09。当前相关系数估计为 -0.2,但压力测试把它上调到 +0.3。在权重不变的情况下,新的组合波动率是多少?与原先估计相比会上升多少个波动率点?
打开 →两个回测几乎相同:一个报告 p = 0.049,另一个报告 p = 0.051。为什么仅仅因为一个低于 0.05、另一个高于 0.05,就把前者叫做“真的”、后者叫做“不真的”是糟糕做法?
打开 →某交易台对一个真正无效的信号尝试 10 个滞后设定。只要任一滞后的样本内 p 值低于 alpha,它就保留其中最优的那个滞后,并再要求一次新的样本外 p 值低于 10%。假设零假设下各检验独立,要使整体伪上线概率恰好为 2%,alpha 应取多少?
打开 →某交易台认为,大量相关的参数微调实际上只相当于 18 个有效独立的研究选择。要把整体族误差率控制在 5%,Sidak 的单项阈值应取多少?
打开 →某研究员总是从 25 个真正零假设的回测里,挑出最小的 p 值来汇报。若在零假设下这些 p 值独立且精确服从 Uniform(0,1),这个“最小 p 值”的中位数是多少?
打开 →给定一个 2x2 列联表: $$\begin{pmatrix}30 & 20\\ 10 & 40\end{pmatrix}。$$ 请使用经典卡方检验来判断是否独立。
打开 →假设 50 个真正零假设下的标准化 t 统计量近似独立且服从 N(0,1)。它们的最大值超过 2.4 的概率是多少?
打开 →你进行一个 A/B 测试,处理组与对照组各有 $n$ 个独立 Bernoulli 观测。记样本均值为 $\bar X$ 和 $\bar Y$。请用 Hoeffding 不等式给出 \[ P\bigl((\bar X-\bar Y)-E[\bar X-\bar Y]\ge \varepsilon\bigr) \] 的上界。
打开 →在目标 $q=0.10$ 的 Benjamini-Hochberg 过程中,你最终拒绝了 5 个假设。这个方法是否保证这 5 个里面恰好有 10% 是假发现?
打开 →某种降方差方法把处理效应估计量的方差缩小到原来的 $c$ 倍,其中 $0<c<1$。等效样本量会放大多少倍?
打开 →你希望做一个双侧 z 检验 $H_0:\mu=0$,已知 $\sigma=4$,并希望在 5% 显著性水平下以 80% power 检测真实均值为 $1$ 的情形。大约需要多少样本量?
打开 →一个小盘执行试点报告 p = 0.18,备注里写着“没有效果,所以应该停掉项目”。为什么这个结论太强?
打开 →两个独立交易簿各有 100 天数据,平均日 PnL 分别为 $102$ 和 $100$,且每个交易簿的日度标准差都已知为 $5$。请用双侧 z 检验判断两个均值是否相同。
打开 →为什么组合式路径验证能改善稳健性检验,但仍无法彻底解决研究者在看到旧结果后继续发明新点子的过拟合问题?
打开 →为什么 logistic 回归输出经过校准的概率估计,而不是只给一个硬标签,会很有价值?
打开 →为什么当整个市场状态会在相邻分钟之间持续传导时,按时间块交替切换处理与对照,往往比用户级随机化更可信?
打开 →为什么研究者在想法迭代过程中反复查看最终留出集后,它就失去了原本的证据价值?
打开 →某 PM 每小时都看一次 p 值,只要发现 p < 0.05 就立刻停止实验。为什么这种做法会放大假阳性?
打开 →为什么即使主指标赢了,如果延迟、投诉或取消率恶化,实验也仍然不能直接上线?
打开 →为什么在回测热图里,一大片都不错的参数平台,往往比一个非常尖锐的最优点更有说服力?
打开 →为什么给随机森林继续加树,通常只是收益趋于平台,而不会出现某些单模型家族那种爆炸式过拟合?
打开 →为什么一个结束得太早的实验,会错过那种必须经过一段学习期后才会显现收益的处理?
打开 →为什么在社交产品或双边市场功能上,即使随机分配本身完全正确,实验也可能违背常规随机试验逻辑?
打开 →为什么仅仅因为最终策略只是相对基线做了很多“小修改”,就声称不存在严重过拟合,这是误导性的?
打开 →为什么即使 p 值已经很小,团队仍然应该追问这个实验结果在操作上是否讲得通?
打开 →为什么在看过回测表现之后再去调整滑点曲线、费用表或融券假设,也算额外的模型搜索?
打开 →