全站搜索 — 锐望实验室

你进行一个 A/B 测试，处理组与对照组各有 $n$ 个独立 Bernoulli 观测。记样本均值为 $\bar X$ 和 $\bar Y$。请用 Hoeffding 不等式给出 \[ P\bigl((\bar X-\bar Y)-E[\bar X-\bar Y]\ge \varepsilon\bigr) \] 的上界。

打开 →

题目1708 · 统计

BH 过程到底控制的是什么

在目标 $q=0.10$ 的 Benjamini-Hochberg 过程中，你最终拒绝了 5 个假设。这个方法是否保证这 5 个里面恰好有 10% 是假发现？

打开 →

题目1727 · 统计

CUPED 式降方差之后的等效样本量

某种降方差方法把处理效应估计量的方差缩小到原来的 $c$ 倍，其中 $0<c<1$。等效样本量会放大多少倍？

打开 →

题目1686 · 统计

z 检验所需样本量

你希望做一个双侧 z 检验 $H_0:\mu=0$，已知 $\sigma=4$，并希望在 5% 显著性水平下以 80% power 检测真实均值为 $1$ 的情形。大约需要多少样本量？

打开 →

题目1713 · 统计

不显著不等于没效果

一个小盘执行试点报告 p = 0.18，备注里写着“没有效果，所以应该停掉项目”。为什么这个结论太强？

打开 →

题目1683 · 统计

两个均值差的双样本 z 检验

两个独立交易簿各有 100 天数据，平均日 PnL 分别为 $102$ 和 $100$，且每个交易簿的日度标准差都已知为 $5$。请用双侧 z 检验判断两个均值是否相同。

打开 →

题目2710 · 机器学习

为什么 CPCV 有帮助但治不了自适应创意生成

为什么组合式路径验证能改善稳健性检验，但仍无法彻底解决研究者在看到旧结果后继续发明新点子的过拟合问题？

打开 →

题目2537 · 机器学习

为什么 logistic 概率对下游有用 18

为什么 logistic 回归输出经过校准的概率估计，而不是只给一个硬标签，会很有价值？

打开 →

题目1740 · 统计

为什么 switchback 实验能处理时间维度的溢出

为什么当整个市场状态会在相邻分钟之间持续传导时，按时间块交替切换处理与对照，往往比用户级随机化更可信？

打开 →

题目2706 · 机器学习

为什么“没碰过的留出集”一旦反复看就不再没碰过

为什么研究者在想法迭代过程中反复查看最终留出集后，它就失去了原本的证据价值？

打开 →

题目1714 · 统计

为什么“边看边停”会放大假阳性

某 PM 每小时都看一次 p 值，只要发现 p < 0.05 就立刻停止实验。为什么这种做法会放大假阳性？

打开 →

题目1733 · 统计

为什么即使主指标赢了也要看护栏指标

为什么即使主指标赢了，如果延迟、投诉或取消率恶化，实验也仍然不能直接上线？

打开 →

题目2719 · 机器学习

为什么参数稳定性比单一最佳峰值更重要

为什么在回测热图里，一大片都不错的参数平台，往往比一个非常尖锐的最优点更有说服力？

打开 →

题目2580 · 机器学习

为什么增加树数通常不会制造经典意义上的过拟合 15

为什么给随机森林继续加树，通常只是收益趋于平台，而不会出现某些单模型家族那种爆炸式过拟合？

打开 →

题目1739 · 统计

为什么太短的实验会误读滞后效应

为什么一个结束得太早的实验，会错过那种必须经过一段学习期后才会显现收益的处理？

打开 →

题目1732 · 统计

为什么干扰效应会毁掉用户级随机化

为什么在社交产品或双边市场功能上，即使随机分配本身完全正确，实验也可能违背常规随机试验逻辑？

打开 →

题目2712 · 机器学习

为什么很多“小修改”合起来仍然是深度搜索

为什么仅仅因为最终策略只是相对基线做了很多“小修改”，就声称不存在严重过拟合，这是误导性的？

打开 →

题目1736 · 统计

为什么很小的 p 值仍然需要靠谱的上线故事

为什么即使 p 值已经很小，团队仍然应该追问这个实验结果在操作上是否讲得通？

打开 →

题目2707 · 机器学习

为什么成本假设本身也算超参数

为什么在看过回测表现之后再去调整滑点曲线、费用表或融券假设，也算额外的模型搜索？

打开 →

搜索课程、模块、题目与收藏题单

为什么分层检验能减轻多重比较负担

为什么止损规则调参同样属于多重检验

低先验概率下的阳性结果可信度

单侧 z 检验的检验功效

相关性冲击后的波动率重估 1

0.049 与 0.051 的决策悬崖

10 个滞后搜索后所需的样本内筛选阈值

18 个有效研究选择的 Sidak 阈值

25 次零假设试验中最小 p 值的中位数

2x2 列联表的独立性卡方检验

50 个零假设变体里最佳 t 统计量超过 2.4 的概率

A/B 差值的集中上界

BH 过程到底控制的是什么

CUPED 式降方差之后的等效样本量

z 检验所需样本量

不显著不等于没效果

两个均值差的双样本 z 检验

为什么 CPCV 有帮助但治不了自适应创意生成

为什么 logistic 概率对下游有用 18

为什么 switchback 实验能处理时间维度的溢出

为什么“没碰过的留出集”一旦反复看就不再没碰过

为什么“边看边停”会放大假阳性

为什么即使主指标赢了也要看护栏指标

为什么参数稳定性比单一最佳峰值更重要

为什么增加树数通常不会制造经典意义上的过拟合 15

为什么太短的实验会误读滞后效应

为什么干扰效应会毁掉用户级随机化

为什么很多“小修改”合起来仍然是深度搜索

为什么很小的 p 值仍然需要靠谱的上线故事

为什么成本假设本身也算超参数