全站搜索 — 锐望实验室

你进行一个 A/B 测试，处理组与对照组各有 $n$ 个独立 Bernoulli 观测。记样本均值为 $\bar X$ 和 $\bar Y$。请用 Hoeffding 不等式给出 \[ P\bigl((\bar X-\bar Y)-E[\bar X-\bar Y]\ge \varepsilon\bigr) \] 的上界。

打开 →

题目2355 · 数理金融

Wrong-Way-Risk 判断 5

为什么 wrong-way risk 往往先在压力测试里暴露出来，而不是先在日常定价公式里暴露出来？

打开 →

题目5702 · 脑筋急转弯

一瓶毒酒，二进制试毒者

你有1000瓶酒，其中恰有一瓶有毒。任何喝下含毒酒液的试毒者会在完全相同的固定延迟后死亡，你可以让每名试毒者在一轮中同时品尝任意若干瓶的组合（延迟后、庆典前观察结果）。如果只有一轮测试，最少需要多少名试毒者才能保证找出那瓶毒酒？

打开 →

题目3469 · 数学

三路入口加五路升级诊断的容量

第一个测试有左、中、右三个结果。若走到左支，可以再做一个五路升级诊断；若走到中支或右支，每条支路都只能再问一个二元问题。总共能区分多少个状态？

打开 →

题目2397 · 机器学习

两类模型的样本量交叉点

模型 A 的额外测试 MSE 是 0.04 + 18/n，而模型 B 的额外测试 MSE 是 0.16 + 4/n，其中 n 是样本量。它们在什么样本量下打平？

打开 →

题目2714 · 机器学习

为什么搜索深度往往大于“命名策略”的数量

为什么一个声称自己只测试过 5 个“命名策略”的团队，实际搜索深度仍可能远远大于 5？

打开 →

题目1718 · 统计

从 50 个结果里挑最小 p 值为什么会误导

研究员测试了 50 个候选特征，只报告其中 p 值最小的一个，而这个最小 p 值恰好是 0.01。为什么把这个 0.01 当成单个预先指定检验的结果来解读会有误导性？

打开 →

题目1720 · 统计

低先验概率下的阳性结果可信度

假设被测试的交易想法里，真正有预测力的只有 1%。某个检验流程的 power 为 80%，假阳性率为 5%。在得到一个“阳性结果”的条件下，其中真正有效的比例是多少？

打开 →

题目091 · 概率

一种罕见疾病的发病率为万分之一。筛查测试的灵敏度（真阳性率）为99%，特异度（真阴性率）为99%。(a) 一个随机选中的人检测呈阳性，他真正患病的概率是多少？(b) 同一个人再做一次独立测试（同样的灵敏度和特异度），结果再次呈阳性。现在患病概率是多少？(c) 一位医院管理者看到测试「99%准确」后，提议对全部100,000名员工进行强制筛查，声称「几乎所有阳性结果都是真的」。量化预期阳性结果中有多少是假阳性，并解释管理者的推理为何有误。

打开 →

题目2589 · 机器学习

偏差不变时 bagging 后的 MSE 7

假设每棵树的偏差平方都是 b^2，预测噪声底为 nu，而 bagging 只会按等相关树公式改变方差项。请推导拥有 B 棵树时的 bagged 测试 MSE。

打开 →

题目1703 · 统计

全年策略挖掘会带来多少假阳性？

假设你每天都测试 20 条纯噪声交易规则，一年按 252 个交易日计算，每次都用 5% 显著性水平且不做任何校正。那么全年期望会出现多少个假阳性？

打开 →

搜索课程、模块、题目与收藏题单

测试块可用比例 9

测试时常缺特征时哪类模型占优 19

不碰测试标签并不够

为一次完美测试最多愿意付多少

为什么在不增加信号时扩充特征反而会恶化测试误差

为什么自适应测试能胜过固定菜单

为什么超参数搜索不能碰测试集 24

先标准化再切分训练测试

季度测试块下的月度重训次数 10

带不均匀后续分支的三路测试容量

更长测试窗

根据测试曲线来选早停轮数

滚动回测中的可交易测试覆盖 1

看到测试集构成后再定稀有类别阈值

调完 bug 之后继续复用测试集

Sherman-Morrison 失效测试

为什么不可约噪声会封顶最佳可达测试误差

为什么正则化会抬高训练误差却降低测试误差

对对冲账本做压力测试与今天给它做估值

A/B 差值的集中上界

Wrong-Way-Risk 判断 5

一瓶毒酒，二进制试毒者

三路入口加五路升级诊断的容量

两类模型的样本量交叉点

为什么搜索深度往往大于“命名策略”的数量

从 50 个结果里挑最小 p 值为什么会误导

低先验概率下的阳性结果可信度

假阳性悖论（基率忽略）

偏差不变时 bagging 后的 MSE 7

全年策略挖掘会带来多少假阳性？