0.049 与 0.051 的决策悬崖
两个回测几乎相同:一个报告 p = 0.049,另一个报告 p = 0.051。为什么仅仅因为一个低于 0.05、另一个高于 0.05,就把前者叫做“真的”、后者叫做“不真的”是糟糕做法?
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 30 个结果
English questions两个回测几乎相同:一个报告 p = 0.049,另一个报告 p = 0.051。为什么仅仅因为一个低于 0.05、另一个高于 0.05,就把前者叫做“真的”、后者叫做“不真的”是糟糕做法?
打开 →一个残差价差满足 X_(t+1) = 2/3 X_t + epsilon_(t+1),且 E[epsilon_(t+1)] = 0。若今天的残差是 9 bp,那么 E[X_2 | X_0 = 9 bp] 是多少?
打开 →给定一个 2x2 列联表: $$\begin{pmatrix}30 & 20\\ 10 & 40\end{pmatrix}。$$ 请使用经典卡方检验来判断是否独立。
打开 →假设 50 个真正零假设下的标准化 t 统计量近似独立且服从 N(0,1)。它们的最大值超过 2.4 的概率是多少?
打开 →收益由一个自回归系数为 0.5 的平稳 AR(1) 生成。Lo-MacKinlay 滞后 2 的方差比为 VR(2) = Var(r_t + r_(t+1)) / (2 Var(r_t))。计算 VR(2),并说明它指向动量还是均值回复。
打开 →你观察到如下诊断结论:ACF 和 PACF 都逐步衰减。正确的建模结论是什么?
打开 →你观察到如下诊断结论: (1-0.5L) X_t = (1-0.5L) e_t。正确的建模结论是什么?
打开 →两个模型的 ROC AUC 几乎一样。一个校准良好,另一个把大多数概率都推到接近 0 或 1。你在选择后者之前,首先应该担心什么?
打开 →快信号组合的市场 beta 为 0.8,慢信号组合的市场 beta 为 -0.4。现在构造 C = w*fast + (1-w)*slow,并要求组合 beta 恰好为 0。快信号应分配多少权重 w?
打开 →预测概率为 [0.8, 0.6, 0.3, 0.1],真实标签为 [1, 0, 1, 0]。Brier score 是多少?
打开 →使用等样本权重的 expected calibration error。现在有两个非空分箱:A 箱的预测概率是 [0.2, 0.3],标签是 [0, 1];B 箱的预测概率是 [0.8, 0.9],标签是 [1, 1]。按 ECE = 各箱 (样本占比)*|平均置信度 - 准确率| 计算,结果是多少?
打开 →如果 embargo 比标签 horizon 还短,最可能的后果是什么?
打开 →当标签依赖未来收益、而相邻样本的标签窗口会相互重叠时,为什么加入 time embargo 会有帮助?
打开 →如果你把未来收益标签从 1 天拉长到 20 天,但依然按日采样,那么重叠程度和有效样本独立性会怎样变化?
打开 →一个标准化 lasso 拟合的绝对得分大小是 (3.8, 2.5, 0.9)。要让最弱的特征刚好变成 0、但另外两个仍保持活跃,最小的 lambda 是多少?
打开 →Ljung-Box 检验在收益序列上针对的零假设是什么?若拒绝了它,在实践中意味着什么担忧?
打开 →一个 MA(1) 执行噪声模型使用 theta = -0.7。该模型是否可逆?
打开 →一个标准化 ridge 模型的奇异值平方为 d_j^2 = [12.25, 4, 0.25],惩罚参数 lambda = 0.25。其有效自由度 tr(S_lambda) = sum d_j^2/(d_j^2+lambda) 等于多少?
打开 →某个实现波动率特征被定义为最近 4 个日收益的均方根。如果这 4 个收益是 [1%, -1%, 2%, 0%],那么得到的实现波动率特征是多少?
打开 →设 A 可逆,A^(-1)b = [5, 0]^T,A^(-1)u = [2, 1]^T,v^T A^(-1)b = 1,v^T A^(-1)u = -1/2。问 (A + u v^T)^(-1) b 等于多少?
打开 →successive halving 从 27 个配置开始。每一轮保留三分之一的配置,并让所有幸存者各训练一次。如果总共运行 3 轮,会执行多少次模型训练?
打开 →为什么即使 walk-forward 流程做得很干净,也不能保证策略一定能在实盘里活下来?
打开 →你希望做一个双侧 z 检验 $H_0:\mu=0$,已知 $\sigma=4$,并希望在 5% 显著性水平下以 80% power 检测真实均值为 $1$ 的情形。大约需要多少样本量?
打开 →一个新信号在样本内的单独 Sharpe 最高,但它很不稳定,而且和已有信号高度相关。为什么相比给它极高权重,更温和的 shrinkage 组合可能更明智?
打开 →三个模型复杂度对应的平均交叉验证 AUC 分别为 0.790、0.802 和 0.808。最佳分数的标准误是 0.010。按 one-standard-error rule,应该保留哪个最简单的模型?
打开 →两个候选 rollout 对 PnL 的 reduced-form 影响相同: $$E[Y\mid Z=1]-E[Y\mid Z=0]=0.02。$$ 其中 rollout A 的 first stage 是 $0.20$,rollout B 的 first stage 是 $0.01$。 哪一个设计的工具变量更弱?为什么?
打开 →如果今天收盘价是 100,明天开盘价是 98,明天收盘价是 99,那么在明天收盘后可见的“下一交易日日内收益”标签是多少?
打开 →successive halving 从 64 个配置开始。比较两种总共 3 轮的保留策略:每轮保留一半 vs 每轮保留四分之一。后者会少训练多少次模型?
打开 →一次假阴性的代价是 5,一次假阳性的代价是 1。若 p 是正类的预测概率,那么当 p 高于什么阈值时,应把样本判成正类?
打开 →一个小盘执行试点报告 p = 0.18,备注里写着“没有效果,所以应该停掉项目”。为什么这个结论太强?
打开 →