INTERVIEW PREP

数学与非代码面试题

覆盖数学、概率、统计、脑筋急转弯、机器学习和金融。这里负责筛选和进入单题;编程题使用独立的 LeetCode 式 coding lab。

题目
4169
领域
8
当前筛选
89

3 / 5

非代码面试题

显示 20 / 89 道匹配题目

答题状态:未尝试未正确已正确
2654重复 k 折中单个样本进入验证集的期望次数在重复 R 次的普通 k 折交叉验证中,每个样本在每一次重复里都会恰好进入一个验证折。请推导某个样本在全部重复中总共进入验证集多少次。机器学习中等derivation未尝试面试订阅2655为什么稀疏数据下扩张窗口可能优于滚动窗口为什么当序列较短、存在漂移但并不剧烈时,扩张窗口 CV 有时会优于滚动窗口设计?机器学习困难essay未尝试面试订阅2656标签窗口重叠时为什么不能随机按行做 CV如果每个标签都依赖未来 5 个交易日,而相邻样本的标签窗口彼此重叠,为什么普通的按行随机交叉验证会严重高估表现?机器学习简单essay未尝试免费2657为什么折间波动不等于部署误差的标准误为什么各折得分的标准差,不能自动被解释成未来生产表现的标准误?机器学习简单essay未尝试免费2658反复查看各折结果本身就是调参通道研究员反复查看每一折里哪些日期表现差,再据此修改特征。即使没有正式的超参数优化器,为什么这仍然是过拟合?机器学习中等essay未尝试面试订阅2659单侧 purge 后的训练集大小一个数据集有 500 个按时间排序的观测。某次验证块使用第 301 到 350 个观测。如果只在验证块前方额外 purge 掉 10 个观测,而不在其他地方 purge,那么还剩多少个观测可用于训练?机器学习困难数值题未尝试面试订阅2660为什么罕见事件任务里分层很重要为什么即使数据是 IID 的,在罕见事件任务里,普通随机分折也可能产生误导?机器学习困难essay未尝试面试订阅2661为什么时间序列 CV 的重点是信息可得性,而不是日历洁癖为什么时间序列 CV 真正的原则是“永远不要用未来信息训练”,而不是“永远采用某种固定折几何”?机器学习简单essay未尝试免费2662为什么重叠验证窗口会让得分汇总更麻烦为什么在对重叠验证窗口上的表现取平均时,从业者需要格外小心?机器学习中等essay未尝试面试订阅2663为什么跨不同折规则直接比较 CV 得分会误导为什么把某个模型在随机 k 折上的得分,和另一个模型在分组或分块 CV 上的得分直接相比,是危险的?机器学习中等essay未尝试面试订阅2664外层 CV 最多会产出多少个不同的超参数赢家某个嵌套 CV 使用 7 个外层折,并且每个外层折内都会选出恰好 1 组超参数。不同外层折上的“赢家超参数”最多可能有多少种?机器学习困难derivation未尝试面试订阅2665为什么过小的折会夸大正则化的吸引力为什么当训练折很小时,强正则模型看起来可能会比它们在完整训练集上更有优势?机器学习困难essay未尝试面试订阅2667面对重复实体时,按类别分层还不够当同一发行人反复出现且发行人身份本身带有预测信息时,为什么按类别分层的交叉验证仍然可能失败得很厉害?机器学习简单essay未尝试免费2668即使特征只看过去,为什么仍然需要禁运假设特征只使用过去价格,但标签依赖于一个未来事件窗口内的收益。为什么在验证块周围仍然可能需要设置禁运区?机器学习中等essay未尝试面试订阅2669为什么 purge 和 embargo 解决的是不同问题为什么在时间序列验证里,purge 与 embargo 并不是同一件事?机器学习中等essay未尝试面试订阅2670为什么最佳 CV 设计取决于部署单元为什么折分规则应该去贴近模型在生产环境里真正需要泛化的那个单元?机器学习困难essay未尝试面试订阅2696穿过两道独立研究关卡的伪策略概率某交易台尝试了 80 个真正无效的策略想法。只有先通过 10% 的样本内筛选、再通过 5% 的独立样本外确认,策略才会被保留,并假设在零假设下两次检验相互独立。至少有一个无效想法同时穿过两道关卡的概率是多少?机器学习简单derivation未尝试面试订阅2697把 240 个变体聚成 24 个家族后的伪赢家概率研究员生成了 240 个高度相关的策略变体,但认为它们只相当于 24 个“有效独立”的策略家族。若交易台仍把任何 p 值低于 8% 的家族都当作发现,那么在零假设下至少出现一个伪家族赢家的近似概率是多少?机器学习简单数值题未尝试面试订阅2698把家族层面伪发现概率压到 10% 所需的单次显著性阈值某交易台计划尝试 60 个有效独立的策略想法。若采用独立近似,要让至少出现一个伪赢家的概率恰好为 10%,单次检验显著性水平 alpha 应取多少?机器学习中等数值题未尝试面试订阅270250 个零假设变体里最佳 t 统计量超过 2.4 的概率假设 50 个真正零假设下的标准化 t 统计量近似独立且服从 N(0,1)。它们的最大值超过 2.4 的概率是多少?机器学习中等数值题未尝试面试订阅