INTERVIEW PREP

数学与非代码面试题

覆盖数学、概率、统计、脑筋急转弯、机器学习和金融。这里负责筛选和进入单题;编程题使用独立的 LeetCode 式 coding lab。

题目
4169
领域
8
当前筛选
622

22 / 32

非代码面试题

显示 20 / 622 道匹配题目

答题状态:未尝试未正确已正确
4300L1 阈值加大后的输出 10某个 proximal L1 步骤使用 sign(w)*max(|w| - tau, 0)。若更新前的权重是 0.6,当 tau 从 0.2 提高到 0.5 时,新的输出是多少?机器学习中等数值题未尝试面试订阅4301mixup 标签混合 11在一个 4 分类问题里,mixup 以 lambda = 0.3 混合“类别 1 的样本”和“类别 4 的样本”的 one-hot 标签。最终得到的目标向量是什么?机器学习中等数值题未尝试面试订阅4302随机深度下的平均激活层数 12某个网络对 12 个残差块使用 stochastic depth,并让每个块在训练中的生存概率都是 0.75。一次训练前向传播中,平均会有多少个块处于激活状态?机器学习中等数值题未尝试面试订阅4303DropConnect 的平均活跃权重数 13某层共有 400 个权重。训练时使用 DropConnect,并让每个权重以 0.9 的概率独立保留。一次前向传播中,平均会有多少个权重处于活跃状态?机器学习中等数值题未尝试面试订阅4304inverted dropout 输出方差 14某个单元在 dropout 前的激活为 a = 3,使用 keep probability q = 0.75 的 inverted dropout。训练时输出要么是 0,要么是 a/q。该输出的方差是多少?机器学习中等数值题未尝试面试订阅4306稀疏权重爆炸一个宽 MLP 在 8k 条表格数据上把训练 AUC 拉到 0.99,但验证 AUC 卡在 0.76。特征语义又不支持标签保持的数据增强,而且最大的权重集中在稀疏 one-hot 输入上。你首先应该尝试哪种正则化控制?机器学习中等essay未尝试面试订阅4307验证集见顶后下滑训练损失在每个 epoch 都继续下降,但验证 Sharpe 在大约第 11 个 epoch 见顶后持续缓慢下滑。你既不打算改结构,也不改数据集。最合理的正则化动作是什么?机器学习中等essay未尝试面试订阅4308噪声标签与过度自信一个分类器准确率已经不错,但对边界样本过于频繁地给出 99% 的置信度,而且标签中被认为含有少量噪声。哪种正则化调整最能针对这个失效模式?机器学习中等essay未尝试面试订阅4309隐藏单元共适应两层隐藏层会记住成对同时出现的信号。样本内指标很好,但只要样本外其中一个信号稍有偏移,性能就会崩。哪种控制最适合抑制这种共适应?机器学习中等essay未尝试面试订阅4310存在安全不变性你在一个很小的图像式信号数据集上训练模型,已知轻微平移和镜像翻转天然保持标签不变。网络又很容易把训练集拟合得过好。哪种正则化手段应该优先提到最前面?机器学习中等essay未尝试面试订阅4311提高 Dropout 之前在一次效果一般的训练后,你很想把 dropout 从 0.2 直接加到 0.6。动手前最先应该回答的诊断问题是什么?机器学习中等essay未尝试面试订阅4312加入增强之前同事把激进的数据增强当作万能解。你在接受这个方案前,第一步应该检查什么?机器学习中等essay未尝试面试订阅4313当 Weight Decay 开始伤害性能随着 weight decay 增强,模型表现开始下降。你在下结论说“正则化不好”之前,应该先问关于信号结构的什么问题?机器学习中等essay未尝试面试订阅4314信任 Early Stopping 之前你的验证指标每天噪声都很大。在把第一个局部峰值当作停止点之前,应该先校准什么?机器学习中等essay未尝试面试订阅4315正则不是孤立存在在过参数化网络里,为什么脱离优化器和数据流程单独谈正则强度是错误的?机器学习中等essay未尝试面试订阅4316注意力分数数量一个 Transformer 层处理 L=256 个 token,头数 H=8。不考虑 value 维度时,所有头总共会形成多少个原始注意力分数条目?机器学习简单数值题未尝试面试订阅4317堆叠 CNN 感受野一个 1D CNN 叠了 6 层因果卷积,kernel size 为 3,stride 为 1,且没有 dilation。感受野是多少个 token?机器学习简单数值题未尝试面试订阅4318空洞 CNN 覆盖范围一个因果 CNN 使用 4 层、kernel size 为 3、dilation 依次为 1、2、4、8。一个输出 token 最多可以直接聚合多长的依赖范围?机器学习简单数值题未尝试面试订阅4319串行深度比较对于长度为 512 的序列,一个普通 RNN 需要执行多少个串行处理步骤?如果整段序列已经拿到,一个标准全序列 Transformer 在推理时需要多少个按 token 串行的步骤?机器学习简单数值题未尝试面试订阅4320注意力矩阵内存一个全注意力模型使用 L=1024 个 token,并以 float16 存储每个头的一张注意力分数矩阵。一个头的分数矩阵大约占多少内存?机器学习简单数值题未尝试面试订阅