INTERVIEW PREP

数学与非代码面试题

覆盖数学、概率、统计、脑筋急转弯、机器学习和金融。这里负责筛选和进入单题；编程题使用独立的 LeetCode 式 coding lab。

做诊断按领域练习按面试风格练习代码题库

题目: 4169
领域: 8
当前筛选: 420

第 8 / 21 页

非代码面试题

显示 20 / 420 道匹配题目

答题状态：未尝试未正确已正确

ID题目领域难度题型进度权限

4293解耦权重衰减一步更新 3某个参数当前取值 w = 2.0，梯度 g = 0.3。采用解耦权重衰减更新公式 w new = (1 - eta*lambda) w - eta*g，其中 eta = 0.1、lambda = 0.05。一步更新后的参数是多少？机器学习简单数值题未尝试面试订阅 4294max-norm 裁剪后的权重 4某层的权重向量为 w = (3, 4)，其范数为 5。现在使用上限 c = 4 的 max-norm 正则，并在范数超标时按比例缩放。裁剪后保存的向量是什么？机器学习简单数值题未尝试面试订阅 4295L1 软阈值收缩 5某个优化器使用 proximal L1 收缩步骤 sign(w)*max(|w| - tau, 0)。如果更新前的权重是 w = 0.7，tau = 0.2，那么收缩后的权重是多少？机器学习简单数值题未尝试面试订阅 4296权重衰减增强后的额外收缩 6保持 eta = 0.1、梯度 g = 0.3、当前权重 w = 2.0 不变。若在解耦更新 w new = (1 - eta*lambda)w - eta*g 中，把 lambda 从 0.05 提高到 0.10，那么相对于旧 lambda 情形，更新后权重会再下降多少？机器学习中等数值题未尝试面试订阅 4297标准 dropout 的期望激活变化 7某个单元在标准 dropout 之前的激活值为 2.0，也就是说被丢弃时输出 0，被保留时输出仍为 2.0。如果 keep probability 从 0.8 降到 0.5，那么 dropout 后的期望激活会变成多少？机器学习中等数值题未尝试面试订阅 4298标签平滑加重后的真实类目标变化 8一个 5 分类模型把 epsilon 均匀分配到全部类别上做标签平滑。如果 epsilon 从 0.1 提高到 0.3，那么真实类别对应的目标值会变化多少？机器学习中等数值题未尝试面试订阅 4300L1 阈值加大后的输出 10某个 proximal L1 步骤使用 sign(w)*max(|w| - tau, 0)。若更新前的权重是 0.6，当 tau 从 0.2 提高到 0.5 时，新的输出是多少？机器学习中等数值题未尝试面试订阅 4316注意力分数数量一个 Transformer 层处理 L=256 个 token，头数 H=8。不考虑 value 维度时，所有头总共会形成多少个原始注意力分数条目？机器学习简单数值题未尝试面试订阅 4317堆叠 CNN 感受野一个 1D CNN 叠了 6 层因果卷积，kernel size 为 3，stride 为 1，且没有 dilation。感受野是多少个 token？机器学习简单数值题未尝试面试订阅 4318空洞 CNN 覆盖范围一个因果 CNN 使用 4 层、kernel size 为 3、dilation 依次为 1、2、4、8。一个输出 token 最多可以直接聚合多长的依赖范围？机器学习简单数值题未尝试面试订阅 4319串行深度比较对于长度为 512 的序列，一个普通 RNN 需要执行多少个串行处理步骤？如果整段序列已经拿到，一个标准全序列 Transformer 在推理时需要多少个按 token 串行的步骤？机器学习简单数值题未尝试面试订阅 4320注意力矩阵内存一个全注意力模型使用 L=1024 个 token，并以 float16 存储每个头的一张注意力分数矩阵。一个头的分数矩阵大约占多少内存？机器学习简单数值题未尝试面试订阅 4326序列长度翻倍的成本冲击一个局部 CNN 的交互规模约为 7L，而一个 Transformer 注意力块的分数对规模约为 L 2。若 L 从 256 翻倍到 512，两者的交互数量分别增长多少倍？哪类架构碰到更陡的扩展墙？机器学习中等essay未尝试面试订阅 4327更长依赖所需的 CNN 深度一个 stride=1、kernel size=3、无 dilation 的 CNN，要覆盖 9 步依赖需要 4 层。如果所需依赖范围升到 41 步，需要多少层？这说明了什么结构压力？机器学习中等essay未尝试面试订阅 4328小样本制度切换假设任务仍然强烈依赖局部且具有平移等变性，但你的标注数据量缩小到原来的十分之一。哪类架构会变得更有吸引力？为什么数据制度的变化会影响这个选择？机器学习中等essay未尝试面试订阅 4329延迟预算放松一个任务原先必须完全在线处理，因此递归或因果卷积更合适。若部署方式改成离线批量打分，整段序列都可一次性获得，哪类架构会从这种放松中获益最大？机器学习中等essay未尝试面试订阅 4330从局部结构变成全局结构一个预测问题原本只依赖短局部模式，但产品改版后，标签现在要看序列前四分之一和后四分之一信息是否匹配。哪类架构应当在备选排序中上升？机器学习中等essay未尝试面试订阅 4341由流行率与 TPR/FPR 推精确率 1在某个固定阈值下，正例流行率为 20%，TPR 为 80%，FPR 为 10%。这对应的 precision 是多少？机器学习简单数值题未尝试面试订阅 4342流行率漂移下的 precision 2某个欺诈模型在新市场里仍保持 TPR = 0.90、FPR = 0.03，但正例流行率从 10% 降到了 2%。在同一阈值下，现在应预期什么 precision？机器学习简单数值题未尝试面试订阅 4343Brier 分数计算 3预测概率为 [0.8, 0.6, 0.3, 0.1]，真实标签为 [1, 0, 1, 0]。Brier score 是多少？机器学习简单数值题未尝试面试订阅