第 8 / 21 页
非代码面试题
显示 20 / 420 道匹配题目
答题状态:未尝试未正确已正确
ID题目领域难度题型进度权限
4293解耦权重衰减一步更新 3某个参数当前取值 w = 2.0,梯度 g = 0.3。采用解耦权重衰减更新公式 w new = (1 - eta*lambda) w - eta*g,其中 eta = 0.1、lambda = 0.05。一步更新后的参数是多少?机器学习简单数值题未尝试面试订阅4294max-norm 裁剪后的权重 4某层的权重向量为 w = (3, 4),其范数为 5。现在使用上限 c = 4 的 max-norm 正则,并在范数超标时按比例缩放。裁剪后保存的向量是什么?机器学习简单数值题未尝试面试订阅4295L1 软阈值收缩 5某个优化器使用 proximal L1 收缩步骤 sign(w)*max(|w| - tau, 0)。如果更新前的权重是 w = 0.7,tau = 0.2,那么收缩后的权重是多少?机器学习简单数值题未尝试面试订阅4296权重衰减增强后的额外收缩 6保持 eta = 0.1、梯度 g = 0.3、当前权重 w = 2.0 不变。若在解耦更新 w new = (1 - eta*lambda)w - eta*g 中,把 lambda 从 0.05 提高到 0.10,那么相对于旧 lambda 情形,更新后权重会再下降多少?机器学习中等数值题未尝试面试订阅4297标准 dropout 的期望激活变化 7某个单元在标准 dropout 之前的激活值为 2.0,也就是说被丢弃时输出 0,被保留时输出仍为 2.0。如果 keep probability 从 0.8 降到 0.5,那么 dropout 后的期望激活会变成多少?机器学习中等数值题未尝试面试订阅4298标签平滑加重后的真实类目标变化 8一个 5 分类模型把 epsilon 均匀分配到全部类别上做标签平滑。如果 epsilon 从 0.1 提高到 0.3,那么真实类别对应的目标值会变化多少?机器学习中等数值题未尝试面试订阅4300L1 阈值加大后的输出 10某个 proximal L1 步骤使用 sign(w)*max(|w| - tau, 0)。若更新前的权重是 0.6,当 tau 从 0.2 提高到 0.5 时,新的输出是多少?机器学习中等数值题未尝试面试订阅4316注意力分数数量一个 Transformer 层处理 L=256 个 token,头数 H=8。不考虑 value 维度时,所有头总共会形成多少个原始注意力分数条目?机器学习简单数值题未尝试面试订阅4317堆叠 CNN 感受野一个 1D CNN 叠了 6 层因果卷积,kernel size 为 3,stride 为 1,且没有 dilation。感受野是多少个 token?机器学习简单数值题未尝试面试订阅4318空洞 CNN 覆盖范围一个因果 CNN 使用 4 层、kernel size 为 3、dilation 依次为 1、2、4、8。一个输出 token 最多可以直接聚合多长的依赖范围?机器学习简单数值题未尝试面试订阅4319串行深度比较对于长度为 512 的序列,一个普通 RNN 需要执行多少个串行处理步骤?如果整段序列已经拿到,一个标准全序列 Transformer 在推理时需要多少个按 token 串行的步骤?机器学习简单数值题未尝试面试订阅4320注意力矩阵内存一个全注意力模型使用 L=1024 个 token,并以 float16 存储每个头的一张注意力分数矩阵。一个头的分数矩阵大约占多少内存?机器学习简单数值题未尝试面试订阅4326序列长度翻倍的成本冲击一个局部 CNN 的交互规模约为 7L,而一个 Transformer 注意力块的分数对规模约为 L 2。若 L 从 256 翻倍到 512,两者的交互数量分别增长多少倍?哪类架构碰到更陡的扩展墙?机器学习中等essay未尝试面试订阅4327更长依赖所需的 CNN 深度一个 stride=1、kernel size=3、无 dilation 的 CNN,要覆盖 9 步依赖需要 4 层。如果所需依赖范围升到 41 步,需要多少层?这说明了什么结构压力?机器学习中等essay未尝试面试订阅4328小样本制度切换假设任务仍然强烈依赖局部且具有平移等变性,但你的标注数据量缩小到原来的十分之一。哪类架构会变得更有吸引力?为什么数据制度的变化会影响这个选择?机器学习中等essay未尝试面试订阅4329延迟预算放松一个任务原先必须完全在线处理,因此递归或因果卷积更合适。若部署方式改成离线批量打分,整段序列都可一次性获得,哪类架构会从这种放松中获益最大?机器学习中等essay未尝试面试订阅4330从局部结构变成全局结构一个预测问题原本只依赖短局部模式,但产品改版后,标签现在要看序列前四分之一和后四分之一信息是否匹配。哪类架构应当在备选排序中上升?机器学习中等essay未尝试面试订阅4341由流行率与 TPR/FPR 推精确率 1在某个固定阈值下,正例流行率为 20%,TPR 为 80%,FPR 为 10%。这对应的 precision 是多少?机器学习简单数值题未尝试面试订阅4342流行率漂移下的 precision 2某个欺诈模型在新市场里仍保持 TPR = 0.90、FPR = 0.03,但正例流行率从 10% 降到了 2%。在同一阈值下,现在应预期什么 precision?机器学习简单数值题未尝试面试订阅4343Brier 分数计算 3预测概率为 [0.8, 0.6, 0.3, 0.1],真实标签为 [1, 0, 1, 0]。Brier score 是多少?机器学习简单数值题未尝试面试订阅