INTERVIEW PREP

数学与非代码面试题

覆盖数学、概率、统计、脑筋急转弯、机器学习和金融。这里负责筛选和进入单题；编程题使用独立的 LeetCode 式 coding lab。

做诊断按领域练习按面试风格练习代码题库

题目: 4169
领域: 8
当前筛选: 235

第 8 / 12 页

非代码面试题

显示 20 / 235 道匹配题目

答题状态：未尝试未正确已正确

ID题目领域难度题型进度权限

2597带权区域更新值 2若 boosting 某个区域 R 内的样本带有正权重 w i，推导能使 sum i in R w i (r i-gamma) 2 最小的常数更新 gamma。机器学习简单derivation未尝试免费 2598三轮 boosting 之后的最终预测 23某个 boosting 模型从 F 0(x)=10 开始。对某个观测而言，连续三轮落到的叶节点更新分别是 +1.2、-0.5、+0.8，且每轮学习率 eta=0.1。最终预测是多少？机器学习中等数值题未尝试免费 2608两次 shrinkage 更新后的残差 24某个点当前的残差是 6。两轮 boosting 中，它所在区域的叶节点更新分别为 1.5 和 0.8，且两轮学习率都为 eta=0.2。两轮之后还剩多少残差？机器学习中等数值题未尝试免费 2610eta 与 gamma 的缩放互逆不变性 6为什么把每一轮的叶节点更新 gamma m 都乘以 c，同时把学习率 eta 除以 c，会让最终加性得分保持不变？机器学习困难derivation未尝试面试订阅 2621残差块的梯度公式 1一个标量残差块输出 y = x + f(x)。推导 dy/dx。机器学习简单derivation未尝试免费 2622全局范数裁剪公式 2某个梯度向量 g 的范数 ||g|| 大于裁剪阈值 c。请推导标准全局范数裁剪后的梯度。机器学习简单derivation未尝试免费 2625解耦权重衰减的更新公式 4在解耦权重衰减下，给定学习率 eta、衰减系数 lambda、当前参数 w t 和梯度 g t，推导 w t+1 。机器学习困难derivation未尝试免费 2627线性 warmup 调度公式 5学习率在 T 个 step 内从 0 线性 warmup 到 eta max。请推导 warmup 阶段第 t 步的 eta t。机器学习中等derivation未尝试免费 2629从零初始化展开 EMA 公式 6设 m t = beta m t-1 + (1-beta) x t，且 m 0=0。把 m t 展开成 x 1,...,x t 的显式加权和。机器学习中等derivation未尝试免费 2630为什么 BatchNorm 会在分布漂移下出问题 21为什么一个训练时依赖 BatchNorm 表现很好的网络，在部署分布发生漂移后，推理时却可能表现异常？机器学习困难essay未尝试免费 2631共享参数的梯度会沿多条路径相加 7某个参数 w 被两条分支共享使用，这两条分支对总损失的贡献分别是 L 1(w) 与 L 2(w)。那么 d(L 1+L 2)/dw 等于什么？机器学习简单derivation未尝试免费 2632warmup 学习率的数值计算 17某个线性 warmup 会在 10 个 step 内把学习率从 0 拉到 0.001。warmup 的第 t=3 步使用的学习率是多少？机器学习简单数值题未尝试免费 2634batch 平均损失的梯度 9若一个 minibatch 的损失是平均形式 L = (1/B) sum i=1 B L i，请用单样本梯度推导 dL/dw。机器学习困难derivation未尝试免费 2635为什么 warmup 对大 batch 训练有帮助 22为什么在使用很大的 batch 训练时，学习率 warmup 往往会有帮助？机器学习困难essay未尝试免费 2637ReLU 的局部导数 10对于 ReLU(z)=max(0,z)，在 z>0 与 z<0 两种情况下，反向传播分别使用什么导数？机器学习中等derivation未尝试免费 2639恒定梯度下动量的稳态值 11若 v t = beta v t-1 + g，且梯度 g 为常数、|beta|<1，那么 v t 会收敛到什么常数？机器学习困难derivation未尝试免费 2640余弦衰减调度公式 12某个学习率在 T 个 step 内用余弦退火从 eta max 衰减到 eta min。请写出第 t 步的 eta t。机器学习困难derivation未尝试免费 2641为什么裁剪能治爆炸却治不了消失 23为什么梯度裁剪是处理梯度爆炸的自然办法，却不是解决梯度消失的办法？机器学习简单essay未尝试免费 2642BatchNorm 运行均值更新公式 13某个 BatchNorm 层按 mu new = m mu old + (1-m) mu batch 更新运行均值。这个公式在操作上意味着什么？机器学习简单derivation未尝试免费 2643向量参数上的裁剪加权重衰减计算 25参数向量当前为 w t=(3,4)。其梯度是 g=(6,8)，范数为 10。先做阈值为 5 的全局范数裁剪，再做学习率 eta=0.1、lambda=0.1 的解耦权重衰减更新。新的参数向量是多少？机器学习中等数值题未尝试面试订阅