INTERVIEW PREP

数学与非代码面试题

覆盖数学、概率、统计、脑筋急转弯、机器学习和金融。这里负责筛选和进入单题；编程题使用独立的 LeetCode 式 coding lab。

做诊断按领域练习按面试风格练习代码题库

题目: 4169
领域: 8
当前筛选: 26

第 1 / 2 页

非代码面试题

显示 20 / 26 道匹配题目

答题状态：未尝试未正确已正确

ID题目领域难度题型进度权限

2492为什么特征缩放对梯度下降比对闭式解更重要 22为什么特征缩放对用梯度下降训练 OLS 往往很关键，而闭式解本身却又是尺度等变的？机器学习简单essay未尝试免费 2515为什么小 lambda 意味着弱正则 20为什么很小的 lambda 会让正则化解贴近 OLS？机器学习困难derivation未尝试面试订阅 2522由正样本比例求截距 2在仅截距的 logistic 模型里，若拟合概率为 p hat，什么样的截距 b 满足 sigma(b)=p hat？机器学习简单derivation未尝试免费 2523logistic 负对数似然的梯度 3对单个观测 (x,y)，其中 y in 0,1 ，打分为 z = w T x。其负对数似然关于 w 的梯度是什么？机器学习中等derivation未尝试免费 2524为什么 logistic 回归没有闭式解 5为什么 logistic 回归通常需要迭代优化，而不像 OLS 那样有正规方程式的闭式解？机器学习中等essay未尝试免费 2526为什么可分数据会把系数往外推 7为什么在完全线性可分且不加正则的情况下，logistic 回归系数往往会发散？机器学习简单essay未尝试免费 2534在一个极小逻辑回归问题上做一次梯度更新一个无截距的一维逻辑回归模型初始 beta = 0，学习率为 0.2，数据为 x = [-1, 0, 1]，标签为 y = [0, 0, 1]。对负对数似然做一次梯度下降后，beta 变成多少？机器学习困难数值题未尝试面试订阅 2541单个 logistic 观测的一步梯度更新 22对一个观测，若 x = 2、y = 1、当前权重 w = 0、学习率 eta = 0.4，那么对负对数似然做一步梯度下降更新后的权重是多少？机器学习简单数值题未尝试免费 2596平方损失下叶节点最优更新值 1在平方误差的梯度提升里，某个终端区域 R 会被赋予一个常数更新 gamma。推导能使 sum i in R (r i-gamma) 2 最小的 gamma，其中 r i 是当前残差。机器学习简单derivation未尝试免费 2597带权区域更新值 2若 boosting 某个区域 R 内的样本带有正权重 w i，推导能使 sum i in R w i (r i-gamma) 2 最小的常数更新 gamma。机器学习简单derivation未尝试免费 2608两次 shrinkage 更新后的残差 24某个点当前的残差是 6。两轮 boosting 中，它所在区域的叶节点更新分别为 1.5 和 0.8，且两轮学习率都为 eta=0.2。两轮之后还剩多少残差？机器学习中等数值题未尝试免费 2623一次动量更新的数值计算 15设动量按 v t = beta v t-1 + g t 更新，其中 beta=0.9、前一时刻速度 v t-1 =0.5、当前梯度 g t=2。v t 是多少？机器学习中等数值题未尝试免费 2624动量项展开成几何级数 3若动量满足 v t = beta v t-1 + g t，请把 v t 展开成 v 0 与过去梯度 g 1,...,g t 的表达式。机器学习中等derivation未尝试免费 2626全局范数裁剪的数值计算 16梯度向量 g=(6,8)，其范数为 10。若裁剪阈值是 5，裁剪后得到什么梯度？机器学习简单数值题未尝试免费 2628为什么残差连接能帮助深网训练 20为什么残差连接通常会让非常深的网络更容易优化？机器学习中等essay未尝试免费 2630为什么 BatchNorm 会在分布漂移下出问题 21为什么一个训练时依赖 BatchNorm 表现很好的网络，在部署分布发生漂移后，推理时却可能表现异常？机器学习困难essay未尝试免费 2633LayerNorm 对整体平移的不变性 8忽略可学习仿射参数时，为什么给一个向量的每个坐标都加上同一个常数 a，不会改变 LayerNorm 之后的激活？机器学习中等derivation未尝试免费 2634batch 平均损失的梯度 9若一个 minibatch 的损失是平均形式 L = (1/B) sum i=1 B L i，请用单样本梯度推导 dL/dw。机器学习困难derivation未尝试免费 2635为什么 warmup 对大 batch 训练有帮助 22为什么在使用很大的 batch 训练时，学习率 warmup 往往会有帮助？机器学习困难essay未尝试免费 2636解耦权重衰减的数值计算 18某个标量参数当前值为 w t=2，梯度 g t=0.5，学习率 eta=0.1，解耦权重衰减 lambda=0.05。w t+1 是多少？机器学习简单数值题未尝试免费