GLOBAL SEARCH

搜索课程、模块、题目与收藏题单

搜索在服务端完成，题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。

全部 · 4546 课程 · 299 模块 · 72 题目 · 4169 帮助 · 6 收藏题单 · 0

找到 30 个结果

English questions

模块2.5.2 · 数学与统计能力 · 最优化

迭代法与正则化方法

optimization · gradient-descent · line-search · convergence · iterative-methods · newton-method · quasi-newton · bfgs

题目2634 · 机器学习

batch 平均损失的梯度 9

若一个 minibatch 的损失是平均形式 L = (1/B) sum_{i=1}^B L_i，请用单样本梯度推导 dL/dw。

题目2642 · 机器学习

BatchNorm 运行均值更新公式 13

某个 BatchNorm 层按 mu_new = m mu_old + (1-m) mu_batch 更新运行均值。这个公式在操作上意味着什么？

题目2633 · 机器学习

LayerNorm 对整体平移的不变性 8

忽略可学习仿射参数时，为什么给一个向量的每个坐标都加上同一个常数 a，不会改变 LayerNorm 之后的激活？

题目2523 · 机器学习

logistic 负对数似然的梯度 3

对单个观测 (x,y)，其中 y in {0,1}，打分为 z = w^T x。其负对数似然关于 w 的梯度是什么？

题目2637 · 机器学习

ReLU 的局部导数 10

对于 ReLU(z)=max(0,z)，在 z>0 与 z<0 两种情况下，反向传播分别使用什么导数？

题目2623 · 机器学习

一次动量更新的数值计算 15

设动量按 v_t = beta v_{t-1} + g_t 更新，其中 beta=0.9、前一时刻速度 v_{t-1}=0.5、当前梯度 g_t=2。v_t 是多少？

题目2608 · 机器学习

两次 shrinkage 更新后的残差 24

某个点当前的残差是 6。两轮 boosting 中，它所在区域的叶节点更新分别为 1.5 和 0.8，且两轮学习率都为 eta=0.2。两轮之后还剩多少残差？

题目2630 · 机器学习

为什么 BatchNorm 会在分布漂移下出问题 21

为什么一个训练时依赖 BatchNorm 表现很好的网络，在部署分布发生漂移后，推理时却可能表现异常？

题目2524 · 机器学习

为什么 logistic 回归没有闭式解 5

为什么 logistic 回归通常需要迭代优化，而不像 OLS 那样有正规方程式的闭式解？

题目2635 · 机器学习

为什么 warmup 对大 batch 训练有帮助 22

为什么在使用很大的 batch 训练时，学习率 warmup 往往会有帮助？

题目2526 · 机器学习

为什么可分数据会把系数往外推 7

为什么在完全线性可分且不加正则的情况下，logistic 回归系数往往会发散？

题目2515 · 机器学习

为什么小 lambda 意味着弱正则 20

为什么很小的 lambda 会让正则化解贴近 OLS？

题目2628 · 机器学习

为什么残差连接能帮助深网训练 20

为什么残差连接通常会让非常深的网络更容易优化？

题目2640 · 机器学习

余弦衰减调度公式 12

某个学习率在 T 个 step 内用余弦退火从 eta_max 衰减到 eta_min。请写出第 t 步的 eta_t。

题目2626 · 机器学习

全局范数裁剪的数值计算 16

梯度向量 g=(6,8)，其范数为 10。若裁剪阈值是 5，裁剪后得到什么梯度？

题目2624 · 机器学习

动量项展开成几何级数 3

若动量满足 v_t = beta v_{t-1} + g_t，请把 v_t 展开成 v_0 与过去梯度 g_1,...,g_t 的表达式。

题目2643 · 机器学习

向量参数上的裁剪加权重衰减计算 25

参数向量当前为 w_t=(3,4)。其梯度是 g=(6,8)，范数为 10。先做阈值为 5 的全局范数裁剪，再做学习率 eta=0.1、lambda=0.1 的解耦权重衰减更新。新的参数向量是多少？

题目2597 · 机器学习

带权区域更新值 2

若 boosting 某个区域 R 内的样本带有正权重 w_i，推导能使 sum_{i in R} w_i (r_i-gamma)^2 最小的常数更新 gamma。

题目2596 · 机器学习

平方损失下叶节点最优更新值 1

在平方误差的梯度提升里，某个终端区域 R 会被赋予一个常数更新 gamma。推导能使 sum_{i in R} (r_i-gamma)^2 最小的 gamma，其中 r_i 是当前残差。

题目2639 · 机器学习

恒定梯度下动量的稳态值 11

若 v_t = beta v_{t-1} + g，且梯度 g 为常数、|beta|<1，那么 v_t 会收敛到什么常数？

课程迭代法与正则化方法 · 最优化

梯度下降与线搜索

周五下午两点，你在上海某私募的因子研究组里收到一张 12,000 × 600 的设计矩阵——600 个候选 alpha 因子在沪深300 成分股上 18 个月日频的横截面暴露。组合经理希望你下班前给一组系数，明早接入回测。你写下普通最小二乘（ordinary least squares, OLS）的闭式解 beta = np.linalg.solve(X.T...

课程迭代法与正则化方法 · 最优化

正则化最小二乘:岭回归与 Lasso

深圳某私募的多因子研究员手头有 60 个交易日的沪深300 成分股横截面收益,外加一份「因子动物园」(factor zoo)清单:动量、价值、质量、低波,再加上 70 多个另类与基本面因子,合计公式个候选预测变量、公式个观测——一个典型的公式病态设计矩阵。她直接套用上一模块的普通最小二乘(ordinary least squares, OLS),解...

题目2638 · 机器学习

残差路径梯度的数值计算 19

某个标量残差块满足 y=x+f(x)，其中 f(x)=3x^2。x=1 时的 dy/dx 是多少？

课程迭代法与正则化方法 · 最优化

牛顿法与拟牛顿法

周一开盘后 15 分钟，沪深300 ETF 期权（300ETF options on SSE）的隐含波动率（implied volatility, IV）整体上抬了 3 个 vol。你在一家私募的做市账户上挂着一组 50ETF 与 300ETF 近月平值 call，定价模型需要把每张合约的市场报价反推成 IV。上一节用梯度下降跑过同样的题：在某些深度虚值（o...

题目2522 · 机器学习

由正样本比例求截距 2

在仅截距的 logistic 模型里，若拟合概率为 p_hat，什么样的截距 b 满足 sigma(b)=p_hat？

题目2636 · 机器学习

解耦权重衰减的数值计算 18

某个标量参数当前值为 w_t=2，梯度 g_t=0.5，学习率 eta=0.1，解耦权重衰减 lambda=0.05。w_{t+1} 是多少？

课程迭代法与正则化方法 · 最优化

随机与小批量优化方法

钩子：当一次完整梯度要四个小时某上海百亿私募的研究员准备把一套基于沪深300 成分股的多因子神经网络 α 信号搬上生产。训练集是过去 5 年的日频面板：约 180 万行样本 × 300 只成分股 × 80 个特征。前两课的工具一一被排除——海森矩阵（Hessian matrix, 公式）装不进显存，L BFGS 一次方向计算也要把整批数据过一遍。退到最朴素...

题目2492 · 机器学习

为什么特征缩放对梯度下降比对闭式解更重要 22

为什么特征缩放对用梯度下降训练 OLS 往往很关键，而闭式解本身却又是尺度等变的？

题目2541 · 机器学习

单个 logistic 观测的一步梯度更新 22

对一个观测，若 x = 2、y = 1、当前权重 w = 0、学习率 eta = 0.4，那么对负对数似然做一步梯度下降更新后的权重是多少？