迭代法与正则化方法
optimization · gradient-descent · line-search · convergence · iterative-methods · newton-method · quasi-newton · bfgs
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 30 个结果
English questionsoptimization · gradient-descent · line-search · convergence · iterative-methods · newton-method · quasi-newton · bfgs
打开 →Hook:一次梯度核对失败的复盘 上海某量化私募的小组复盘会上,工程师摊开一张 PnL 时序图:基于沪深300 成分股的因子神经网络回测里,梯度核对(gradient check)数值在第三层之后开始与解析梯度系统性偏离一个常数倍。CFFEX 主力合约的日线策略本来 7 月稳得像一块表,过完一个版本后突然走样——根因追下来是一行被写反的 transpose ...
打开 →calculus · gradient · directional-derivative · optimization · chain-rule · jacobian · backpropagation · taylor-expansion
打开 →若一个 minibatch 的损失是平均形式 L = (1/B) sum_{i=1}^B L_i,请用单样本梯度推导 dL/dw。
打开 →对单个观测 (x,y),其中 y in {0,1},打分为 z = w^T x。其负对数似然关于 w 的梯度是什么?
打开 →设动量按 v_t = beta v_{t-1} + g_t 更新,其中 beta=0.9、前一时刻速度 v_{t-1}=0.5、当前梯度 g_t=2。v_t 是多少?
打开 →梯度向量 g=(6,8),其范数为 10。若裁剪阈值是 5,裁剪后得到什么梯度?
打开 →某个参数 w 被两条分支共享使用,这两条分支对总损失的贡献分别是 L_1(w) 与 L_2(w)。那么 d(L_1+L_2)/dw 等于什么?
打开 →若动量满足 v_t = beta v_{t-1} + g_t,请把 v_t 展开成 v_0 与过去梯度 g_1,...,g_t 的表达式。
打开 →参数向量当前为 w_t=(3,4)。其梯度是 g=(6,8),范数为 10。先做阈值为 5 的全局范数裁剪,再做学习率 eta=0.1、lambda=0.1 的解耦权重衰减更新。新的参数向量是多少?
打开 →在平方误差的梯度提升里,某个终端区域 R 会被赋予一个常数更新 gamma。推导能使 sum_{i in R} (r_i-gamma)^2 最小的 gamma,其中 r_i 是当前残差。
打开 →若 v_t = beta v_{t-1} + g,且梯度 g 为常数、|beta|<1,那么 v_t 会收敛到什么常数?
打开 →Hook:风控室里的一行警告 周三盘中两点四十,上海某私募基金的多因子组合管理岗位上,你刚收到风控的一行警告:「沪深300 成分股口径下,当前权重 公式 对应的组合方差曲面在某只大盘消费品权重方向上斜率最大——加一个百分点的仓位,组合方差大致抬升 0.6 个 bp²。」 这一句话里其实只藏着一个数学对象:函数 公式 在当前点 公式 处的 梯度(gradi...
打开 →一个标量残差块输出 y = x + f(x)。推导 dy/dx。
打开 →某个标量残差块满足 y=x+f(x),其中 f(x)=3x^2。x=1 时的 dy/dx 是多少?
打开 →某个标量参数当前值为 w_t=2,梯度 g_t=0.5,学习率 eta=0.1,解耦权重衰减 lambda=0.05。w_{t+1} 是多少?
打开 →在解耦权重衰减下,给定学习率 eta、衰减系数 lambda、当前参数 w_t 和梯度 g_t,推导 w_{t+1}。
打开 →钩子:当一次完整梯度要四个小时 某上海百亿私募的研究员准备把一套基于沪深300 成分股的多因子神经网络 α 信号搬上生产。训练集是过去 5 年的日频面板:约 180 万行样本 × 300 只成分股 × 80 个特征。前两课的工具一一被排除——海森矩阵(Hessian matrix, 公式)装不进显存,L BFGS 一次方向计算也要把整批数据过一遍。退到最朴素...
打开 →某个 BatchNorm 层按 mu_new = m mu_old + (1-m) mu_batch 更新运行均值。这个公式在操作上意味着什么?
打开 →忽略可学习仿射参数时,为什么给一个向量的每个坐标都加上同一个常数 a,不会改变 LayerNorm 之后的激活?
打开 →对于 ReLU(z)=max(0,z),在 z>0 与 z<0 两种情况下,反向传播分别使用什么导数?
打开 →Hook:两个看起来都「会优化」的求解器 上海某私募基金的两位研究员同时打开 Python,一位在跑一个标的为沪深300 成分股、目标为均值方差优化(mean variance optimization)的组合优化(portfolio optimization)问题,另一位在调一个三层的因子神经网络。两人用的迭代算法是同一份梯度下降代码,第一位 200 步就...
打开 →某个点当前的残差是 6。两轮 boosting 中,它所在区域的叶节点更新分别为 1.5 和 0.8,且两轮学习率都为 eta=0.2。两轮之后还剩多少残差?
打开 →为什么一个训练时依赖 BatchNorm 表现很好的网络,在部署分布发生漂移后,推理时却可能表现异常?
打开 →为什么 logistic 回归通常需要迭代优化,而不像 OLS 那样有正规方程式的闭式解?
打开 →为什么在使用很大的 batch 训练时,学习率 warmup 往往会有帮助?
打开 →为什么概率分类损失最好是严格真诚的,而不只是“分类准确”?
打开 →为什么在带截距的一元 OLS 中,对 x 和 y 做中心化不会改变拟合斜率?
打开 →为什么在带截距时,对特征和目标做中心化,常常能让 OLS 推导更干净?
打开 →为什么在完全线性可分且不加正则的情况下,logistic 回归系数往往会发散?
打开 →