全站搜索 — 锐望实验室

全部 · 4546 课程 · 299 模块 · 72 题目 · 4169 帮助 · 6 收藏题单 · 0

找到 30 个结果

English questions

模块2.5.2 · 数学与统计能力 · 最优化

迭代法与正则化方法

optimization · gradient-descent · line-search · convergence · iterative-methods · newton-method · quasi-newton · bfgs

打开 →

课程面向最优化的微积分 · 线性代数与微积分

链式法则与雅可比矩阵

Hook：一次梯度核对失败的复盘上海某量化私募的小组复盘会上，工程师摊开一张 PnL 时序图：基于沪深300 成分股的因子神经网络回测里，梯度核对（gradient check）数值在第三层之后开始与解析梯度系统性偏离一个常数倍。CFFEX 主力合约的日线策略本来 7 月稳得像一块表，过完一个版本后突然走样——根因追下来是一行被写反的 transpose ...

打开 →

模块2.4.2 · 数学与统计能力 · 线性代数与微积分

面向最优化的微积分

calculus · gradient · directional-derivative · optimization · chain-rule · jacobian · backpropagation · taylor-expansion

打开 →

题目2634 · 机器学习

batch 平均损失的梯度 9

若一个 minibatch 的损失是平均形式 L = (1/B) sum_{i=1}^B L_i，请用单样本梯度推导 dL/dw。

打开 →

题目2523 · 机器学习

logistic 负对数似然的梯度 3

对单个观测 (x,y)，其中 y in {0,1}，打分为 z = w^T x。其负对数似然关于 w 的梯度是什么？

打开 →

题目2623 · 机器学习

一次动量更新的数值计算 15

设动量按 v_t = beta v_{t-1} + g_t 更新，其中 beta=0.9、前一时刻速度 v_{t-1}=0.5、当前梯度 g_t=2。v_t 是多少？

打开 →

题目2626 · 机器学习

全局范数裁剪的数值计算 16

梯度向量 g=(6,8)，其范数为 10。若裁剪阈值是 5，裁剪后得到什么梯度？

打开 →

题目2631 · 机器学习

共享参数的梯度会沿多条路径相加 7

某个参数 w 被两条分支共享使用，这两条分支对总损失的贡献分别是 L_1(w) 与 L_2(w)。那么 d(L_1+L_2)/dw 等于什么？

打开 →

题目2624 · 机器学习

动量项展开成几何级数 3

若动量满足 v_t = beta v_{t-1} + g_t，请把 v_t 展开成 v_0 与过去梯度 g_1,...,g_t 的表达式。

打开 →

题目2643 · 机器学习

向量参数上的裁剪加权重衰减计算 25

参数向量当前为 w_t=(3,4)。其梯度是 g=(6,8)，范数为 10。先做阈值为 5 的全局范数裁剪，再做学习率 eta=0.1、lambda=0.1 的解耦权重衰减更新。新的参数向量是多少？

打开 →

题目2596 · 机器学习

平方损失下叶节点最优更新值 1

在平方误差的梯度提升里，某个终端区域 R 会被赋予一个常数更新 gamma。推导能使 sum_{i in R} (r_i-gamma)^2 最小的 gamma，其中 r_i 是当前残差。

打开 →

题目2639 · 机器学习

恒定梯度下动量的稳态值 11

若 v_t = beta v_{t-1} + g，且梯度 g 为常数、|beta|<1，那么 v_t 会收敛到什么常数？

打开 →

课程面向最优化的微积分 · 线性代数与微积分

梯度与方向导数

Hook：风控室里的一行警告周三盘中两点四十，上海某私募基金的多因子组合管理岗位上，你刚收到风控的一行警告：「沪深300 成分股口径下，当前权重公式对应的组合方差曲面在某只大盘消费品权重方向上斜率最大——加一个百分点的仓位，组合方差大致抬升 0.6 个 bp²。」这一句话里其实只藏着一个数学对象：函数公式在当前点公式处的梯度（gradi...

打开 →

题目2621 · 机器学习

残差块的梯度公式 1

一个标量残差块输出 y = x + f(x)。推导 dy/dx。

打开 →

题目2638 · 机器学习

残差路径梯度的数值计算 19

某个标量残差块满足 y=x+f(x)，其中 f(x)=3x^2。x=1 时的 dy/dx 是多少？

打开 →

题目2636 · 机器学习

解耦权重衰减的数值计算 18

某个标量参数当前值为 w_t=2，梯度 g_t=0.5，学习率 eta=0.1，解耦权重衰减 lambda=0.05。w_{t+1} 是多少？

打开 →

题目2625 · 机器学习

解耦权重衰减的更新公式 4

在解耦权重衰减下，给定学习率 eta、衰减系数 lambda、当前参数 w_t 和梯度 g_t，推导 w_{t+1}。

打开 →

课程迭代法与正则化方法 · 最优化

随机与小批量优化方法

钩子：当一次完整梯度要四个小时某上海百亿私募的研究员准备把一套基于沪深300 成分股的多因子神经网络 α 信号搬上生产。训练集是过去 5 年的日频面板：约 180 万行样本 × 300 只成分股 × 80 个特征。前两课的工具一一被排除——海森矩阵（Hessian matrix, 公式）装不进显存，L BFGS 一次方向计算也要把整批数据过一遍。退到最朴素...

打开 →

题目2642 · 机器学习

BatchNorm 运行均值更新公式 13

某个 BatchNorm 层按 mu_new = m mu_old + (1-m) mu_batch 更新运行均值。这个公式在操作上意味着什么？

打开 →

题目2633 · 机器学习

LayerNorm 对整体平移的不变性 8

忽略可学习仿射参数时，为什么给一个向量的每个坐标都加上同一个常数 a，不会改变 LayerNorm 之后的激活？

打开 →

题目2637 · 机器学习

ReLU 的局部导数 10

对于 ReLU(z)=max(0,z)，在 z>0 与 z<0 两种情况下，反向传播分别使用什么导数？

打开 →

课程面向最优化的微积分 · 线性代数与微积分

一阶最优性与凸性

Hook：两个看起来都「会优化」的求解器上海某私募基金的两位研究员同时打开 Python，一位在跑一个标的为沪深300 成分股、目标为均值方差优化（mean variance optimization）的组合优化（portfolio optimization）问题，另一位在调一个三层的因子神经网络。两人用的迭代算法是同一份梯度下降代码，第一位 200 步就...

打开 →

题目2608 · 机器学习