GLOBAL SEARCH

搜索课程、模块、题目与收藏题单

搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。

找到 30 个结果

中文题目
题目2634 · 机器学习

Batch-Average Gradient 9

If the minibatch loss is the average L = (1/B) sum_{i=1}^B L_i, derive dL/dw in terms of the per-example gradients.

打开 →
题目2534 · 机器学习

One Gradient Step on a Tiny Logistic Problem

A one-feature logistic model without intercept uses beta = 0 initially, learning rate 0.2, data x = [-1, 0, 1], and labels y = [0, 0, 1]. What is beta after one gradient step on the negative log-likelihood?

打开 →
题目2643 · 机器学习

Clipping Plus Weight Decay on a Vector 25

A parameter vector is w_t=(3,4). Its gradient is g=(6,8), whose norm is 10. Apply global-norm clipping with threshold 5, then a decoupled weight-decay step with learning rate eta=0.1 and lambda=0.1. What is the new parameter vector?

打开 →
题目2623 · 机器学习

One Momentum Update 15

Suppose momentum uses v_t = beta v_{t-1} + g_t with beta=0.9, previous velocity v_{t-1}=0.5, and current gradient g_t=2. What is v_t?

打开 →
题目2596 · 机器学习

Optimal Leaf Update Under Squared Loss 1

In gradient boosting for squared error, a terminal region R is assigned one constant update gamma. Derive the gamma that minimizes sum_{i in R} (r_i-gamma)^2, where r_i are the current residuals.

打开 →
模块2.5.2 · 数学与统计能力 · 最优化

迭代法与正则化方法

optimization · gradient-descent · line-search · convergence · iterative-methods · newton-method · quasi-newton · bfgs

打开 →
课程面向最优化的微积分 · 线性代数与微积分

链式法则与雅可比矩阵

Hook:一次梯度核对失败的复盘 上海某量化私募的小组复盘会上,工程师摊开一张 PnL 时序图:基于沪深300 成分股的因子神经网络回测里,梯度核对(gradient check)数值在第三层之后开始与解析梯度系统性偏离一个常数倍。CFFEX 主力合约的日线策略本来 7 月稳得像一块表,过完一个版本后突然走样——根因追下来是一行被写反的 transpose ...

打开 →
模块2.4.2 · 数学与统计能力 · 线性代数与微积分

面向最优化的微积分

calculus · gradient · directional-derivative · optimization · chain-rule · jacobian · backpropagation · taylor-expansion

打开 →
课程面向最优化的微积分 · 线性代数与微积分

梯度与方向导数

Hook:风控室里的一行警告 周三盘中两点四十,上海某私募基金的多因子组合管理岗位上,你刚收到风控的一行警告:「沪深300 成分股口径下,当前权重 公式 对应的组合方差曲面在某只大盘消费品权重方向上斜率最大——加一个百分点的仓位,组合方差大致抬升 0.6 个 bp²。」 这一句话里其实只藏着一个数学对象:函数 公式 在当前点 公式 处的​ ​梯度(gradi...

打开 →
课程迭代法与正则化方法 · 最优化

随机与小批量优化方法

钩子:当一次完整梯度要四个小时 某上海百亿私募的研究员准备把一套基于沪深300 成分股的多因子神经网络 α 信号搬上生产。训练集是过去 5 年的日频面板:约 180 万行样本 × 300 只成分股 × 80 个特征。前两课的工具一一被排除——海森矩阵(Hessian matrix, 公式)装不进显存,L BFGS 一次方向计算也要把整批数据过一遍。退到最朴素...

打开 →