全站搜索 — 锐望实验室

全部 · 4546 课程 · 299 模块 · 72 题目 · 4169 帮助 · 6 收藏题单 · 0

找到 30 个结果

English questions

题目3361 · 数学

为什么凸性会让 KKT 特别有力

为什么在很多凸优化问题里，KKT 条件不只是必要条件，而且也是充分条件？

打开 →

题目2634 · 机器学习

batch 平均损失的梯度 9

若一个 minibatch 的损失是平均形式 L = (1/B) sum_{i=1}^B L_i，请用单样本梯度推导 dL/dw。

打开 →

题目1793 · 统计

Elastic Net 的分组效应

两个特征几乎重复，但在经济上都很有意义。为什么 Elastic Net 在这种情况下常常比纯 Lasso 表现更好？

打开 →

题目2610 · 机器学习

eta 与 gamma 的缩放互逆不变性 6

为什么把每一轮的叶节点更新 gamma_m 都乘以 c，同时把学习率 eta 除以 c，会让最终加性得分保持不变？

打开 →

题目4295 · 机器学习

L1 软阈值收缩 5

某个优化器使用 proximal L1 收缩步骤 sign(w)*max(|w| - tau, 0)。如果更新前的权重是 w = 0.7，tau = 0.2，那么收缩后的权重是多少？

打开 →

题目1776 · 统计

Lasso 阈值校准 1

一个标准化 lasso 拟合的得分向量是 (4.1, 2.3, 1.7)。使所有系数都恰好变成 0 的最小 lambda 是多少？

打开 →

题目1779 · 统计

Lasso 阈值校准 4

在正交设计下的一步 lasso 更新中，某坐标的得分是 z = -3.2，惩罚参数 lambda = 0.7。软阈值之后的系数是多少？

打开 →

题目2633 · 机器学习

LayerNorm 对整体平移的不变性 8

忽略可学习仿射参数时，为什么给一个向量的每个坐标都加上同一个常数 a，不会改变 LayerNorm 之后的激活？

打开 →

题目2424 · 机器学习

log-cosh 损失的凸性 4

证明 ell(r)=ln cosh(r) 关于残差 r 是凸函数。

打开 →

题目2019 · 数学

Logistic 损失的凸性 24

证明 ell(z)=ln(1+e^{-z}) 在实数轴上是凸函数。

打开 →

题目4294 · 机器学习

max-norm 裁剪后的权重 4

某层的权重向量为 w = (3, 4)，其范数为 5。现在使用上限 c = 4 的 max-norm 正则，并在范数超标时按比例缩放。裁剪后保存的向量是什么？

打开 →

题目2060 · 数学

Newton 与不动点迭代的区别 15

如果二者在同一个根附近都表现良好，为什么 Newton 通常比朴素不动点迭代更快？

打开 →

题目2433 · 机器学习

pinball 损失在拐点处的次梯度 9

对 pinball 损失 rho_tau(r)=tau r（当 r>=0）且 (tau-1)r（当 r<0），在 r=0 处的次梯度集合是什么？

打开 →

题目2637 · 机器学习

ReLU 的局部导数 10

对于 ReLU(z)=max(0,z)，在 z>0 与 z<0 两种情况下，反向传播分别使用什么导数？

打开 →

题目3351 · 数学

x 便宜、y 昂贵的加权二次规划

最小化 $1x^2+3y^2$，约束为 $x+y\ge 4$。求 $(x^*,y^*)$ 以及 KKT 乘子。

打开 →

题目2623 · 机器学习

一次动量更新的数值计算 15

设动量按 v_t = beta v_{t-1} + g_t 更新，其中 beta=0.9、前一时刻速度 v_{t-1}=0.5、当前梯度 g_t=2。v_t 是多少？

打开 →

题目2429 · 机器学习

一组残差的总 Huber 损失

使用 delta = 1 的 Huber 损失，计算残差 0.5、-1.2、3.0 的总损失。

打开 →

题目5894 · 概率

一般赔率下的凯利下注比例

一个有利的赌注的净赔率为 $b$ 比 $1$：押注一定金额，以概率 $p$ 赢得所押金额的 $b$ 倍，以概率 $1-p$ 损失所押金额。每轮押注财富的比例 $f$，请用 $b$ 和 $p$ 推导增长最优的比例 $f^*$。

打开 →

题目2040 · 数学

三情景平方根冲击差距 20

设 V 以相等概率取 0、3、8。求 E[sqrt(1+V)] 与 sqrt(1+E[V])。

打开 →

题目2007 · 数学

三资产线的凸资产负债表惩罚 12

第三条资产线单独来看更贵，但总敞口项并不会破坏凸性。证明 F(w_1,w_2,w_3) = 1w_1^2 + 4w_2^2 + 9w_3^2 + 2(w_1+w_2+w_3)^2 是凸函数。

打开 →

题目2598 · 机器学习

三轮 boosting 之后的最终预测 23

某个 boosting 模型从 F_0(x)=10 开始。对某个观测而言，连续三轮落到的叶节点更新分别是 +1.2、-0.5、+0.8，且每轮学习率 eta=0.1。最终预测是多少？

打开 →

题目2550 · 机器学习

不对称交易代价下叶节点的最优标签

一个分类叶节点里有 6 个正样本和 14 个负样本。预测为正时，每个假阳性的代价是 1；预测为负时，每个假阴性的代价是 4。这个叶节点应该预测哪一类，才能最小化叶节点损失？

打开 →

题目2427 · 机器学习

不对称分类代价下的最优阈值

一次假阴性的代价是 5，一次假阳性的代价是 1。若 p 是正类的预测概率，那么当 p 高于什么阈值时，应把样本判成正类？

打开 →

题目2010 · 数学

两个仿射压力项最大值的平滑近似 15

最坏情形代理不再是硬 max，而是一个平滑的凸替代。证明 g(x) = ln(exp(2x) + exp(-1x + 3)) 在实数轴上是凸的。

打开 →

题目2608 · 机器学习

两次 shrinkage 更新后的残差 24

某个点当前的残差是 6。两轮 boosting 中，它所在区域的叶节点更新分别为 1.5 和 0.8，且两轮学习率都为 eta=0.2。两轮之后还剩多少残差？

打开 →

题目2032 · 数学

两状态利用率模型下的屏障分数差距 12

设 u(x)=-ln(1-x)，定义域为 x<1。若 U 以 1/2 的概率取 0，以 1/2 的概率取 3/4，求 E[u(U)] 与 u(E[U])。

打开 →

题目2024 · 数学

两种切片情景下的平方根冲击差距 4

子订单规模 V 以 1/2 的概率为 0，以 1/2 的概率为 3。计算 E[sqrt(1+V)] 与 sqrt(1+E[V])。

打开 →

题目2630 · 机器学习

为什么 BatchNorm 会在分布漂移下出问题 21

为什么一个训练时依赖 BatchNorm 表现很好的网络，在部署分布发生漂移后，推理时却可能表现异常？

打开 →

题目2599 · 机器学习

为什么 boosting 主要是在压偏差 9

为什么 boosting 通常被描述成“主要降偏差”的方法，而不是“主要降方差”的方法？

打开 →

题目2508 · 机器学习

为什么 elastic net 保留 lasso 阈值又额外加入 ridge 收缩 14

为什么 elastic net 仍然需要 |z| 先跨过一个 L1 阈值，坐标才会激活，但在激活之后又会比 lasso 收缩得更多？

打开 →