为什么凸性会让 KKT 特别有力
为什么在很多凸优化问题里,KKT 条件不只是必要条件,而且也是充分条件?
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 30 个结果
English questions为什么在很多凸优化问题里,KKT 条件不只是必要条件,而且也是充分条件?
打开 →若一个 minibatch 的损失是平均形式 L = (1/B) sum_{i=1}^B L_i,请用单样本梯度推导 dL/dw。
打开 →两个特征几乎重复,但在经济上都很有意义。为什么 Elastic Net 在这种情况下常常比纯 Lasso 表现更好?
打开 →为什么把每一轮的叶节点更新 gamma_m 都乘以 c,同时把学习率 eta 除以 c,会让最终加性得分保持不变?
打开 →某个优化器使用 proximal L1 收缩步骤 sign(w)*max(|w| - tau, 0)。如果更新前的权重是 w = 0.7,tau = 0.2,那么收缩后的权重是多少?
打开 →一个标准化 lasso 拟合的得分向量是 (4.1, 2.3, 1.7)。使所有系数都恰好变成 0 的最小 lambda 是多少?
打开 →在正交设计下的一步 lasso 更新中,某坐标的得分是 z = -3.2,惩罚参数 lambda = 0.7。软阈值之后的系数是多少?
打开 →忽略可学习仿射参数时,为什么给一个向量的每个坐标都加上同一个常数 a,不会改变 LayerNorm 之后的激活?
打开 →证明 ell(r)=ln cosh(r) 关于残差 r 是凸函数。
打开 →证明 ell(z)=ln(1+e^{-z}) 在实数轴上是凸函数。
打开 →某层的权重向量为 w = (3, 4),其范数为 5。现在使用上限 c = 4 的 max-norm 正则,并在范数超标时按比例缩放。裁剪后保存的向量是什么?
打开 →如果二者在同一个根附近都表现良好,为什么 Newton 通常比朴素不动点迭代更快?
打开 →对 pinball 损失 rho_tau(r)=tau r(当 r>=0)且 (tau-1)r(当 r<0),在 r=0 处的次梯度集合是什么?
打开 →对于 ReLU(z)=max(0,z),在 z>0 与 z<0 两种情况下,反向传播分别使用什么导数?
打开 →最小化 $1x^2+3y^2$,约束为 $x+y\ge 4$。求 $(x^*,y^*)$ 以及 KKT 乘子。
打开 →设动量按 v_t = beta v_{t-1} + g_t 更新,其中 beta=0.9、前一时刻速度 v_{t-1}=0.5、当前梯度 g_t=2。v_t 是多少?
打开 →使用 delta = 1 的 Huber 损失,计算残差 0.5、-1.2、3.0 的总损失。
打开 →一个有利的赌注的净赔率为 $b$ 比 $1$:押注一定金额,以概率 $p$ 赢得所押金额的 $b$ 倍,以概率 $1-p$ 损失所押金额。每轮押注财富的比例 $f$,请用 $b$ 和 $p$ 推导增长最优的比例 $f^*$。
打开 →设 V 以相等概率取 0、3、8。求 E[sqrt(1+V)] 与 sqrt(1+E[V])。
打开 →第三条资产线单独来看更贵,但总敞口项并不会破坏凸性。 证明 F(w_1,w_2,w_3) = 1w_1^2 + 4w_2^2 + 9w_3^2 + 2(w_1+w_2+w_3)^2 是凸函数。
打开 →某个 boosting 模型从 F_0(x)=10 开始。对某个观测而言,连续三轮落到的叶节点更新分别是 +1.2、-0.5、+0.8,且每轮学习率 eta=0.1。最终预测是多少?
打开 →一个分类叶节点里有 6 个正样本和 14 个负样本。预测为正时,每个假阳性的代价是 1;预测为负时,每个假阴性的代价是 4。这个叶节点应该预测哪一类,才能最小化叶节点损失?
打开 →一次假阴性的代价是 5,一次假阳性的代价是 1。若 p 是正类的预测概率,那么当 p 高于什么阈值时,应把样本判成正类?
打开 →最坏情形代理不再是硬 max,而是一个平滑的凸替代。 证明 g(x) = ln(exp(2x) + exp(-1x + 3)) 在实数轴上是凸的。
打开 →某个点当前的残差是 6。两轮 boosting 中,它所在区域的叶节点更新分别为 1.5 和 0.8,且两轮学习率都为 eta=0.2。两轮之后还剩多少残差?
打开 →设 u(x)=-ln(1-x),定义域为 x<1。若 U 以 1/2 的概率取 0,以 1/2 的概率取 3/4,求 E[u(U)] 与 u(E[U])。
打开 →子订单规模 V 以 1/2 的概率为 0,以 1/2 的概率为 3。计算 E[sqrt(1+V)] 与 sqrt(1+E[V])。
打开 →为什么一个训练时依赖 BatchNorm 表现很好的网络,在部署分布发生漂移后,推理时却可能表现异常?
打开 →为什么 boosting 通常被描述成“主要降偏差”的方法,而不是“主要降方差”的方法?
打开 →为什么 elastic net 仍然需要 |z| 先跨过一个 L1 阈值,坐标才会激活,但在激活之后又会比 lasso 收缩得更多?
打开 →