L1 软阈值收缩 5
某个优化器使用 proximal L1 收缩步骤 sign(w)*max(|w| - tau, 0)。如果更新前的权重是 w = 0.7,tau = 0.2,那么收缩后的权重是多少?
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 19 个结果
English questions某个优化器使用 proximal L1 收缩步骤 sign(w)*max(|w| - tau, 0)。如果更新前的权重是 w = 0.7,tau = 0.2,那么收缩后的权重是多少?
打开 →某个 proximal L1 步骤使用 sign(w)*max(|w| - tau, 0)。若更新前的权重是 0.6,当 tau 从 0.2 提高到 0.5 时,新的输出是多少?
打开 →某层的权重向量为 w = (3, 4),其范数为 5。现在使用上限 c = 4 的 max-norm 正则,并在范数超标时按比例缩放。裁剪后保存的向量是什么?
打开 →你的验证指标每天噪声都很大。在把第一个局部峰值当作停止点之前,应该先校准什么?
打开 →同事把激进的数据增强当作万能解。你在接受这个方案前,第一步应该检查什么?
打开 →某个隐藏单元在 dropout 之前的激活值为 3.2。现在使用 keep probability 为 0.8 的 inverted dropout。如果这次训练中该单元被保留,那么 dropout 之后向前传递的值是多少?
打开 →一个分类器准确率已经不错,但对边界样本过于频繁地给出 99% 的置信度,而且标签中被认为含有少量噪声。哪种正则化调整最能针对这个失效模式?
打开 →你在一个很小的图像式信号数据集上训练模型,已知轻微平移和镜像翻转天然保持标签不变。网络又很容易把训练集拟合得过好。哪种正则化手段应该优先提到最前面?
打开 →随着 weight decay 增强,模型表现开始下降。你在下结论说“正则化不好”之前,应该先问关于信号结构的什么问题?
打开 →在一次效果一般的训练后,你很想把 dropout 从 0.2 直接加到 0.6。动手前最先应该回答的诊断问题是什么?
打开 →保持 eta = 0.1、梯度 g = 0.3、当前权重 w = 2.0 不变。若在解耦更新 w_new = (1 - eta*lambda)w - eta*g 中,把 lambda 从 0.05 提高到 0.10,那么相对于旧 lambda 情形,更新后权重会再下降多少?
打开 →某个单元在标准 dropout 之前的激活值为 2.0,也就是说被丢弃时输出 0,被保留时输出仍为 2.0。如果 keep probability 从 0.8 降到 0.5,那么 dropout 后的期望激活会变成多少?
打开 →一个 5 分类模型把 epsilon 均匀分配到全部类别上做标签平滑。如果 epsilon 从 0.1 提高到 0.3,那么真实类别对应的目标值会变化多少?
打开 →一个 4 分类器使用标签平滑,epsilon = 0.2,并且把 epsilon 均匀分配到全部 4 个类别上,包括真实类别。如果正确类别是第 3 类,训练时使用的平滑目标向量是什么?
打开 →在过参数化网络里,为什么脱离优化器和数据流程单独谈正则强度是错误的?
打开 →一个宽 MLP 在 8k 条表格数据上把训练 AUC 拉到 0.99,但验证 AUC 卡在 0.76。特征语义又不支持标签保持的数据增强,而且最大的权重集中在稀疏 one-hot 输入上。你首先应该尝试哪种正则化控制?
打开 →某个参数当前取值 w = 2.0,梯度 g = 0.3。采用解耦权重衰减更新公式 w_new = (1 - eta*lambda) w - eta*g,其中 eta = 0.1、lambda = 0.05。一步更新后的参数是多少?
打开 →两层隐藏层会记住成对同时出现的信号。样本内指标很好,但只要样本外其中一个信号稍有偏移,性能就会崩。哪种控制最适合抑制这种共适应?
打开 →训练损失在每个 epoch 都继续下降,但验证 Sharpe 在大约第 11 个 epoch 见顶后持续缓慢下滑。你既不打算改结构,也不改数据集。最合理的正则化动作是什么?
打开 →