全站搜索 — 锐望实验室

全部 · 4546 课程 · 299 模块 · 72 题目 · 4169 帮助 · 6 收藏题单 · 0

找到 30 个结果

模块2.6.1 · 数学与统计能力 · 机器学习理论

监督学习基础

machine-learning · statistical-learning · supervised-learning · erm · loss-functions · bayes-optimal · bias-variance · generalization

打开 →

题目1845 · 统计

ARMA 识别或化简 5

你观察到如下诊断结论： (1-0.5L) X_t = (1-0.5L) e_t。正确的建模结论是什么？

打开 →

题目2510 · 机器学习

lambda 为零时会回到 OLS 16

为什么 ridge 与 lasso 在正则化参数设为零时都会退化成 OLS？

打开 →

题目1777 · 统计

Lasso 阈值校准 2

一个标准化 lasso 拟合的绝对得分大小是 (3.8, 2.5, 0.9)。要让最弱的特征刚好变成 0、但另外两个仍保持活跃，最小的 lambda 是多少？

打开 →

题目2633 · 机器学习

LayerNorm 对整体平移的不变性 8

忽略可学习仿射参数时，为什么给一个向量的每个坐标都加上同一个常数 a，不会改变 LayerNorm 之后的激活？

打开 →

题目2431 · 机器学习

Pseudo-Huber 的梯度 8

对 pseudo-Huber 损失 ell(r)=delta^2(sqrt(1+(r/delta)^2)-1)，推导 d ell / d r。

打开 →

题目1787 · 统计

Ridge 有效自由度 2

一个标准化 ridge 模型的奇异值平方为 d_j^2 = [16, 4]，惩罚参数 lambda = 4。其有效自由度 tr(S_lambda) = sum d_j^2/(d_j^2+lambda) 等于多少？

打开 →

题目2499 · 机器学习

soft-threshold 后的 lasso 系数 4

在正交单特征问题里，若 x^T x = d、x^T y = z > 0，请推导 0 < lambda < z 时的 lasso 系数。

打开 →

题目2429 · 机器学习

一组残差的总 Huber 损失

使用 delta = 1 的 Huber 损失，计算残差 0.5、-1.2、3.0 的总损失。

打开 →

题目2408 · 机器学习

三个独立模型平均后的方差

3 个独立训练的模型方差都为 1.8，且偏差可以忽略。它们等权平均后的方差是多少？

打开 →

题目2427 · 机器学习

不对称分类代价下的最优阈值

一次假阴性的代价是 5，一次假阳性的代价是 1。若 p 是正类的预测概率，那么当 p 高于什么阈值时，应把样本判成正类？

打开 →

题目2422 · 机器学习

两个正向预测的对数损失差

某事件确实发生了（y=1）。预测 A 给出概率 0.9，预测 B 给出概率 0.7。B 的对数损失比 A 大多少？

打开 →

题目2397 · 机器学习

两类模型的样本量交叉点

模型 A 的额外测试 MSE 是 0.04 + 18/n，而模型 B 的额外测试 MSE 是 0.16 + 4/n，其中 n 是样本量。它们在什么样本量下打平？

打开 →

题目1658 · 统计

两路相关无偏信号的最优组合

同一参数的两个无偏估计量方差分别为 9 和 4，相关系数为 0.5。对 T(a) = aT1 + (1-a)T2，哪个 a 能最小化方差？最小方差是多少？

打开 →

题目2413 · 机器学习

为什么 bagging 主要针对的是方差

为什么 bagging 通常被描述为降方差工具，而不是降偏差工具？

打开 →

题目2575 · 机器学习

为什么 bagging 很少能修复高偏差 11

为什么不应指望 bagging 单独去拯救一个“单树本身就系统性失配”的学习器？

打开 →

题目2599 · 机器学习

为什么 boosting 主要是在压偏差 9

为什么 boosting 通常被描述成“主要降偏差”的方法，而不是“主要降方差”的方法？

打开 →

题目2611 · 机器学习

为什么 boosting 比随机森林更难并行 16

为什么 boosting 在轮次之间天生就比随机森林更难并行？

打开 →

题目2508 · 机器学习

为什么 elastic net 保留 lasso 阈值又额外加入 ridge 收缩 14

为什么 elastic net 仍然需要 |z| 先跨过一个 L1 阈值，坐标才会激活，但在激活之后又会比 lasso 收缩得更多？

打开 →

题目2437 · 机器学习

为什么 Huber 损失位于平方损失与绝对损失之间

为什么 Huber 损失常被描述为“介于平方损失和绝对损失之间”？

打开 →

题目2511 · 机器学习

为什么 L1 的尖角会产生稀疏性 11

为什么人们常用 L1 球的几何形状来解释 lasso 会产生稀疏解？

打开 →

题目2506 · 机器学习

为什么 lasso 前通常要标准化 8

为什么如果特征尺度未经标准化，lasso 可能会不公平地偏爱某一个特征？

打开 →

题目2490 · 机器学习

为什么 OLS 在失配下仍可能预测得不错 20

为什么即使真实数据生成过程并不严格线性，OLS 仍可能是有用的预测器？

打开 →

题目2415 · 机器学习

为什么一个稳定但有偏的模型在实务上仍可能更受青睐

为什么交易台可能更偏好一个略有偏差、但行为稳定的模型，而不是一个偏差更低、却在每次重训之间剧烈波动的模型？

打开 →

题目2414 · 机器学习

为什么不可约噪声会封顶最佳可达测试误差

为什么即使偏差和方差看起来都已经很小，模型改进仍可能停滞？

打开 →

题目2439 · 机器学习

为什么不对称损失会把最优目标从均值推开

为什么不对称损失通常会让最优常数预测偏离目标分布的均值？

打开 →

题目2567 · 机器学习

为什么两个几乎打平的首切分会在后续完全分叉 13

为什么两个即时增益几乎相同的根切分，最后却可能长成完全不同的树？

打开 →

题目2419 · 机器学习

为什么低偏差并不自动意味着更好

为什么“偏差更低”本身并不足以成为偏好某个模型的充分理由？

打开 →

题目2645 · 机器学习

为什么全局范数裁剪会保留方向 14

为什么在触发裁剪时，全局范数裁剪只会改变梯度向量的大小，而不会改变它的方向？

打开 →

题目2438 · 机器学习

为什么凸性会让“平均预测”变得安全

为什么损失函数的凸性会支持这样一种直觉：把相似的预测做平均通常不会太吃亏？

打开 →