监督学习基础
machine-learning · statistical-learning · supervised-learning · erm · loss-functions · bayes-optimal · bias-variance · generalization
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 30 个结果
English questionsmachine-learning · statistical-learning · supervised-learning · erm · loss-functions · bayes-optimal · bias-variance · generalization
打开 →你观察到如下诊断结论: (1-0.5L) X_t = (1-0.5L) e_t。正确的建模结论是什么?
打开 →为什么 ridge 与 lasso 在正则化参数设为零时都会退化成 OLS?
打开 →一个标准化 lasso 拟合的绝对得分大小是 (3.8, 2.5, 0.9)。要让最弱的特征刚好变成 0、但另外两个仍保持活跃,最小的 lambda 是多少?
打开 →忽略可学习仿射参数时,为什么给一个向量的每个坐标都加上同一个常数 a,不会改变 LayerNorm 之后的激活?
打开 →对 pseudo-Huber 损失 ell(r)=delta^2(sqrt(1+(r/delta)^2)-1),推导 d ell / d r。
打开 →一个标准化 ridge 模型的奇异值平方为 d_j^2 = [16, 4],惩罚参数 lambda = 4。其有效自由度 tr(S_lambda) = sum d_j^2/(d_j^2+lambda) 等于多少?
打开 →在正交单特征问题里,若 x^T x = d、x^T y = z > 0,请推导 0 < lambda < z 时的 lasso 系数。
打开 →使用 delta = 1 的 Huber 损失,计算残差 0.5、-1.2、3.0 的总损失。
打开 →3 个独立训练的模型方差都为 1.8,且偏差可以忽略。它们等权平均后的方差是多少?
打开 →一次假阴性的代价是 5,一次假阳性的代价是 1。若 p 是正类的预测概率,那么当 p 高于什么阈值时,应把样本判成正类?
打开 →某事件确实发生了(y=1)。预测 A 给出概率 0.9,预测 B 给出概率 0.7。B 的对数损失比 A 大多少?
打开 →模型 A 的额外测试 MSE 是 0.04 + 18/n,而模型 B 的额外测试 MSE 是 0.16 + 4/n,其中 n 是样本量。它们在什么样本量下打平?
打开 →同一参数的两个无偏估计量方差分别为 9 和 4,相关系数为 0.5。对 T(a) = aT1 + (1-a)T2,哪个 a 能最小化方差?最小方差是多少?
打开 →为什么 bagging 通常被描述为降方差工具,而不是降偏差工具?
打开 →为什么不应指望 bagging 单独去拯救一个“单树本身就系统性失配”的学习器?
打开 →为什么 boosting 通常被描述成“主要降偏差”的方法,而不是“主要降方差”的方法?
打开 →为什么 boosting 在轮次之间天生就比随机森林更难并行?
打开 →为什么 elastic net 仍然需要 |z| 先跨过一个 L1 阈值,坐标才会激活,但在激活之后又会比 lasso 收缩得更多?
打开 →为什么 Huber 损失常被描述为“介于平方损失和绝对损失之间”?
打开 →为什么人们常用 L1 球的几何形状来解释 lasso 会产生稀疏解?
打开 →为什么如果特征尺度未经标准化,lasso 可能会不公平地偏爱某一个特征?
打开 →为什么即使真实数据生成过程并不严格线性,OLS 仍可能是有用的预测器?
打开 →为什么交易台可能更偏好一个略有偏差、但行为稳定的模型,而不是一个偏差更低、却在每次重训之间剧烈波动的模型?
打开 →为什么即使偏差和方差看起来都已经很小,模型改进仍可能停滞?
打开 →为什么不对称损失通常会让最优常数预测偏离目标分布的均值?
打开 →为什么两个即时增益几乎相同的根切分,最后却可能长成完全不同的树?
打开 →为什么“偏差更低”本身并不足以成为偏好某个模型的充分理由?
打开 →为什么在触发裁剪时,全局范数裁剪只会改变梯度向量的大小,而不会改变它的方向?
打开 →为什么损失函数的凸性会支持这样一种直觉:把相似的预测做平均通常不会太吃亏?
打开 →