全站搜索 — 锐望实验室

全部 · 4546 课程 · 299 模块 · 72 题目 · 4169 帮助 · 6 收藏题单 · 0

找到 25 个结果

English questions

模块2.6.2 · 数学与统计能力 · 机器学习理论

树模型与核方法

machine-learning · tree-based-methods · decision-tree · cart · impurity · pruning · bagging · random-forest

打开 →

课程树模型与核方法 · 机器学习理论

Bagging 与随机森林

周五午盘，一家 50 亿规模的 CN 私募把一份沪深300 alpha 数据甩到你工位:30 个特征、日频次日超额收益作标签。上一课那棵深度 15 的 CART 树样本内方向准确率 100%、样本外只有 51%——比抛硬币好不了多少，Sharpe 几乎为零。你把它换成 500 棵在 bootstrap 样本上独立训练的深树取平均，样本外跳到 57%。这一跳，...

打开 →

题目2550 · 机器学习

不对称交易代价下叶节点的最优标签

一个分类叶节点里有 6 个正样本和 14 个负样本。预测为正时，每个假阳性的代价是 1；预测为负时，每个假阴性的代价是 4。这个叶节点应该预测哪一类，才能最小化叶节点损失？

打开 →

题目2567 · 机器学习

为什么两个几乎打平的首切分会在后续完全分叉 13

为什么两个即时增益几乎相同的根切分，最后却可能长成完全不同的树？

打开 →

题目2557 · 机器学习

为什么很小的数据扰动会重写整棵树 10

为什么深层决策树常被称为“不稳定学习器”？

打开 →

题目2569 · 机器学习

为什么轴对齐树在旋转边界上会吃力 14

为什么一个决策树会需要很多小矩形，才能逼近一条其实很简单的对角线边界？

打开 →

题目2551 · 机器学习

为什么预剪枝会错过一个好的两步切分 9

为什么很激进的预剪枝规则，可能会拒绝一个“眼前看起来不够强”的首个切分，但这个切分其实能打开一个更好的二层结构？

打开 →

题目2559 · 机器学习

代理切分带来的期望错分数

在主特征和代理特征都存在的 40 条训练样本中，代理切分有 34 条与主切分一致。若生产中有 12 条样本缺失主切分特征，只能靠代理切分路由，期望会有多少条被路由错？

打开 →

题目2564 · 机器学习

保留一次切分所需的验证惩罚阈值

一个 stump 的验证损失是 30。把它切成两个叶子后，验证损失降到 22，但每增加一个叶子都要付出 lambda 的不稳定性惩罚。lambda 最大取到多少时，这次切分仍然值得保留？

打开 →

题目2560 · 机器学习

全局样本权重同比缩放不会改变切分排序 5

如果某个节点里的每个样本权重都同时乘上同一个常数 c>0，那么每个候选切分的加权纯度下降会如何变化？

打开 →

题目2553 · 机器学习

最大平衡深度的数值计算 20

某棵树的根节点有 96 个样本，并且每次切分都完全平衡。若每个叶节点至少要有 12 个样本，最大深度是多少？

打开 →

题目2555 · 机器学习

最小叶节点约束下的最佳合法切分

同一个节点上有三个候选切分，它们的 Gini 增益分别是 0.18、0.16 和 0.11，对应较小子节点的样本数分别是 3、4 和 7。若最小允许叶节点样本数是 4，实际会选择哪个切分？

打开 →

题目2547 · 机器学习

最弱链接 alpha 的数值计算 16

某个节点若被剪成单个叶节点，误差为 18；它当前子树的训练误差为 10，且有 3 个叶节点。该子树对应的最弱链接 alpha 是多少？

打开 →

课程树模型与核方法 · 机器学习理论

决策树:CART、不纯度准则与剪枝

周一早盘九点二十,你接手了离职同事留下的 alpha 模型——一棵深度 15 的 CART(Classification and Regression Tree, CART)树,在三年沪深300 成分股日度面板上训练,特征是动量、价值、质量、低波、5 日收益、20 日波动率、换手率等 12 个变量,目标是预测下一日超额收益方向(涨/跌)。样本内训练精度 1...

打开 →

题目2556 · 机器学习

分组重复值下的可行阈值数量 22

一个已排序特征由 5 个不同取值块组成，块大小分别是 [3, 5, 2, 4, 6]，并且只允许在不同取值块之间切分。若每个子叶节点至少要有 6 个样本，那么合法阈值有多少个？

打开 →

题目2549 · 机器学习

回归节点上是否切分的带惩罚决策 18

某个回归叶节点的 SSE 为 260。若切分后左右子节点的总 SSE 会变成 230，并且每多一个叶节点要付出 12 的复杂度惩罚，那么是否应保留该切分？

打开 →

题目2565 · 机器学习

带 alpha 收费的验证剪枝决策 23

把一个单叶节点替换成一个 3 叶子树后，验证损失下降了 4.5。若每增加一个叶节点要付出 alpha = 1.2 的复杂度收费，是否应保留该子树？

打开 →

题目2554 · 机器学习

带代价时叶节点应输出的类别 21

某个叶节点里有 7 个正样本和 13 个负样本。若预测为负类，则每个被错分的正样本要付出 4 的假阴性代价；若预测为正类，则每个被错分的负样本要付出 1 的假阳性代价。该叶节点应预测哪个类别？

打开 →

题目2546 · 机器学习

带叶节点下限时的合法阈值数量 15

一个已排序特征有 31 个观测，并且每个子叶节点至少要有 6 个观测。合法切分位置有多少个？

打开 →

题目2552 · 机器学习

数据扰动后哪一个切分变成最优 19

切分 A 原本的增益是 1.20，切分 B 的增益是 1.05。修正一行数据之后，A 的增益下降 0.10，B 的增益上升 0.08。现在哪个切分更优？

打开 →

题目2570 · 机器学习

替代切分的一致率公式 8

某个主切分在部分样本上缺失，因此用主特征可见的 M 个样本训练一个替代切分。若其中有 A 个样本被送到了与主切分相同的一侧，那么它的一致率是多少？

打开 →

课程树模型与核方法 · 机器学习理论

核方法与支持向量机

周一开盘前一小时,你坐在上海一家中型私募基金(private fund)的研究室。投研经理把一张 CSV 推到桌上:沪深300 成分股 300 只,每只配 15 维因子向量(PE、PB、12 个月动量、20 日波动率、换手率、分析师上调比例),本质上是一张轻量级因子模型(factor model)输入表;标签公式表示下月相对指数 outperform /...

打开 →

课程树模型与核方法 · 机器学习理论

梯度提升与 XGBoost / LightGBM

上海某私募的因子研究员把上一节的 500 棵随机森林训完,沪深300 + 中证500 上的样本外准确率 57%——比单棵深树的 51% 上了 6 个点。她把 max features 从 sqrt(p) 调到 p/3、把树数加到 2000,准确率纹丝不动停在 57.2%——bagging 的方差红利已经吃干净了。PM 在因子复盘会上一句话:「方差降到底了,把...

打开 →

题目2568 · 机器学习

比较带惩罚的树结构选项 25

一个父节点如果不切分，其 SSE 为 70。若切成 2 个叶节点，总 SSE 为 44；若长成 3 个叶节点的子树，总 SSE 为 36。若相对于未切分节点，每多一个叶节点要付出 10 的复杂度惩罚，那么哪种结构的带惩罚目标最小？

打开 →

题目2566 · 机器学习

选择应该先剪掉的最弱链接节点 24

节点 A 若被剪成单叶，误差为 12；其当前子树误差为 7，且有 3 个叶节点。节点 B 若被剪成单叶，误差为 9；其当前子树误差为 6，且有 2 个叶节点。在 cost-complexity 剪枝下，哪个节点是更弱的链接、应更早被剪掉？

打开 →