GLOBAL SEARCH

搜索课程、模块、题目与收藏题单

搜索在服务端完成，题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。

全部 · 4546 课程 · 299 模块 · 72 题目 · 4169 帮助 · 6 收藏题单 · 0

找到 24 个结果

English questions

课程树模型与核方法 · 机器学习理论

Bagging 与随机森林

周五午盘，一家 50 亿规模的 CN 私募把一份沪深300 alpha 数据甩到你工位:30 个特征、日频次日超额收益作标签。上一课那棵深度 15 的 CART 树样本内方向准确率 100%、样本外只有 51%——比抛硬币好不了多少，Sharpe 几乎为零。你把它换成 500 棵在 bootstrap 样本上独立训练的深树取平均，样本外跳到 57%。这一跳，...

题目2574 · 机器学习

为什么 bagging 最能帮助不稳定学习器 10

为什么 bagging 通常对深树帮助很大，却对本来就稳定的学习器帮助较小？

题目2575 · 机器学习

为什么 bagging 很少能修复高偏差 11

为什么不应指望 bagging 单独去拯救一个“单树本身就系统性失配”的学习器？

题目2589 · 机器学习

偏差不变时 bagging 后的 MSE 7

假设每棵树的偏差平方都是 b^2，预测噪声底为 nu，而 bagging 只会按等相关树公式改变方差项。请推导拥有 B 棵树时的 bagged 测试 MSE。

题目2413 · 机器学习

为什么 bagging 主要针对的是方差

为什么 bagging 通常被描述为降方差工具，而不是降偏差工具？

模块2.6.2 · 数学与统计能力 · 机器学习理论

树模型与核方法

machine-learning · tree-based-methods · decision-tree · cart · impurity · pruning · bagging · random-forest

课程树模型与核方法 · 机器学习理论

梯度提升与 XGBoost / LightGBM

上海某私募的因子研究员把上一节的 500 棵随机森林训完,沪深300 + 中证500 上的样本外准确率 57%——比单棵深树的 51% 上了 6 个点。她把 max features 从 sqrt(p) 调到 p/3、把树数加到 2000,准确率纹丝不动停在 57.2%——bagging 的方差红利已经吃干净了。PM 在因子复盘会上一句话:「方差降到底了,把...

课程信号评估与合成 · Alpha 研究

信号合成、堆叠与集成

周五上午,你在上海的一家量化私募 ——明汯、幻方、九坤、灵均风格的多因子私募。 L3 把四条信号正交化完了: mom 12 1 , book to market , gross profitability , pead sue 都残差化通过了 IC break even 门槛。桌面上还没有量产复合信号。投决...

课程树模型与核方法 · 机器学习理论

决策树:CART、不纯度准则与剪枝

周一早盘九点二十,你接手了离职同事留下的 alpha 模型——一棵深度 15 的 CART(Classification and Regression Tree, CART)树,在三年沪深300 成分股日度面板上训练,特征是动量、价值、质量、低波、5 日收益、20 日波动率、换手率等 12 个变量,目标是预测下一日超额收益方向(涨/跌)。样本内训练精度 1...

题目2577 · 机器学习

为什么 OOB 不适用于分组或时间数据 13

为什么当样本之间由实体或时间联系在一起，而不是可交换抽样时，out-of-bag 误差会具有误导性？

题目2580 · 机器学习

为什么增加树数通常不会制造经典意义上的过拟合 15

为什么给随机森林继续加树，通常只是收益趋于平台，而不会出现某些单模型家族那种爆炸式过拟合？

题目2591 · 机器学习

为什么小样本下 OOB 可能很吵 19

为什么在小数据集上，即使森林本身还算稳定，OOB 误差也可能波动很大？

题目2593 · 机器学习

为什么平均无法治愈系统性标签噪声 20

为什么当训练标签本身存在系统性污染时，单纯把森林做大可能并不能修复性能？

题目2576 · 机器学习

为什么强势单因子场景下特征子采样更有价值 12

为什么当某个非常强的特征本来会出现在几乎每棵树的顶部时，随机特征子采样反而能提升森林表现？

题目2578 · 机器学习

为什么过小的 max_features 会抬高偏差 14

为什么把 max_features 设得过小，虽然能降低相关性，却仍可能伤害随机森林？

题目2581 · 机器学习

为什么随机森林回归外推能力差 16

为什么随机森林回归通常无法把趋势外推到远超训练范围的区域？

题目2584 · 机器学习

再加一棵树带来的边际方差下降 3

在等相关树模型下，推导把树的数量从 B 增加到 B+1 时，集成方差会下降多少。

题目2573 · 机器学习

无限森林的方差地板 2

利用等相关树平均的方差公式，推导当树的棵数 B 趋于无穷时预测方差会收敛到什么值。

课程树模型与核方法 · 机器学习理论

核方法与支持向量机

周一开盘前一小时,你坐在上海一家中型私募基金(private fund)的研究室。投研经理把一张 CSV 推到桌上:沪深300 成分股 300 只,每只配 15 维因子向量(PE、PB、12 个月动量、20 日波动率、换手率、分析师上调比例),本质上是一张轻量级因子模型(factor model)输入表;标签公式表示下月相对指数 outperform /...

题目2579 · 机器学习

由方差地板反推树相关性 23

单棵树的方差是 6，而一个非常大的森林的方差似乎稳定在 1.8。隐含的树间相关系数 rho 是多少？

题目2571 · 机器学习

相关树平均后的方差公式 1

设有 B 棵树，每棵树的方差都是 sigma^2，并且任意两棵树之间的相关系数都是 rho。推导它们简单平均后的方差。

题目2592 · 机器学习

等效独立树棵数 8

定义 B_eff，使得相关森林的方差 sigma^2 [rho + (1-rho)/B] 与独立树平均的方差 sigma^2 / B_eff 相等。请推导 B_eff。

题目2585 · 机器学习

达到目标方差上限所需的树数 4

设每棵树的方差为 sigma^2，任意两棵树的相关系数为 rho。假设目标上限 V 满足 V > rho sigma^2，推导要把集成方差压到不超过 V 所需的最小 B。

题目2572 · 机器学习

集成方差的数值计算 22

每棵树的方差为 9，任意两棵树的相关系数为 0.2，森林共有 25 棵树。森林平均预测的方差是多少？