Bagging 与随机森林
周五午盘,一家 50 亿规模的 CN 私募把一份沪深300 alpha 数据甩到你工位:30 个特征、日频次日超额收益作标签。上一课那棵深度 15 的 CART 树样本内方向准确率 100%、样本外只有 51%——比抛硬币好不了多少,Sharpe 几乎为零。你把它换成 500 棵在 bootstrap 样本上独立训练的深树取平均,样本外跳到 57%。这一跳,...
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 24 个结果
English questions周五午盘,一家 50 亿规模的 CN 私募把一份沪深300 alpha 数据甩到你工位:30 个特征、日频次日超额收益作标签。上一课那棵深度 15 的 CART 树样本内方向准确率 100%、样本外只有 51%——比抛硬币好不了多少,Sharpe 几乎为零。你把它换成 500 棵在 bootstrap 样本上独立训练的深树取平均,样本外跳到 57%。这一跳,...
打开 →为什么 bagging 通常对深树帮助很大,却对本来就稳定的学习器帮助较小?
打开 →为什么不应指望 bagging 单独去拯救一个“单树本身就系统性失配”的学习器?
打开 →假设每棵树的偏差平方都是 b^2,预测噪声底为 nu,而 bagging 只会按等相关树公式改变方差项。请推导拥有 B 棵树时的 bagged 测试 MSE。
打开 →为什么 bagging 通常被描述为降方差工具,而不是降偏差工具?
打开 →machine-learning · tree-based-methods · decision-tree · cart · impurity · pruning · bagging · random-forest
打开 →上海某私募的因子研究员把上一节的 500 棵随机森林训完,沪深300 + 中证500 上的样本外准确率 57%——比单棵深树的 51% 上了 6 个点。她把 max features 从 sqrt(p) 调到 p/3、把树数加到 2000,准确率纹丝不动停在 57.2%——bagging 的方差红利已经吃干净了。PM 在因子复盘会上一句话:「方差降到底了,把...
打开 →周五上午,你在上海的一家 量化 私募 ——明汯、 幻方、 九坤、 灵均 风格 的 多 因子 私募。 L3 把 四 条 信号 正交化 完了: mom 12 1 , book to market , gross profitability , pead sue 都 残差化 通过 了 IC break even 门槛。 桌面 上 还 没有 量产 复合 信号。 投决...
打开 →周一早盘九点二十,你接手了离职同事留下的 alpha 模型——一棵深度 15 的 CART(Classification and Regression Tree, CART)树,在三年 沪深300 成分股日度面板上训练,特征是动量、价值、质量、低波、5 日收益、20 日波动率、换手率等 12 个变量,目标是预测下一日超额收益方向(涨/跌)。样本内训练精度 1...
打开 →为什么当样本之间由实体或时间联系在一起,而不是可交换抽样时,out-of-bag 误差会具有误导性?
打开 →为什么给随机森林继续加树,通常只是收益趋于平台,而不会出现某些单模型家族那种爆炸式过拟合?
打开 →为什么在小数据集上,即使森林本身还算稳定,OOB 误差也可能波动很大?
打开 →为什么当训练标签本身存在系统性污染时,单纯把森林做大可能并不能修复性能?
打开 →为什么当某个非常强的特征本来会出现在几乎每棵树的顶部时,随机特征子采样反而能提升森林表现?
打开 →为什么把 max_features 设得过小,虽然能降低相关性,却仍可能伤害随机森林?
打开 →为什么随机森林回归通常无法把趋势外推到远超训练范围的区域?
打开 →在等相关树模型下,推导把树的数量从 B 增加到 B+1 时,集成方差会下降多少。
打开 →利用等相关树平均的方差公式,推导当树的棵数 B 趋于无穷时预测方差会收敛到什么值。
打开 →周一开盘前一小时,你坐在上海一家中型私募基金(private fund)的研究室。投研经理把一张 CSV 推到桌上:沪深300 成分股 300 只,每只配 15 维因子向量(PE、PB、12 个月动量、20 日波动率、换手率、分析师上调比例),本质上是一张轻量级因子模型(factor model)输入表;标签 公式 表示下月相对指数 outperform /...
打开 →单棵树的方差是 6,而一个非常大的森林的方差似乎稳定在 1.8。隐含的树间相关系数 rho 是多少?
打开 →设有 B 棵树,每棵树的方差都是 sigma^2,并且任意两棵树之间的相关系数都是 rho。推导它们简单平均后的方差。
打开 →定义 B_eff,使得相关森林的方差 sigma^2 [rho + (1-rho)/B] 与独立树平均的方差 sigma^2 / B_eff 相等。请推导 B_eff。
打开 →设每棵树的方差为 sigma^2,任意两棵树的相关系数为 rho。假设目标上限 V 满足 V > rho sigma^2,推导要把集成方差压到不超过 V 所需的最小 B。
打开 →每棵树的方差为 9,任意两棵树的相关系数为 0.2,森林共有 25 棵树。森林平均预测的方差是多少?
打开 →