树模型与核方法
machine-learning · tree-based-methods · decision-tree · cart · impurity · pruning · bagging · random-forest
打开 →GLOBAL SEARCH
搜索在服务端完成,题目解析与答案不会进入搜索结果。登录后可搜索自己的收藏题单。
找到 14 个结果
English questionsmachine-learning · tree-based-methods · decision-tree · cart · impurity · pruning · bagging · random-forest
打开 →一个 sector 特征被拆成三个 one-hot 列,它们的 impurity-gain 重要性分别是 0.04、0.03 和 0.01。另外两个特征的重要性分别是 0.05 和 0.07。如果把这三个 one-hot 列聚合成一个组,那么各组的归一化占比分别是多少?谁排第一?
打开 →一个随机森林报告的平均不纯度下降总贡献为 spread=0.42, imbalance=0.21, id_bucket=0.07。问归一化后的特征重要性占比分别是多少?哪一个特征排第一?
打开 →周五午盘,一家 50 亿规模的 CN 私募把一份沪深300 alpha 数据甩到你工位:30 个特征、日频次日超额收益作标签。上一课那棵深度 15 的 CART 树样本内方向准确率 100%、样本外只有 51%——比抛硬币好不了多少,Sharpe 几乎为零。你把它换成 500 棵在 bootstrap 样本上独立训练的深树取平均,样本外跳到 57%。这一跳,...
打开 →一个模型的基准 log loss 是 0.400。置换特征 X 后,log loss 升到 0.455;置换特征 Y 后,升到 0.420。按 log loss 指标定义,它们的置换重要性各是多少?哪个更重要?
打开 →周一早盘九点二十,你接手了离职同事留下的 alpha 模型——一棵深度 15 的 CART(Classification and Regression Tree, CART)树,在三年 沪深300 成分股日度面板上训练,特征是动量、价值、质量、低波、5 日收益、20 日波动率、换手率等 12 个变量,目标是预测下一日超额收益方向(涨/跌)。样本内训练精度 1...
打开 →周一开盘前一小时,你坐在上海一家中型私募基金(private fund)的研究室。投研经理把一张 CSV 推到桌上:沪深300 成分股 300 只,每只配 15 维因子向量(PE、PB、12 个月动量、20 日波动率、换手率、分析师上调比例),本质上是一张轻量级因子模型(factor model)输入表;标签 公式 表示下月相对指数 outperform /...
打开 →上海某私募的因子研究员把上一节的 500 棵随机森林训完,沪深300 + 中证500 上的样本外准确率 57%——比单棵深树的 51% 上了 6 个点。她把 max features 从 sqrt(p) 调到 p/3、把树数加到 2000,准确率纹丝不动停在 57.2%——bagging 的方差红利已经吃干净了。PM 在因子复盘会上一句话:「方差降到底了,把...
打开 →一个模型的基准验证集 AUC 是 0.62。分别置换三个特征后,AUC 变成:value_signal 对应 0.57,momentum 对应 0.60,zip_code 对应 0.61。它们的置换重要性下降是多少?谁排第一?
打开 →两棵树分别给特征 A 和 B 带来 split gain。Tree 1 的贡献是 A=12、B=5;Tree 2 的贡献是 A=8、B=10。A 和 B 的总归一化 gain 重要性各是多少?
打开 →为什么基于 impurity 的重要性往往会高估那些可切分点很多的特征?
打开 →某个基于 impurity 的特征排名原本是 id_hash=0.40、signal_1=0.35、signal_2=0.25。限制 max depth 之后,id_hash 的原始 gain 减半,而其他 raw gain 保持不变。新的归一化份额是多少?
打开 →一个随机森林按 impurity decrease 排名时,把哈希化的客户 ID 评为最重要特征,但验证集上的置换降幅却几乎为零。最可能的陷阱是什么?
打开 →如果某个节点里的每个样本权重都同时乘上同一个常数 c>0,那么每个候选切分的加权纯度下降会如何变化?
打开 →