全站搜索 — 锐望实验室

找到 9 个结果

题目4218 · 机器学习

聚合 one-hot 特征组 2

一个 sector 特征被拆成三个 one-hot 列，它们的 impurity-gain 重要性分别是 0.04、0.03 和 0.01。另外两个特征的重要性分别是 0.05 和 0.07。如果把这三个 one-hot 列聚合成一个组，那么各组的归一化占比分别是多少？谁排第一？

题目4216 · 机器学习

一个随机森林报告的平均不纯度下降总贡献为 spread=0.42, imbalance=0.21, id_bucket=0.07。问归一化后的特征重要性占比分别是多少？哪一个特征排第一？

题目4220 · 机器学习

一个模型的基准 log loss 是 0.400。置换特征 X 后，log loss 升到 0.455；置换特征 Y 后，升到 0.420。按 log loss 指标定义，它们的置换重要性各是多少？哪个更重要？

题目4217 · 机器学习

一个模型的基准验证集 AUC 是 0.62。分别置换三个特征后，AUC 变成：value_signal 对应 0.57，momentum 对应 0.60，zip_code 对应 0.61。它们的置换重要性下降是多少？谁排第一？

题目4219 · 机器学习

两棵树分别给特征 A 和 B 带来 split gain。Tree 1 的贡献是 A=12、B=5；Tree 2 的贡献是 A=8、B=10。A 和 B 的总归一化 gain 重要性各是多少？

题目4237 · 机器学习

为什么基于 impurity 的重要性往往会高估那些可切分点很多的特征？

题目4224 · 机器学习

某个基于 impurity 的特征排名原本是 id_hash=0.40、signal_1=0.35、signal_2=0.25。限制 max depth 之后，id_hash 的原始 gain 减半，而其他 raw gain 保持不变。新的归一化份额是多少？

题目4226 · 机器学习

一个随机森林按 impurity decrease 排名时，把哈希化的客户 ID 评为最重要特征，但验证集上的置换降幅却几乎为零。最可能的陷阱是什么？

题目2560 · 机器学习

如果某个节点里的每个样本权重都同时乘上同一个常数 c>0，那么每个候选切分的加权纯度下降会如何变化？