python - xgBoost 的相对特征重要性是否随测试集中的数据点而变化？

翻译自：https://stackoverflow.com/questions/66202429 2021-02-15T03:38:46.567

551 次

2

我正在研究二进制分类数据集并将 xgBoost 模型应用于该问题。模型准备好后，我会绘制特征重要性和底层随机森林产生的一棵树。请在下面找到这些图。

问题

如果我采用一个包含 10 个数据点的测试集，那么在计算该数据点 predict_proba 分数时，特征的重要性是否会因数据点而异？
以 CNN 的类激活图进行类比，该图因数据点而异，当模型在多个数据点上运行时，每个特征的顺序和相对重要性是否保持不变，还是会有所不同？

1 回答 1

1

“数据点”是什么意思？数据点是单个病例/受试者/患者/等吗？如果是这样;

您绘制的特征重要性图和树都只与模型相关，它们独立于测试集。找出哪些特征在对测试集中的特定主题/案例/数据点进行分类时很重要是一项更具挑战性的任务（参见例如XGBoostExplainer / https://medium.com/applied-data-science/new-r-package-the -xgboost-explainer-51dd7d1aa211）。
每个主题/案例/数据点的每个特征的顺序和相对重要性都不同（见上文），并且 xgboost 中没有“类激活图”——所有数据都被分析，被认为“不重要”的数据没有贡献最终决定。

编辑

XGBoostExplainer 的进一步示例：

于 2021-02-15T04:56:46.883 回答