2

我正在研究二进制分类数据集并将 xgBoost 模型应用于该问题。模型准备好后,我会绘制特征重要性和底层随机森林产生的一棵树。请在下面找到这些图。

在此处输入图像描述 在此处输入图像描述

问题

  • 如果我采用一个包含 10 个数据点的测试集,那么在计算该数据点 predict_proba 分数时,特征的重要性是否会因数据点而异?
  • 以 CNN 的类激活图进行类比,该图因数据点而异,当模型在多个数据点上运行时,每个特征的顺序和相对重要性是否保持不变,还是会有所不同?
4

1 回答 1

1

“数据点”是什么意思?数据点是单个病例/受试者/患者/等吗?如果是这样;

  1. 您绘制的特征重要性图和树都只与模型相关,它们独立于测试集。找出哪些特征在对测试集中的特定主题/案例/数据点进行分类时很重要是一项更具挑战性的任务(参见例如XGBoostExplainer / https://medium.com/applied-data-science/new-r-package-the -xgboost-explainer-51dd7d1aa211)。

  2. 每个主题/案例/数据点的每个特征的顺序和相对重要性都不同(见上文),并且 xgboost 中没有“类激活图”——所有数据都被分析,被认为“不重要”的数据没有贡献最终决定。

编辑

XGBoostExplainer 的进一步示例: 示例_1.png

于 2021-02-15T04:56:46.883 回答