我正在研究二进制分类数据集并将 xgBoost 模型应用于该问题。模型准备好后,我会绘制特征重要性和底层随机森林产生的一棵树。请在下面找到这些图。
问题
- 如果我采用一个包含 10 个数据点的测试集,那么在计算该数据点 predict_proba 分数时,特征的重要性是否会因数据点而异?
- 以 CNN 的类激活图进行类比,该图因数据点而异,当模型在多个数据点上运行时,每个特征的顺序和相对重要性是否保持不变,还是会有所不同?
我正在研究二进制分类数据集并将 xgBoost 模型应用于该问题。模型准备好后,我会绘制特征重要性和底层随机森林产生的一棵树。请在下面找到这些图。
问题
“数据点”是什么意思?数据点是单个病例/受试者/患者/等吗?如果是这样;
您绘制的特征重要性图和树都只与模型相关,它们独立于测试集。找出哪些特征在对测试集中的特定主题/案例/数据点进行分类时很重要是一项更具挑战性的任务(参见例如XGBoostExplainer / https://medium.com/applied-data-science/new-r-package-the -xgboost-explainer-51dd7d1aa211)。
每个主题/案例/数据点的每个特征的顺序和相对重要性都不同(见上文),并且 xgboost 中没有“类激活图”——所有数据都被分析,被认为“不重要”的数据没有贡献最终决定。