我使用以下代码在 R 上生成了一个(未修剪的)分类树:
fit <- rpart(train.set$line ~ CountryCode + OrderType + Bon + SupportCode + prev_AnLP + prev_TXLP + prev_ProfLP + prev_EVProfLP + prev_SplLP + Age + Sex + Unknown.Position + Inc + Can + Pre + Mol, data=train.set, control=rpart.control(minsplit=5, cp=0.001), method="class")
printcp(fit) 显示:
树构造中实际使用的变量:
年龄
CountryCode
SupportCode
OrderType
prev_AnLP
prev_EVProfLP
prev_ProfLP
prev_TXLP
prev_SplLP
这些是我可以在分类树的每个节点上看到的相同变量,所以它们是正确的。我不明白的是summary(fit)的结果:
变量重要性:
29 prev_EVProfLP
19 prev_AnLP
16 prev_TXLP
15 prev_SplLP
9 prev_ProfLP
7
CountryCode 2 OrderType
1 Pre
1 Mol
从 summary(fit) 结果来看,变量 Pre 和 Mol 似乎比 SupportCode 和 Age 更重要,但在树中 Pre 和 Mol 不用于拆分数据,而使用 SupportCode 和 Age (实际上是在两片叶子之前。 ..但仍然使用!)。为什么?