我正在学习机器学习的决策树方法。现在,我使用的最重要的一段代码是c5. 0
. 不得不承认,这是天才的作品。但我不明白它是如何选择根节点和决策节点的。示例:我有一个名为“credit”的数据库。这是前几列:
str(credit)
'data.frame': 1000 obs. of 21 variables:
$ checking_balance : Factor w/ 4 levels "< 0 DM","> 200 DM",..: 1 3 4 1 1 4 4 3 4 3 ...
$ months_loan_duration: int 6 48 12 42 24 36 24 36 12 30 ...
$ credit_history : Factor w/ 5 levels "critical","delayed",..: 1 5 1 5 2 5 5 5 5 1 ...
$ purpose : Factor w/ 10 levels "business","car (new)",..: 8 8 5 6 2 5 6 3 8 2 ...
$ amount : int 1169 5951 2096 7882 4870 9055 2835 6948 3059 5234 ...
所以当我在应用 c5.0 后查看决策树时,我看到根节点是$cheking balance
,那么下一个决策节点是$credit_history.
c5.0 创建决策树时遵循的策略或轨迹是什么?换句话说,它是如何确定决策节点的顺序的?