我有 6 个属性的 204 个数据。
当我使用此脚本创建包含所有数据的模型时model = C5.0(dataset1[,-7], dataset1[,7])
,结果给我没有如下图所示的节点。
但是,如果我在这个脚本中只使用 100 个数据model = C5.0(dataset1[1:100,-7], dataset1[1:100,7])
,那么结果会给我一个很好的决策树,如下图所示。
问题是什么?问题出在数据上吗?谢谢你。
我有 6 个属性的 204 个数据。
当我使用此脚本创建包含所有数据的模型时model = C5.0(dataset1[,-7], dataset1[,7])
,结果给我没有如下图所示的节点。
但是,如果我在这个脚本中只使用 100 个数据model = C5.0(dataset1[1:100,-7], dataset1[1:100,7])
,那么结果会给我一个很好的决策树,如下图所示。
问题是什么?问题出在数据上吗?谢谢你。
检查你的树的展示,很容易看出发生了什么。仅使用 100 点的第二个模型并不比第一个更好。当您为 C5.0 提供更多数据时,它正确地确定了更简单的模型更优越。看看结果。
第一棵树(所有 204 个点)预测一切都是 Lancar,错误率为 27%(204 个错误中有 55 个错误)。
第二棵树的错误率是多少?
节点 2 预测 Lancar 55 分,错误率为 25.5%(14 个错误)。
节点 4 预测 Lancar 25 分,错误率为 28.0%(7 个错误)。
节点 6 预测 Macet 为 8 分,错误率为 50.0%(4 个错误)。
节点 7 预测 Macet 为 12 分,错误率为 41.7%(5 个错误)。
总错误率为 100 中的 30 或 30.0% - 比更简单模型的 27% 错误率更差。C5.0 简单地确定了可用的最佳模型是预测所有点都属于多数类(Lancar)。