r - 为什么我的决策树没有节点？(C5.0)

Question

我有 6 个属性的 204 个数据。

当我使用此脚本创建包含所有数据的模型时model = C5.0(dataset1[,-7], dataset1[,7])，结果给我没有如下图所示的节点。

但是，如果我在这个脚本中只使用 100 个数据model = C5.0(dataset1[1:100,-7], dataset1[1:100,7])，那么结果会给我一个很好的决策树，如下图所示。

问题是什么？问题出在数据上吗？谢谢你。

score 0 · Accepted Answer

检查你的树的展示，很容易看出发生了什么。仅使用 100 点的第二个模型并不比第一个更好。当您为 C5.0 提供更多数据时，它正确地确定了更简单的模型更优越。看看结果。

第一棵树（所有 204 个点）预测一切都是 Lancar，错误率为 27%（204 个错误中有 55 个错误）。

第二棵树的错误率是多少？

节点 2 预测 Lancar 55 分，错误率为 25.5%（14 个错误）。
节点 4 预测 Lancar 25 分，错误率为 28.0%（7 个错误）。
节点 6 预测 Macet 为 8 分，错误率为 50.0%（4 个错误）。
节点 7 预测 Macet 为 12 分，错误率为 41.7%（5 个错误）。
总错误率为 100 中的 30 或 30.0% - 比更简单模型的 27% 错误率更差。C5.0 简单地确定了可用的最佳模型是预测所有点都属于多数类（Lancar）。

r - 为什么我的决策树没有节点？(C5.0)

1 回答 1

Related

Reference