1

我正在尝试编写我之前使用 SAS EM 的两类分类 DT 问题。但试图在 Sklearn 中做到这一点。目标变量是一个两类分类变量。但是有一些连续的自变量。在 SAS 中,我可以为每个拆分指定“最大分支数”。所以当它设置为 4 时,一些叶子会分裂成 2,一些叶子会分裂成 4(尤其是对于连续变量)。我在 sklearn 中找不到等效参数。看着“max_leaf-nodes”。但这控制了整个树的“叶子”节点的总数。我相信你们中的一些人可能已经面临同样的情况并且已经找到了解决方案。请帮助/分享。我会很感激的。

4

1 回答 1

1

我不认为这个选项在 sklearn 中可用,你会发现这篇文章对你的分类 DT 非常有用;因为它列出了您可用的所有选项。

我建议为您的 continue 变量创建 Bins;这样你就可以强制分支是你拥有的垃圾箱的数量。

示例:对于连续变量 COl1 的值介于 1-100 之间;您可以创建 4 个垃圾箱 1-25、26-50、51-75、76-100。或者您可以根据中位数创建垃圾箱。

于 2018-05-06T01:26:06.900 回答