python - Python - 分类最小方差的 bin 大小

Question

我想将我的特征“年龄”从连续变量更改为用于二元分类的年龄范围的分类变量，如下所示：

df['Age'] = pd.cut(df['Age'], [0,6,12,16,65,90] ,labels=['0-6','6-12','12-16','16-65','65-90'])

但是我想以最佳方式对其进行拆分，以便最有效地对数据进行分类。即年龄范围内的类的方差被最小化，而不是过度拟合。

是否有一个包有一种方法，可以在像这样拆分数据时最小化差异，还是我必须自己写一个？

score 1 · Accepted Answer

1

也许你可以用它sklearn.cluster来做到这一点。

于 2017-07-02T16:08:08.693 回答

1 回答 1