3

我正在尝试对包含离散和连续特征的示例进行分类。此外,该示例表示稀疏数据,因此即使系统可能已经针对 100 个特征进行了训练,该示例也可能只有 12 个。

用于完成此任务的最佳分类器算法是什么?我一直在研究 Bayes、Maxent、Decision Tree 和 KNN,但我不确定它们是否完全符合要求。我发现最大的症结在于大多数实现不支持稀疏数据集以及离散和连续特征。任何人都可以推荐符合这些标准的算法和实现(最好是在 Python 中)吗?

到目前为止我看过的图书馆包括:

  1. 橙色(主要是学术性的。实现不是非常有效或实用。)
  2. NLTK(也是学术性的,虽然有很好的 Maxent 实现,但不处理连续特征。)
  3. Weka(仍在研究这个。似乎支持广泛的算法,但文档很差,所以不清楚每个实现支持什么。)
4

3 回答 3

2

支持向量机? libsvm可以从 Python 中使用,而且速度非常快。

处理稀疏向量输入,并且不介意某些特征是连续的,而其他特征只是-1/+1。(如果你有一个 n 路离散特征,标准的做法是将其扩展为 n 个二进制特征。)

于 2010-03-23T16:47:59.833 回答
2

Weka (Java) 满足您的所有要求:

查看这个Pentaho wiki以获取文档、指南、视频教程等的链接列表......

于 2010-03-23T23:22:54.183 回答
2

scikit-learn是一个 Python 机器学习模块,支持稀疏数据的随机梯度下降支持向量机

于 2012-01-02T09:28:53.173 回答