sparse-matrix - 稀疏和不平衡高维数据的特征选择

Question

我有一个高度不平衡的数据，带有非常稀缺的正标签。数据是非常高维的。最重要的是，我的特征也非常稀疏。

那么在这种情况下进行特征选择的最佳方法是什么。任何基于 spearmann 或 pearson 相关性的相关性度量排名都不是一个好方法。因为我的大多数标签和特征都是零，而且看起来这个特征是高度相关的，或者即使它没有那么重要。

有什么建议吗？

score 0 · Accepted Answer

SVM 非常适合稀疏数据的分类。通过检查生成的内核矩阵，您可以识别出比其他特征更重要的特征，并将其用于您的特征选择。

1 回答 1