我有一个非常大的熊猫数据框。下面是示例
Id description
1 switvch for air conditioner transformer..............
2 control tfrmr...........
3 coling pad.................
4 DRLG machine
5 hair smothing kit...............
对于进一步的过程,我将使用 Sckit-learn 的 countvectorizer 构造上述数据的 doument-term 矩阵
countvec = CountVectorizer()
documenttermmatrix=countvec.fit_transform( dataset['description'])
我必须更正描述中拼写错误的功能。对于大型数据集,用正确拼写的单词替换拼写错误的单词需要花费大量时间。
所以我想到了使用代码给出的计数矢量化器中的特征列表来纠正特征
features_names= countvec.get_feature_names()
是否可以使用上述列表重命名特征并进一步将其用于分类过程???