regex - 在 CountVectorizer 上使用正则表达式删除数字和符号

Question

目前，我有一个 CountVectorizer 函数

CountVectorizer(stop_words=stopwords.words('spanish'),token_pattern=r'(?u)\b\w\w+\b')

Sklearn默认使用token_pattern，我在get_features_names上有一些结果如下：

000,02,10,100,1080,11,14,17,19,1994,1ª,2015,2017,22,24horas,2t0s6dgxnm,30,31,32,_aitor,_anamilan_,_cuteresa,_raquel97_

我想删除数字和_符号。我知道要做到这一点，我必须默认修改正则表达式函数：r'(?u)\b\w\w+\b'所以，有什么建议吗？

谢谢。

更新：

好词： abrazo, aburrir, extrañar, además

坏词： anamilan ,000,02,10,100,1080

我想添加ñ,á,é,í,ó,ú，我试过了，[á-ú_ñ]+但它不起作用。

score 1 · Accepted Answer

1

此模式应匹配所有数字和 _。

[\d_]

于 2018-05-07T16:42:42.667 回答

1 回答 1