目前,我有一个 CountVectorizer 函数
CountVectorizer(stop_words=stopwords.words('spanish'),token_pattern=r'(?u)\b\w\w+\b')
Sklearn默认使用token_pattern,我在get_features_names上有一些结果如下:
000,02,10,100,1080,11,14,17,19,1994,1ª,2015,2017,22,24horas,2t0s6dgxnm,30,31,32,_aitor,_anamilan_,_cuteresa,_raquel97_
我想删除数字和_符号。我知道要做到这一点,我必须默认修改正则表达式函数:r'(?u)\b\w\w+\b'
所以,有什么建议吗?
谢谢。
更新:
好词: abrazo, aburrir, extrañar, además
坏词: anamilan ,000,02,10,100,1080
我想添加ñ,á,é,í,ó,ú,我试过了,[á-ú_ñ]+
但它不起作用。