我正在使用 sklearn python lib 中的 CountVectorizer从文件中对语料库进行矢量化,并带有input='filename'
初始化 CountVectorizer 的选项
from sklearn.feature_extraction.text import CountVectorizer
corpus1=['file_name1','file_name2',...]
count_vectorizer = CountVectorizer(input='filename')
MAT1 = count_vectorizer.fit_transform(corpus1)
然后我需要使用模型来转换一个新的语料库但是在 numpy.array(['str1','str2'])
corpus2 = numpy.array(['str1','str2'])
# ideally
MAT2 = count_vectorizer(input='content').transform(corpus2)
这通常可以在 CountVectorizer 初始化时完成,input='content'
但我不知道如何指定一种新的输入类型。
有什么想法或解决方法吗?
谢谢 !