我必须使用可以加载到list
字符串中的预标记文档。我想使用 scikit 的CountVectorizer为它们计算文档术语矩阵。这可能吗?
或者我应该自己手动构建/计算一个docterm矩阵?
我想为此使用 scikit 的原因是,以上内容需要集成到使用 scikits CountVectorizer 和BinomialNB训练的程序中。
我必须使用可以加载到list
字符串中的预标记文档。我想使用 scikit 的CountVectorizer为它们计算文档术语矩阵。这可能吗?
或者我应该自己手动构建/计算一个docterm矩阵?
我想为此使用 scikit 的原因是,以上内容需要集成到使用 scikits CountVectorizer 和BinomialNB训练的程序中。
在下面的代码中,text_list 是“列表列表”,换句话说就是 text_list = [[doc1],[doc2],...,[docn]]。您可以获得一个稀疏矩阵,其中包含语料库中每个文档的术语及其频率。
from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
TermCountsDoc = count_vect.fit_transform(text_list)
Terms = np.array(count_vect.vocabulary_.keys())
T= TermCountsDoc.todense() #in case you need to transform it to dense matrix