python - 如何让 scikit 从预先标记的文档中计算文档术语矩阵？

Question

我必须使用可以加载到list字符串中的预标记文档。我想使用 scikit 的CountVectorizer为它们计算文档术语矩阵。这可能吗？

或者我应该自己手动构建/计算一个docterm矩阵？

我想为此使用 scikit 的原因是，以上内容需要集成到使用 scikits CountVectorizer 和BinomialNB训练的程序中。

score 1 · Accepted Answer

在下面的代码中，text_list 是“列表列表”，换句话说就是 text_list = [[doc1],[doc2],...,[docn]]。您可以获得一个稀疏矩阵，其中包含语料库中每个文档的术语及其频率。

from sklearn.feature_extraction.text import CountVectorizer

count_vect = CountVectorizer()
TermCountsDoc = count_vect.fit_transform(text_list)   
Terms = np.array(count_vect.vocabulary_.keys())
T= TermCountsDoc.todense() #in case you need to transform it to dense matrix

python - 如何让 scikit 从预先标记的文档中计算文档术语矩阵？

1 回答 1

Related

Reference