2

我正在训练一个简单的文本分类模型(目前使用 scikit-learn)。使用我使用的词汇表将我的文档样本转换为字数向量

CountVectorizer(vocabulary=myDictionaryWords).fit_transform(myDocumentsAsArrays)

sklearn.feature_extraction.text.

这很好用,我随后可以将此字数向量作为特征向量训练我的分类器。但我不知道的是如何将这些字数向量逆变换为原始文档。CountVectorizer确实有一个功能inverse_transform(X),但这只会给你唯一的非零令牌。

据我所知,CountVectorizer 没有任何映射回原始文档的实现。

任何人都知道我如何从它们的计数向量化表示中恢复原始的标记序列?可能有 Tensorflow 或任何其他模块吗?

4

1 回答 1

4

CountVectorizer 是“有损”的,即对于文档 : This is the amazing string in amazing program,它只会存储文档中的单词计数(即字符串 -> 1、惊人的 ->2 等),但会丢失位置信息。因此,通过反转它,您可以创建一个具有相同单词重复相同次数的文档,但它们在文档中的顺序无法追溯。

于 2017-07-13T09:36:32.127 回答