python - TfIdfVectorizer 中的特征选择

翻译自：https://stackoverflow.com/questions/66090906 2021-02-07T17:26:07.953

28 次

我想使用对两组文档进行分类TfIdfVectorizer。但是TfIdfVectorizer根据两个文档中的频率列出单词。例如，在下面的示例中，单词 Tom 和 Jerry 是定义词，而max_features参数检索常用词（'hi'、'is'、'my'）。显然，文档差异对于分类很重要，而不是相似之处。那么，如何提取每个文档中的决定词呢？此外，在这种情况下，删除停用词并没有真正的帮助。

from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd


corpus = [
    'hi, my name is Tom.',
    'hi, my name is Jerry.'
]

vectorizer = TfidfVectorizer(max_features=3, ngram_range=(1, 1))
X = vectorizer.fit_transform(corpus).todense()


df = pd.DataFrame(X, columns=vectorizer.get_feature_names())
df.to_csv('test.csv')

输出：

,hi,is,my
0,0.5773502691896258,0.5773502691896258,0.5773502691896258
1,0.5773502691896258,0.5773502691896258,0.5773502691896258

预期输出：

,jerry,tom
0,0.0,0.5749618667993135
1,0.5749618667993135,0.0

python - TfIdfVectorizer 中的特征选择

0 回答 0

Related

Reference