首先,我是 python 和 nlp / 机器学习的新手。现在我有以下代码:
vectorizer = CountVectorizer(
input="content",
decode_error="ignore",
strip_accents=None,
stop_words = stopwords.words('english'),
tokenizer=myTokenizer
)
counts = vectorizer.fit_transform(data['message'].values)
classifier = MultinomialNB()
targets = data['sentiment'].values
classifier.fit(counts, targets)
现在这实际上工作得很好。我通过使用矩阵和目标CountVectorizer
得到一个稀疏矩阵。classifier
(0,2,4)
但是,如果我想在向量中使用更多特征而不仅仅是字数,我该怎么办?我似乎无法找到它。先感谢您。