Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
又是一个简单的问题:使用 Ngrams(unigram/bigrams 等)作为简单的二元特征,还是在 ML 模型(如支持向量机)中使用它们的 Tfidf 分数来执行情绪分析或文本分类/分类等 NLP 任务更好?
正如史蒂夫在评论中提到的,最好的答案(和 ML 风格的方式)是尝试!
话虽如此,我将从二进制特征开始。您的 ML 模型(如 SVM)的目标是确定这些特征的“权重”,因此如果它有效,则不必尝试提前设置此权重(使用 TFIDF 或其他)。