Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在处理我想用 doc2vec 转换的电子邮件内容数据集。这是一个带标签的数据集(垃圾邮件/非垃圾邮件),它是不平衡的(90-10 比率)。我的问题是:在标记电子邮件的内容时,我应该首先过采样(使用 SMOTE),还是可以按原样使用数据集?
两者都试,选择哪个效果更好。
(另外:避免在 中使用已知标签作为文档标识符Doc2Vec,因为实际上这会将数据集变成两个巨大的文档——对于训练任何有用维度的文档向量来说太少了——而不是许多不同的文档需要一个有趣/有用的高维文档向量集。)
Doc2Vec