machine-learning - 不平衡数据集的标记化

翻译自：https://stackoverflow.com/questions/65610669 2021-01-07T10:31:10.263

42 次

-1

我正在处理我想用 doc2vec 转换的电子邮件内容数据集。这是一个带标签的数据集（垃圾邮件/非垃圾邮件），它是不平衡的（90-10 比率）。我的问题是：在标记电子邮件的内容时，我应该首先过采样（使用 SMOTE），还是可以按原样使用数据集？

1 回答 1

0

两者都试，选择哪个效果更好。

（另外：避免在中使用已知标签作为文档标识符Doc2Vec，因为实际上这会将数据集变成两个巨大的文档——对于训练任何有用维度的文档向量来说太少了——而不是许多不同的文档需要一个有趣/有用的高维文档向量集。）

于 2021-01-07T17:59:45.213 回答