machine-learning - 罕见事件的机器学习分类问题总是预测为 0

Question

我有一个机器学习问题。我有一个机器学习分类任务，其中分类是 -1、0 或 1。实际上，绝大多数时间正确分类是 0，大约 1% 的时间，答案是 -1 或 1。

训练时（我正在使用 auto_ml 但我认为这是一个普遍问题）我发现我的模型决定它可以通过每次预测 0 来获得 99% 的准确度。

这是一个已知的现象吗？除了提出更多分类之外，我还能做些什么来解决这个问题？也许是把 0 分成不同的类别。

任何建议或关于下一步阅读内容的指示都将受到赞赏。

谢谢。

score 1 · Accepted Answer

您应该更深入地研究您的数据集。看来，您的数据集不平衡。可能的解决方案：

尝试平衡您的数据集 - 添加更多带有标签 1 和 -1 的数据或减少带有 0 标签的行数；
如果不可能使您的数据集平衡，请尝试更改方法。您可以假设标签 1 和 -1 是异常值，并尝试解决查找异常值的问题。以下是一些如何使用库 scikit-learn 处理异常值的示例；

score 0 · Accepted Answer

是的，ML 可能很懒惰 ;-)

您可以尝试将更多罕见案例纳入您的训练集中。不过，您使用“事件”这个词，这让我想知道您是否在进行某种时间序列分析——这是某种循环网络吗？如果是这样，那么用更多的罕见事件进行训练可能是不现实的。

2 回答 2