-2

我有一个机器学习问题。我有一个机器学习分类任务,其中分类是 -1、0 或 1。实际上,绝大多数时间正确分类是 0,大约 1% 的时间,答案是 -1 或 1。

训练时(我正在使用 auto_ml 但我认为这是一个普遍问题)我发现我的模型决定它可以通过每次预测 0 来获得 99% 的准确度。

这是一个已知的现象吗?除了提出更多分类之外,我还能做些什么来解决这个问题?也许是把 0 分成不同的类别。

任何建议或关于下一步阅读内容的指示都将受到赞赏。

谢谢。

4

2 回答 2

1

您应该更深入地研究您的数据集。看来,您的数据集不平衡。可能的解决方案:

  • 尝试平衡您的数据集 - 添加更多带有标签 1 和 -1 的数据或减少带有 0 标签的行数;
  • 如果不可能使您的数据集平衡,请尝试更改方法。您可以假设标签 1 和 -1 是异常值,并尝试解决查找异常值的问题。以下是一些如何使用库 scikit-learn 处理异常值的示例;
于 2018-10-03T21:05:36.520 回答
0

是的,ML 可能很懒惰 ;-)

您可以尝试将更多罕见案例纳入您的训练集中。不过,您使用“事件”这个词,这让我想知道您是否在进行某种时间序列分析——这是某种循环网络吗?如果是这样,那么用更多的罕见事件进行训练可能是不现实的。

于 2018-10-03T21:28:17.747 回答