我有一个机器学习问题。我有一个机器学习分类任务,其中分类是 -1、0 或 1。实际上,绝大多数时间正确分类是 0,大约 1% 的时间,答案是 -1 或 1。
训练时(我正在使用 auto_ml 但我认为这是一个普遍问题)我发现我的模型决定它可以通过每次预测 0 来获得 99% 的准确度。
这是一个已知的现象吗?除了提出更多分类之外,我还能做些什么来解决这个问题?也许是把 0 分成不同的类别。
任何建议或关于下一步阅读内容的指示都将受到赞赏。
谢谢。
我有一个机器学习问题。我有一个机器学习分类任务,其中分类是 -1、0 或 1。实际上,绝大多数时间正确分类是 0,大约 1% 的时间,答案是 -1 或 1。
训练时(我正在使用 auto_ml 但我认为这是一个普遍问题)我发现我的模型决定它可以通过每次预测 0 来获得 99% 的准确度。
这是一个已知的现象吗?除了提出更多分类之外,我还能做些什么来解决这个问题?也许是把 0 分成不同的类别。
任何建议或关于下一步阅读内容的指示都将受到赞赏。
谢谢。
您应该更深入地研究您的数据集。看来,您的数据集不平衡。可能的解决方案:
是的,ML 可能很懒惰 ;-)
您可以尝试将更多罕见案例纳入您的训练集中。不过,您使用“事件”这个词,这让我想知道您是否在进行某种时间序列分析——这是某种循环网络吗?如果是这样,那么用更多的罕见事件进行训练可能是不现实的。