0

我构建并训练了一个无监督的深度人工神经网络来检测大型数据集中的高阶特征。

数据包括每日天气测量结果,我的深度网络最后一层的输出是 4 个神经元宽,希望能代表高阶特征。现在我想检测一个非常罕见的事件(例如龙卷风)的概率。10,000 out of 5,000,000我挑出了导致龙卷风的数据点,但关于数据点的数据很少。

What's the best design for my tornado classifier?
  • 创建一个仅由 10,000 个tornado数据点组成的训练集,每次期望的输出为 1?
  • 创建一个由所有 5,000,000 个数据点组成的训练集,当没有龙卷风时输出 0,当有龙卷风时输出 1?但这可能永远无法预测龙卷风。
  • 其他解决方案?
4

1 回答 1

2

我不明白你为什么使用无监督学习。这听起来像是一个纯粹的监督学习任务。

您不应该丢弃用于预测罕见事件的数据。如果一个事件非常罕见,那么网络当然会预测它的概率非常低。因为确实如此。这被称为“偏见”。然而,网络的其余部分仍然应该努力学习区分正面和负面的例子。

如果你不喜欢这样,你可以尝试不同的损失函数。也许是一个损失函数,它对丢失的正例的惩罚比对负例的惩罚更大。或者,您可以通过向数据集中添加更多正样本副本来改变网络偏差。

你最好问问数据科学堆栈交换顺便说一句:https ://datascience.stackexchange.com/

于 2015-01-02T19:32:13.333 回答