-1

我已经使用项目页面中推荐的参数训练了 5 天的文本总和。我使用了一个包含超过 300 万条文章-摘要对的训练集。

一开始running_average_loss从9左右慢慢下降到4左右,但之后running_average_loss数值变化范围很广,可以高达5以上,但有时可以低至1。我用一些文章测试了模型训练集,但输出与引用的摘要相去甚远,我很困惑。有人可以分享他们的经验吗?

我对以下问题感到困惑

  1. running_average_loss每次跑步都小于10,正常吗?
  2. 由于running_average_loss 在很大范围内变化并且没有收敛的迹象,是否过度拟合?
  3. 训练一个足够好的模型需要多长时间或何时停止训练?是否有指示停止训练的标志?

在此处输入图像描述

4

1 回答 1

0

我认为您没有进行足够的培训,因为从图中可以看出它有 50K 步,即使批量大小为 64 网络最大也看到 50k * 64 个样本。这比您拥有的 300 万个样本要小得多。该网络甚至一次都没有看到所有样本。因此,您需要再次通过相同的样本进行多次迭代才能更好地收敛。

如果您考虑平均损失,我相信损失 1 将是一个相当不错的损失。我认为您的网络正在以采样的 softmax 损失运行。我很想知道你们从哪里获得了 300 万个样本。

于 2017-11-07T12:07:16.750 回答