我已经使用项目页面中推荐的参数训练了 5 天的文本总和。我使用了一个包含超过 300 万条文章-摘要对的训练集。
一开始running_average_loss
从9左右慢慢下降到4左右,但之后running_average_loss
数值变化范围很广,可以高达5以上,但有时可以低至1。我用一些文章测试了模型训练集,但输出与引用的摘要相去甚远,我很困惑。有人可以分享他们的经验吗?
我对以下问题感到困惑
running_average_loss
每次跑步都小于10,正常吗?- 由于
running_average_los
s 在很大范围内变化并且没有收敛的迹象,是否过度拟合? - 训练一个足够好的模型需要多长时间或何时停止训练?是否有指示停止训练的标志?