考虑使用小批量梯度下降的深度 FF 神经网络的训练过程。据我了解,在训练的每个时期,我们都有不同的随机小批量集。然后迭代所有小批量并计算 NN 参数的梯度,我们将在每次迭代中获得随机梯度,因此模型参数的随机方向可以最小化成本函数。假设我们固定了训练算法的超参数并一次又一次地开始训练过程,然后我们会得到彼此完全不同的模型,因为在那些训练中模型参数的变化是不同的。
1)当我们使用这种基于随机的训练算法时,总是这样吗?
2)如果是这样,那么使用在先前训练和验证中找到的最佳超参数再次训练 NN 将再次为我们提供最佳模型的保证在哪里?
3)是否有可能找到这样的超参数,它们总是会产生最好的模型?