0

假设我有一个名为“NN”的神经网络,具有 500 个权重和偏差(总参数 = 500)。

对于一个训练样本:它是通过'NN'引入的,它输出一个输出(Out1),输出与训练标签进行比较,并且使用反向传播算法,'的每个参数都有一个小的变化(正或负) NN'。成本函数由一个 1x500 维向量表示,所有小的修改都由反向传播算法获得。

假设 mini_batch_size=10

对于一个小批量:10 个训练样本中的每一个都提供 1x500 维度的成本函数。

为了更好地可视化和解释,假设我们创建了一个 10x500(称为 M)的矩阵,其中每一行都是每个训练样本的成本函数。

问题:对于小批量训练的例子,小批量的最终成本函数是所有列元素的平均值吗?

PD。如果问题不够清楚,我会留下一些代码说明我的意思。

for j=1:500
Cost_mini_batch(j)=sum(M(:,j))/10
end

Cost_mini_batch 的尺寸为 1x500。

4

1 回答 1

0

“成本”是指损失,即 Out1 和训练标签之间的误差。

成本函数由一个 1x500 维向量表示,所有小的修改都由反向传播算法获得。

这称为“梯度”,而不是成本函数。

问题:对于小批量训练的例子,小批量的最终成本函数是所有列元素的平均值吗?

是的,小批量的梯度和成本函数都是小批量中每个示例的梯度的平均值。

于 2020-03-21T12:48:58.280 回答