假设我有一个名为“NN”的神经网络,具有 500 个权重和偏差(总参数 = 500)。
对于一个训练样本:它是通过'NN'引入的,它输出一个输出(Out1),输出与训练标签进行比较,并且使用反向传播算法,'的每个参数都有一个小的变化(正或负) NN'。成本函数由一个 1x500 维向量表示,所有小的修改都由反向传播算法获得。
假设 mini_batch_size=10
对于一个小批量:10 个训练样本中的每一个都提供 1x500 维度的成本函数。
为了更好地可视化和解释,假设我们创建了一个 10x500(称为 M)的矩阵,其中每一行都是每个训练样本的成本函数。
问题:对于小批量训练的例子,小批量的最终成本函数是所有列元素的平均值吗?
PD。如果问题不够清楚,我会留下一些代码说明我的意思。
for j=1:500
Cost_mini_batch(j)=sum(M(:,j))/10
end
Cost_mini_batch 的尺寸为 1x500。