matlab - 训练样本成本函数与小批量成本函数之间的差异

Question

假设我有一个名为“NN”的神经网络，具有 500 个权重和偏差（总参数 = 500）。

对于一个训练样本：它是通过'NN'引入的，它输出一个输出（Out1），输出与训练标签进行比较，并且使用反向传播算法，'的每个参数都有一个小的变化（正或负） NN'。成本函数由一个 1x500 维向量表示，所有小的修改都由反向传播算法获得。

假设 mini_batch_size=10

对于一个小批量：10 个训练样本中的每一个都提供 1x500 维度的成本函数。

为了更好地可视化和解释，假设我们创建了一个 10x500（称为 M）的矩阵，其中每一行都是每个训练样本的成本函数。

问题：对于小批量训练的例子，小批量的最终成本函数是所有列元素的平均值吗？

PD。如果问题不够清楚，我会留下一些代码说明我的意思。

for j=1:500
Cost_mini_batch(j)=sum(M(:,j))/10
end

Cost_mini_batch 的尺寸为 1x500。

score 0 · Accepted Answer

“成本”是指损失，即 Out1 和训练标签之间的误差。

成本函数由一个 1x500 维向量表示，所有小的修改都由反向传播算法获得。

这称为“梯度”，而不是成本函数。

问题：对于小批量训练的例子，小批量的最终成本函数是所有列元素的平均值吗？

是的，小批量的梯度和成本函数都是小批量中每个示例的梯度的平均值。

1 回答 1