9

我正在尝试冻结经过免费训练的 VGG16 层(下面的“conv_base”)并在它们之上添加新层以进行特征提取。我希望在模型拟合之前(ret1)/之后(ret2)从“conv_base”获得相同的预测结果,但事实并非如此。这是检查体重冻结的错误方法吗?

加载 VGG16 并设置为不可训练

conv_base  = applications.VGG16(weights='imagenet', include_top=False, input_shape=[150, 150, 3]) 
conv_base.trainable = False

模型拟合前的结果

ret1 = conv_base.predict(np.ones([1, 150, 150, 3]))

在 VGG16 上添加层并编译模型

model = models.Sequential()
model .add(conv_base)
model .add(layers.Flatten())
model .add(layers.Dense(10, activation='relu'))
model .add(layers.Dense(1, activation='sigmoid'))
m.compile('rmsprop', 'binary_crossentropy', ['accuracy'])

拟合模型

m.fit_generator(train_generator, 100, validation_data=validation_generator, validation_steps=50)

模型拟合后的结果

ret2 = conv_base.predict(np.ones([1, 150, 150, 3]))

希望这是真的,但事实并非如此。

np.equal(ret1, ret2)
4

3 回答 3

11

这是一个有趣的案例。为什么会发生这种情况是由以下原因引起的:

编译后无法冻结整个模型,如果未编译,则不会冻结

如果您设置了一个标志model.trainable=False,那么在编译时会将keras所有层设置为不可训练。如果您在编译后设置此标志 - 那么它根本不会影响您的模型。同样 - 如果您在编译之前设置此标志,然后您将重用模型的一部分来编译另一个模型 - 它不会影响您重用的层。因此,model.trainable=False仅当您按以下顺序应用它时才有效:

# model definition
model.trainable = False
model.compile()

在任何其他情况下,它都不会按预期工作。

于 2017-11-09T22:59:00.093 回答
10

您必须单独冻结图层(编译前):

for l in conv_base.layers: 
    l.trainable=False

如果这不起作用,您可能应该使用新的顺序模型来冻结图层。

如果模型中有模型,则应递归执行此操作:

def freezeLayer(layer):
    layer.trainable = False
    if hasattr(layer, 'layers'):
        for l in layer.layers:
            freezeLayer(l)

freezeLayer(model)
于 2017-11-09T16:03:18.550 回答
1

评价最高的答案不起作用。正如 Keras 官方文档 ( https://keras.io/getting-started/faq/ ) 所建议的,它应该按层执行。尽管模型有一个“可训练”参数,但它可能尚未实现。最安全的方法是执行以下操作:

for layer in model.layers:
    layer.trainable = False
model.compile()
于 2019-08-07T11:29:35.523 回答