问题标签 [checkpoint]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
virtualbox - 通过 oracle vm 虚拟服务器通过 iso 检查点版本升级失败(R76→R77.30)
我写这篇文章是为了向您询问有关 iso 通过 oracle vm 虚拟服务器的 Check point version up failure (R76→R77.30) 的问题。
mount iso 后,我在虚拟服务器中命令「upgrade cd」。
然后,错误消息如下。
bin/upgrade_start:第 16 行:./upgrade:输入/输出错误
PGRADE:升级失败 - 退出状态 = 126
需要你的帮助。
azure - VPN 设备名称
我使用带有 VPN 网关的 microsoft azure 虚拟网络,我想连接到检查点站点到站点 VPN。
对方询问我的 VPN 设备名称是什么。我没有答案。他们问的是品牌名称吗?
Azure 门户显示 VPN 类型:基于路由。但它不会在任何地方显示设备名称。如何解决这个问题?提前非常感谢。
docker - Docker 容器迁移
我正在尝试使用实验性检查点功能来实现机器之间的容器迁移。我在同一台机器上找到了许多检查点和恢复的示例,但我只找到了有关在不同机器之间迁移检查点的文档:
https://circleci.com/blog/checkpoint-and-restore-docker-container-with-criu/
但是,它使用的命令已经过时,并且 docker checkpoint restore 不再可用。相反,应该使用 docker start --checkpoint 语法。我已经完成了我的用例如下:
主机 1:有一个 docker 容器正在运行,我在 $CHECKPOINT_FOLDER 中的某个位置执行检查点,该位置是具有 docker 的不同机器之间的共享文件夹,checkpoint create --checkpoint-dir=$CHECKPOINT_FOLDER $NAME checkpoint-$NAME
其中 $NAME 是正在运行的容器的名称(在本例中为 13)。
主机 2:可以访问 $CHECKPOINT_FOLDER 文件夹,我可以看到创建的文件夹。我docker start --checkpoint-dir $CHECKPOINT_FOLDER --checkpoint checkpoint-$NAME $NAME
再次运行 $NAME 与在主机 1 (one-13) 上运行的容器的名称相同的地方。但是我收到此错误:
没有这样的容器:1-13
这让我觉得我必须在开始检查点之前创建一个容器,但是,我该怎么做呢?不应该从检查点自动创建吗?如果没有,有没有办法将检查点传递给 docker create 命令?这个用例的工作流程是什么?
谢谢你。
tensorflow - 张量流中检查点之间的间隔
如何指定张量流中两个连续检查点之间的间隔?没有选项tf.train.Saver
可以指定。每次,我用不同数量的全局步骤运行模型,我都会在检查点之间获得一个新的间隔
python - 如何读取张量流中的所有参数?
我想制作一个 txt 文件,其中包含每一层的权重和偏差。所以我尝试从检查点文件中提取这些参数,如下所示
之后,当我打开 weight.txt 文件时,它没有显示“Variable_4/Adam”的所有参数。因为'Variable_4/Adam'有很多参数,所以将部分参数显示为'...,'如下。
如何将每一层的所有参数保存在 txt 文件中?
tensorflow - Tensorflow:在 GPU 上训练的模型(检查点文件)可以转换为 CPU 运行模型吗?
使用 GPU 训练模型,结果由检查点文件保存。保存的检查点文件可以通过 cpu-tensorflow 运行吗?如果没有,可以转换保存的检查点文件以便在 cpu-tensorflow 中运行模型吗?
model - Tensorflow - 恢复模型失败并显示消息“尝试使用未初始化的值”
我对TensorFlow真的很陌生,所以请耐心等待,即使这个问题完全是胡说八道......
我有一个代码
1)定义网络像
2)然后恢复模型
这段代码恢复了模型,在单独的文件中运行时工作得很好。但是,当在此运行时,它会中止并显示以下错误消息
回溯(最后一次调用):文件“lenet_my.py”,第 160 行,在 print(sess.run(v)) 文件“/usr/local/lib/python2.7/dist-packages/tensorflow/python/client /session.py”,第 766 行,在运行 run_metadata_ptr)文件“/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py”,第 964 行,在 _run feed_dict_string,选项中, run_metadata)文件“/usr/local/lib/python2.7/dist-packages/tensorflow/python/client/session.py”,第 1014 行,在 _do_run 目标列表,选项,run_metadata)文件“/usr/local/lib/ python2.7/dist-packages/tensorflow/python/client/session.py”,第 1034 行,在 _do_call raise type(e)(node_def, op, message) tensorflow.python.framework.errors_impl.FailedPreconditionError:尝试使用未初始化的值 lenet_model/conv_pool_1/W_conv1 [[节点:_send_lenet_model/conv_pool_1/W_conv1_0 = _SendT=DT_FLOAT, client_terminated=true, recv_device="/job:localhost/replica:0/task:0/cpu:0", send_device ="/job:localhost/replica:0/task:0/cpu:0", send_device_incarnation=422131278131772803, tensor_name="lenet_model/conv_pool_1/W_conv1:0", _device="/job:localhost/replica:0/task: 0/cpu:0"]]0/任务:0/cpu:0"]]0/任务:0/cpu:0"]]
在我第一次看到这条消息后,我取消了#NOTE 下的注释,即
它没有显示这样的错误,但是预训练的变量没有被恢复,而是按照我在定义网络时定义它的方式进行了初始化。
所以我有两个问题!
首先,我不明白在一个单独的文件中运行代码和在一个文件中运行它以获得这种可怕的错误消息之间有什么区别第二,我不明白为什么初始化变量然后用编写的代码恢复模型上面不会恢复之前训练的变量。
提前谢谢
lua - 从 torch7 的检查点恢复 CNN 的训练
我正在训练一个 CNN。在总时期结束时,我实现了大约 0.001 l2 损失并保存了一个检查点。现在,当我想恢复训练时,我加载了检查点,我开始的错误大于 0.008。
这是我保存检查点的方法:
这是我加载检查点的方式:
util 是直接从soumith chintala 的 dcgan.torch使用的 lua 文件。
我想知道我哪里出错了,为什么 l2 损失比我在那个检查点训练它时要高。我检查了我正在加载训练有素的检查点,但我仍然收到更高的错误。
machine-learning - 如何使用 Keras 的 ModelCheckpoint 继续训练模型
我是 Keras 的新用户。我对使用 Keras 的培训程序有疑问。
由于我的服务器的时间限制(每个作业只能在不到 24 小时内运行),我必须使用多个 10 纪元来训练我的模型。
在第一个训练阶段,经过 10 个 epoch,使用 Keras 的 ModelCheckpoint 存储最佳模型的权重。
假设我得到最好的模型:'1st_10_1.00000.hdf5'。接下来,我继续使用 10 个 epoch 训练我的模型并存储最佳模型的权重,如下所示。
但我有一个问题。第二次训练的第一个时期给出 1.20000 的 val_loss,脚本生成模型“2nd_1_1.20000.hdf5”。显然,新的 val_loss 大于第一次训练的最佳 val_loss(1.00000)。第二次训练的以下时期似乎是基于模型“2nd_1_1.20000.hdf5”而不是“1st_10_1.00000.hdf5”进行训练的。
我认为不使用第一个培训期的更好结果是一种浪费。任何人都可以指出修复它的方法,或者告诉程序它应该使用上一个训练期的最佳模型的方法?提前谢谢了!
tensorflow - 恢复 Tensorflow 模型:在检查点文件中找不到 batch_norm 层的 gamma/scale
我能够恢复模型并从检查点文件中提取权重、偏差和 batch_norm 层的参数。但是对于多个检查点文件(初始模型等),我找不到 BN 层的缩放/伽马因子。
例如,在公共 inceptionV3 检查点中,我可以定位到:
InceptionV3/Mixed_5d/Branch_2/Conv2d_0a_1x1/BatchNorm/moving_mean (DT_FLOAT) [64]
InceptionV3/Mixed_5d/Branch_2/Conv2d_0a_1x1/BatchNorm/moving_variance (DT_FLOAT) [64]
InceptionV3/Mixed_5d/Branch_2/Conv2d_0a_1x1/BatchNorm/beta (DT_FLOAT) [64]
但是,没有诸如InceptionV3/Mixed_5d/Branch_2/Conv2d_0a_1x1/BatchNorm/gamma
.
如何获得伽玛值或默认重新调整为 1?
非常感谢!