pytorch - 如何在训练 Huggingface Transformers (Pegasus) 模型的过程中防止 VRAM 不足？

Question

我正在通过 Huggingface 转换器采用预先训练的 pegasus 模型（特别是google/pegasus-cnn_dailymail，我正在通过 Pytorch 使用 Huggingface 转换器），我想根据自己的数据对其进行微调。然而，这是一个相当大的数据集，我遇到了在训练中途耗尽 VRAM 的问题，因为数据集的大小可能在训练开始后几天，这使得试错方法非常低效。

我想知道如何提前确保它不会耗尽内存。我认为模型的内存使用量在某种程度上与输入的大小成正比，所以我已经将truncation=True, padding=True,传递max_length=1024给我的标记器，如果我的理解是正确的，应该使标记器的所有输出都相同每行的大小。考虑到批量大小也是一个常数，我认为使用中的 VRAM 量应该是稳定的。所以我应该能够将数据集切割成可管理的部分，只需查看第一次运行的 ram/vram 使用情况，并推断它会从头到尾平稳运行。

然而，事实似乎恰恰相反。我一直在观察任何时候使用的 VRAM 的数量，它可以变化很大，从一次 ~ 12GB 到突然需要超过 24GB 和崩溃（因为我没有超过 24GB）。

那么，如何确保在整个训练过程中使用的 vram 数量保持在合理范围内，并避免在训练过程中由于缺少 vram 而崩溃？

score 1 · Accepted Answer

padding=True实际上并没有填充到max_length，而是填充到您传递给标记器的列表中最长的样本。要填充到max_length您需要设置padding='max_length'.

pytorch - 如何在训练 Huggingface Transformers (Pegasus) 模型的过程中防止 VRAM 不足？

1 回答 1

Related

Reference