1

目标:使用 Pytorch Lightning 框架在分布式数据并行 (DDP) 设置中训练模型

问题:

  1. 训练数据分区:如何使用 Pytorch Lightning 处理跨不同 GPU 的数据分区?我应该手动分区数据还是 Pytorch 闪电会解决这个问题?

  2. 损失平均:我是否必须自己汇总损失,或者 Pytorch Lightning 会自动执行此操作?

我一直在花时间研究 pytorch 闪电的代码库,寻找如何处理 DDP 同步,但找不到确切的代码。希望对此作出澄清。

4

1 回答 1

2

Lightning 会为您处理这两种情况,但它可以被覆盖。可以在此处的官方 github 中找到此代码。

于 2021-01-19T23:16:55.753 回答