目标:使用 Pytorch Lightning 框架在分布式数据并行 (DDP) 设置中训练模型
问题:
训练数据分区:如何使用 Pytorch Lightning 处理跨不同 GPU 的数据分区?我应该手动分区数据还是 Pytorch 闪电会解决这个问题?
损失平均:我是否必须自己汇总损失,或者 Pytorch Lightning 会自动执行此操作?
我一直在花时间研究 pytorch 闪电的代码库,寻找如何处理 DDP 同步,但找不到确切的代码。希望对此作出澄清。
目标:使用 Pytorch Lightning 框架在分布式数据并行 (DDP) 设置中训练模型
问题:
训练数据分区:如何使用 Pytorch Lightning 处理跨不同 GPU 的数据分区?我应该手动分区数据还是 Pytorch 闪电会解决这个问题?
损失平均:我是否必须自己汇总损失,或者 Pytorch Lightning 会自动执行此操作?
我一直在花时间研究 pytorch 闪电的代码库,寻找如何处理 DDP 同步,但找不到确切的代码。希望对此作出澄清。