python - 加速代码从 SFTP 下载文件

Question

我想检查是否有更快的方法从物理计算机上的文件夹中不存在的 SFTP 下载数据。问题是这些文件是 5 分钟间隔的快照，而当前的 SFTP 文件夹有数千个（从 2016 年 8 月起至少每 5 分钟一次）。

我计划询问客户他们是否可以清理 SFTP 并有一个删除旧数据的过程，但同时我也想改进我的下载代码。

本质上，我检查 SFTP 上的每个文件夹，然后检查我计算机上的相应文件夹。如果该文件不存在，那么我下载它（我现在使用的是 Windows 10）。即使列出所有文件并检查它们是否存在也需要很长时间（仅其中一个文件夹需要 1400 秒，这意味着我无法尝试每 5 分钟运行一次）。

with pysftp.Connection(host, username, password, port, cnopts) as sftp:
    logger.info('Server connected')
    for folder in folders:
        sftp.chdir(folder)
        logger.info('Downloading data from the {} folder'.format(folder))
        for file in sftp.listdir():
            if file not in os.listdir(os.path.join(path, folder.lower())) and sftp.isfile(file):
                logger.info('Downloading: {}'.format(file))
                os.chdir(os.path.join(path, folder.lower()))
                sftp.get(file, preserve_mtime=True)

以下是其中一个文件夹的确切文件名结构：

文件名-2016-12-06-08-55-05-to-09-00-17.csv

这一个文件夹（共 7 个文件夹）有 30,000 个文件（只有 129MB 的数据）

score 1 · Accepted Answer

恐怕很难使这个脚本显着更快，因为paramiko它并不以超快着称。如果可能的话，这似乎更像是一份工作rsync。如果rsync远程主机上没有，您仍然可以尝试通过 sftp 挂载远程文件系统并在本地运行 rsync。

话虽如此，我注意到的一件事是表达式os.listdir(os.path.join(path, folder.lower()))会针对每个远程文件进行评估，即使它只在最外层循环的每次迭代中发生变化。因此，您可以为每个构建该列表一次folder，然后重新使用它。然而，我怀疑这会产生很大的不同。

python - 加速代码从 SFTP 下载文件

1 回答 1

Related

Reference