我有大型 CSV 文件,这些文件以 5 公里网格的每小时分辨率表示美国的天气数据。每天都会保存数据,因此我将它们连接在一起作为年度文件。最终目标是按纬度和经度计算变量(风速、温度、降水、压力等)的每日、每周和每月平均值。没有列标题,所以我在读入文件时将列名添加到文件中。
当我尝试在 Python 中使用 Pandas 读取时,它失败了,因为它不适合内存。我可以使用 Dask 阅读,但是我找不到将维度添加到 Dask 数据框或转换为 xarray 并执行相同操作的方法。有没有办法读取这些太大的内存文件,添加纬度、经度、日期时间维度,计算每个纬度/经度的每日、每周和每月平均值并输出文件?或者,我是否需要在读入之前将 csv 转换为 netCDF 或类似的?