0

我有大型 CSV 文件,这些文件以 5 公里网格的每小时分辨率表示美国的天气数据。每天都会保存数据,因此我将它们连接在一起作为年度文件。最终目标是按纬度和经度计算变量(风速、温度、降水、压力等)的每日、每周和每月平均值。没有列标题,所以我在读入文件时将列名添加到文件中。

当我尝试在 Python 中使用 Pandas 读取时,它失败了,因为它不适合内存。我可以使用 Dask 阅读,但是我找不到将维度添加到 Dask 数据框或转换为 xarray 并执行相同操作的方法。有没有办法读取这些太大的内存文件,添加纬度、经度、日期时间维度,计算每个纬度/经度的每日、每周和每月平均值并输出文件?或者,我是否需要在读入之前将 csv 转换为 netCDF 或类似的?

4

1 回答 1

0

据我所知,如果不通过 pandas,就无法将 CSV 加载到 xarray 中。所以,是的,您需要更改文件格式才能使用 xarray。您也可以考虑将数据分解为更小的文件。

于 2020-06-01T12:42:07.280 回答